主页 > E生活汇 >AI也能分辨敌友- >

AI也能分辨敌友-


2020-06-06


AI也能分辨敵友?

一万两千年前农业革命,随着大规模合作发展出的大型社会网络,人类逐渐演化出能在有限且短暂的互动中,辨认潜藏伙伴与敌人的认知能力。MIT认知科学与布朗大学资工系的四位教授,发展出一套基于随机博弈与强化学习的演算法,在所设计的社交关係观察实验中,表现出与人类不相上下的社交观察能力。

在竞争与合作并存的环境中,最大的挑战便是如何区分敌我,找出适合发展长期合作关係的对象。这样的社交评估能力,是基于心智理论(Theory of Mind,ToM),一种能够理解自己以及揣摩周围人类心理的能力。如何让机器具有类似的社会观察能力,辨认、判断各种潜在的合作关係,到採取实际行动,牵涉以下三种观念,缺一不可,在此一一简单介绍。

强化学习

「强化学习」(Reinforcement Learning)是机器学习的一种。有别于传统监督式学习输入与输出有明确定义,强化学习强调透过与环境的互动以及奖惩机制,来建立机器的行为模式。正如同训练猫、狗,若能精準遵循口令,则给予奖励,反之则施以惩罚,久而久之建立起「正确」的行为模式。

其中牵涉两个主要角色:行动者(Agent)与环境(Environment),后者泛指前者无法直接操控的一切事物。行动者无权更动奖惩规则,所以需要从与环境的互动中学习,调整自己的行为,以求最大化长期利益。为此,必须要能判定当前状态,并以累积更多的奖励为目标,选择接下来的动作,而这样的过程通常仰赖「马可夫决策」(Markov Decision Process)。

马可夫决策过程

若环境具有马可夫性质,则机器便可透过马可夫决策过程选择下一步。所谓「马可夫性质」(Markov property)是指:环境的未来取决于当下的状态,而与过去无关。决策过程考量下列变数:

状态(s∈S)
视问题而定,以下棋为例,可定义为棋盘中所有方格。动作(a∈A)
同样视问题而定,以下棋为例,便是棋子的移动规则。状态移转方程式 T(s, a, s’)
纪录从状态s採取动作a到达s’的机率。奖励函数方程式 R(s, a, s’)
从状态s採动作a到达s’,所能得到的奖励。这是关键,这样行动者才能学习如何在状态变换间获取最大奖励。γ折扣率(discount)
为了让未来回报总和收敛,γ∈[0, 1]π策略(policy)
行动者的行为函数,π (a|s) = P (at  = a|st = s)Gt回报
从时刻t开始的总折扣奖励,Gt = Rt+1 + γRt+2 + …= ​\( \sum_{k=1}^{\infty}\gamma^k R_{t+1+k} \)​vπ(s) 状态值函数
从状态s出发,按照策略π得到的期望回报,vπ(s) = Eπ(Gt | st = s)qπ(s, a) 行为值函数
从状态s出发,採取行为a后,按策略π採取行为得到的期望回报,qπ(s, a) = Eπ(Gt | st = s, at =a )

将单一行动者的马可夫决策过程扩展为一连串的决策决定,便可模拟随机博弈中的多人互动。

归纳偏置

机器透过训练所掌握输入与输出的对应关係,若需扩展应用至训练集外的样本时,势必做出某些预设,这些假设称为「归纳偏置」(inductive bias),或「学习偏误」(learning bias)。例如我们第一次遇到「fly」(输入)这个单字时,可能会以为是在字尾加上后缀-ed(对应关係)形成过去式(输出;作「飞行」解时,应为「flew」),「所有英语动词皆为规则变化」便是一种归纳偏置,或许无法百分之百正确,但足以应付多数情况;当人类或机器试图揣摩其他智慧体的心理状态或意图时,亦是如此。

研究团队认为:若可以「可组合团队层次结构」(Composable Team Hierarchies,CTH)为归纳偏置的内容,AI可以更贴近人类的社交观察能力。CTH包含三个函数运算子:两个简单计划运算子─「个体最佳反应运算子」(Best-Response operator,BR)与「共同规划运算子」(Joint-Planning operator,JP)─以及一个「替代运算子」(REPLACE),此以来概括多人的社会互动,由族群、部族到与联盟的合作关係。运用贝氏规则(Bayes Rule)对CTH做机率推论,推断行动者对他人採取的立场。

BR及JP的函式内容,就是强化学习中常用的「贝尔曼方程式」(Bellman Equation),表达行为值函数与动作值函数自身及相互的递迴关係;REPLACE则是将前述两个运算子结合起来。行动者可藉由方程式决定要採取怎样的行为?到什幺状态才会得到最高期望奖励?

综合上述三个步骤,以及其中所提的概念与数学模型,建构出完整的演算法,让机器可以由观察培养出人类的社交直觉,并做出推断。

猎鹿博弈

研究团队更设计了「猎鹿博弈实验」(stag-hunt)来测试AI的社交能力:三名猎人、两头鹿与两只兔子,一开始分别位于5×7方格中的不同位置。猎人捕获兔子可以得到1点,捕获鹿则可以得到20点,然而后者需要两名猎人同时抵达鹿的所在位置才算分。研究者提供猎人移动前三步的线索,要求机器与人类受试者分别判断在不同起始位置、不同路线,猎人间的合作关係。结果显示:此演算法已能在特定情境下,透过快速、抽象的观察判断社交关係,且与人类的判断相去不远。

编译来源

K. Hao, “An algorithm that mimics our tribal instincts could help AI learn to socialize“, MIT Technology Review, January 22, 2019.

参考资料

M. Shum, M. Kleiman-Weiner, M. L. Littman, and J. B. Tenenbaum, “Theory of Minds: Understanding Behavior in Groups Through Inverse Planning,” arXiv preprint arXiv:1901.06085, 2019.

(本文由教育部补助「AI报报─AI科普推广计画」执行团队编译)



上一篇:
下一篇:

热门推荐


7-11 台铁订票、取票服务流程,订票还送茶叶蛋1颗!
7-11 台铁订票、取票服务流程,订票还送茶叶蛋1颗!
今天(22日)早上10点开始,想要购买台铁车票的朋友不用再
7-11-7-25本週五起 大银幕热血献映
7-11-7-25本週五起 大银幕热血献映
联手担纲本季日韩映画祭中 最振奋人心的励志感人强片阵容 追
7-11~10-2 2015变形金刚台北特展 汇集全球成立满30年荣耀
7-11~10-2 2015变形金刚台北特展 汇集全球成立满30年荣耀
  2015变形金刚台北特展于即日起至10月2日(五)
7-11便利店委任新主席进行改革
7-11便利店委任新主席进行改革
7-11便利店剥削劳工丑闻,董事局将会研究改革公司的运作模式
7-11便利店被曝剥削员工 被诉上法庭
7-11便利店被曝剥削员工 被诉上法庭
雪梨西区的一间7-Eleven便利店的老闆涉嫌仅向两名移民员
7-11再进化商店6合一!小七店员哭了「60座位130坪谁要
7-11再进化商店6合一!小七店员哭了「60座位130坪谁要
外国人常常说台湾的便利商店相当方便不但密度高、24小时营业,