《Nature》最新研究大脑中存在分布式强化学习机制

《Nature》最新研究大脑中存在分布式强化学习机制

编译 | 雷锋网 AI 科技评论

因此,研究首要的问题便是,是否能够在神经数据中找到这些真实多样的奖励预测。在此前的工作中,研究者了解到多巴胺细胞会改变它们的放电率,来暗示出现了预测误差,也就是说,当动物获得了比它们的预期更多或更少的奖励,就是发生了预测误差。

如上图a所示,当奖励预测误差为正时,一些预测器有选择地“放大”或“加码”奖励预测误差(RPE)。与奖励分配的较高部分相对比,这种方法能够让预测器学习到一个更乐观的奖励预测。同样如上图所示,其他预测因子放大了它们的负奖励预测误差,因此学习更悲观的预测。综上所述,包含悲观和乐观奖励的预测器能够绘制完整的奖励分布图。 除了简单之外,分布式强化学习的另一个好处是,与深度神经网络结合使用时,它会非常强大。在过去5年中,基于原始的深度强化学习DQN agent的算法取得了很大进展,并且经常在Atari 2600游戏的Atari-57基准测试集上进行评估。

由于分布式时间差分在人工神经网络中的功能如此强大,一个科学问题随之出现:分布式时间差分能被应用到大脑中吗?这就是驱动研究者开始这篇《Nature》论文工作的最初动机。在这篇论文中,DeepMind与哈佛Uchida Lab 合作,分析了他们对小鼠多巴胺细胞的记录。这些记录记下了小鼠在一项任务中表现出的学习能力,在任务中,它们获得了意料之外的大量的奖励(如图4 的彩图所示):

分布强化学习是其中的代表,它能让强化学习发挥出更加优异的效果。在许多情况下(尤其是在现实世界中),特定动作所产生的未来奖励具有随机性。如上图所示,图中的“小人”并不知道是跨过缺口,还是掉进去,所以预测奖励的概率分布图形出现了两个凸起:一个代表跌落;一个代表成功跨过。传统的TD算法采用的方式是预测未来奖励的平均值,这显然无法获得奖励分布的两个峰值(凸起),这时候分布强化学习则可以预测到所有的可能性。

在近年“一带一路”建设的背景下,丝绸之路旅游热逐年升温,“交响丝路·如意甘肃”正在成为无数旅游者心中的“诗与远方”。古丝绸之路贯穿甘肃全境1600多公里,是当之无愧的丝路文化经典线。

记者13日从国家卫健委了解到,随着对新型冠状病毒肺炎认识的深入和诊疗经验的积累,针对湖北省疫情特点,国家卫生健康委办公厅、国家中医药管理局办公室印发的《新型冠状病毒感染的肺炎诊疗方案(试行第五版)》在湖北省的病例诊断分类中增加了“临床诊断”,以便患者能够早诊早治,进一步提高救治成功率。根据该方案,近期湖北省对既往的疑似病例开展了排查并对诊断结果进行了订正,对新就诊患者按照新的诊断分类进行诊断。

计算机科学家的脚步并未停留于此,自2013年以来,越来越多的研究人员开始关注深度强化学习,这种在强化学习中用深度神经网络来学习表示的算法,能够极为有效的解决复杂问题。 

“甘肃地域辽阔,自然风光优美,黄土高原、广袤草原、茫茫戈壁、洁白冰川构成了一幅雄浑壮丽的画卷,宛若一柄玉如意。”甘肃省文旅厅推介称,该省拥有除海洋和岛礁外的所有旅游资源类型,遍布得天独厚的自然遗产、独一无二的人文遗产、独具风情的民俗文化和独树一帜的红色文化,汇聚着世界最精华的旅游资源和黄金旅游线路。

图为张掖丹霞景区。(资料图) 杨艳敏 摄

图 2:a:“悲观的”细胞将放大负向奖励或忽略正向奖励,乐观的细胞将放大正向奖励或忽略负向奖励;b:奖励累积分布图;c:奖励的完整分布图

如果一个人的大脑有选择性地“倾听”乐观或悲观的多巴胺神经元,会发生什么?这会引起冲动或是抑郁的情绪?大脑的优势在于其强大的表示能力——所以,分布式学习到底是怎么形成的这种强大的表示能力的呢?当动物学习了奖励分布,又是如何在其下游使用这种表示?多巴胺细胞之间的各种正向表示,与大脑中已知的其他多样性形式又有何关系呢?这些都有待进一步去探索。我们希望能有更多的研究人员去提出并回答类似这样的问题,从而来推动神经科学的进步,并反过来让 AI 研究受益,形成一个良性的闭环!

在图4c中,作者展示了细胞之间的显著差异,一些细胞预测的奖励非常大,而另一些细胞预测的奖励却非常小。这些差异超出了预期从记录中原有的随机变异性,所看到的差异程度。在分布式时间差分中,奖励预测中的这些差异源自于正向或负向的奖励预测误差的选择性放大。放大正向的奖励预测误差,会造成学习的奖励预测更乐观;而放大负向的奖励预测误差,则会带来悲观的奖励预测。

与神经科学家的研究同时,计算机科学家们也在人工系统中不断地开发强化学习的算法,这些算法使AI系统不需要外部指导(而是由奖励预测指导)即可学习复杂的策略。

所以研究者接下来测量了不同多巴胺细胞表现的不同正向和负向预测的相对放大程度。在细胞间,研究者发现了可靠然而却无法用噪声来解释的多样性。并且最关键的是,研究者发现,放大了正向奖励预测误差的相同的细胞,也有更高的反转点(图4c,右下角图),也就是说,它们显然将反转点调整到了更高奖励量的预期。最后,分布式时间差分理论预测出,细胞之间不同的“反转点”、不同的不对称性应该一起对学到的奖励分布编码。所以最后一个问题就是,是否能够基于多巴胺细胞的放电率对奖励分布解码。

20世纪90年代中期,有一批科学家同时对神经科学和人工智能都非常精通。他们注意到:有一些多巴胺神经元的反馈意味着奖励预测的错误,例如与训练时的预期相比,当动物得到过多或过少的奖励时,这些多巴胺就会放电发出信号。这些科学家于是提出了大脑使用的TD算法,即考虑多巴胺的反馈,并用于驱动学习。此后这种多巴胺奖励预测误差理论( reward prediction error theory of dopamine)在数千个实验中得到验证,并成为了神经科学中最成功的定量理论之一。

为此,甘肃省文旅厅打造“念念敦煌”“九色星空”“霓裳佛国”“彩塑制作”“壁画临摹”“阳关壮别”“烽火传递”“鸣沙试验”等丝路文化研学旅游产品,引客驻足敦煌这一四大文明体系唯一的交汇地,从传承不绝的国粹瑰宝中,感悟到丝路文化的恒久魅力和中华民族精神生生不息的根脉所在。

DeepMind近期发表在Nature上的一项新的工作是,受计算机科学最新的研究(对强化学习算法的重大改进)启发,他们为大脑中奖励学习的一些以前无法解释的特征提供了一个深刻而简约的解释,并由此开辟了研究大脑多巴胺系统的新途径。可谓是人工智能研究反哺神经科学/脑科学的典范。

插图展示了三个对正向和负向的奖励预测误差有不同的相对缩放比例的示例细胞。研究者评估了多巴胺神经元的活动是与「标准的时间差分」还是与「分布式时间差分」更加一致。如上所描述的,分布式时间差分依赖于一组不同的奖励预测。

多巴胺中的分布式代码

2月29日,依据《中华人民共和国治安管理处罚法》第43条规定,天津市公安局红桥分局对李某依法行政拘留10日,并处500元罚款。(完)

甘肃省文旅厅介绍,为整合全省冬春季高品质旅游资源优势,创新旅游产品供给,全省共有300多家A级旅游景区推出免门票、半价或打折优惠政策,400多家星级酒店和旅游企业推出大幅度打折促销优惠措施,策划推出200多项内容鲜活精彩、形式有声有色的文化旅游主题活动和冬春旅游“双重尊享·特产有礼”钜惠活动,构成冬春季“引客入甘”的叠加优惠政策,热情欢迎海内外游客走进甘肃静品文化,慢游山水,颐养身心。(完)

巴浦洛夫在他最著名的实验中,训练狗在铃声响起后会产生期待食物的反应,这些狗在食物到达之前听到声音就开始流唾液,这表明它们已经学会了预测奖励。在最初的实验中,巴甫洛夫通过测量它们产生的唾液量来估计它们的期望。不过最近几十年中,科学家们开始破译大脑如何学习这些期望的内部运作方式。

天津市公安局红桥分局在通报中称,2月28日16时许,红桥区咸阳北路街综合执法队与彰武楼物业工作人员对彰武楼小区开展卫生清整工作。期间,对该小区居民张某某(男,57岁,天津市人)堆积的杂物进行清理时,张某某进行阻拦。物业工作人员李某(男,42岁,天津市人)遂对张某某实施推搡拖拽等殴打行为。接举报后,公安机关对李某依法传唤,其对上述事实供认不讳。

同时,甘肃被中医药界称为“岐黄故里”,全省形成了“食养”“药养”“水养”“沙养”“文养”“中医适宜技术”等特色中医药生态保健旅游品牌。

总结来说,研究者发现大脑中的每个多巴胺神经元都被调到了不同的积极或消极程度。要是它们是一个唱诗班,它们唱的并不是一个音符,而是在唱和声,它们都像低音或女高音歌手一样,有着各自始终如一的声带。在人工强化学习系统中,这种多样的调整,创造了更加丰富的训练信号,极大地加速了神经网络中的学习速度,研究者推断大脑也会出于这种考量而去采用这种多样的调整方式。 大脑中现存的分布式强化学习,对AI 和神经科学都有着非常有意思的影响。

雷锋网编者按:人工智能与神经科学/脑科学之间存在剪不断理还乱的关系。从人工智能诞生之初,其研究就深受神经科学的影响,包括人工神经网络、强化学习等诸多算法;最近较火的类脑计算,更是提出“brain-inspire”的想法。然而,我们常听,人工智能研究受神经科学/脑科学启发;那么,神经科学/脑科学的研究能否受人工智能研究的启发呢?DeepMind最近发表在《Nature》上的文章正是这样的的典范,在分布式强化学习的启发下,他们研究了小鼠多巴胺细胞的生理机制,发现大脑中同样在使用「分布式强化学习」。这样的研究,一方面促进了神经科学的发展,另一方面也验证了AI研究走在正确的道路上。学习和动机是由内、外部奖励所驱动的。我们的许多日常行为都以预测或预测给定的行动是否会带来积极的(即有益的)结果为指导。

如果它们不同,则算法会计算出它们之间的差异,并使用此“时间差分”将旧的预测调整为新的预测。不断调整,使期望与现实相匹配,从而使整个预测链逐渐变得更加准确。大约在20世纪80年代末和90年代初,神经科学家研究了多巴胺神经元的行为,并发现此神经元的放电和奖励有某种关系,而且这种关系依赖于感觉输入,并且如果研究目标(例如动物)在一项任务中变得更加有经验,则这种关系也会发生改变。

首先,这一发现验证了分布式强化学习,让我们更加坚信:AI 研究正走在正确的轨迹上,因为分布式强化学习算法已经应用于我们认为最智能的实体:大脑。 其次,它为神经科学提出了新问题,并为理解心理健康和动机提供了新的视角。

时间差分算法(TD)的出现为解决奖励预测问题找到额突破口,TD使用一种数学技巧,通过一个非常简单的学习过程代替对未来的复杂推理,还能得到相同的结果。简单的说,TD算法并不计算所能得到的未来的总回报,而是仅仅预测即时奖励以及下一步骤所能获得的奖励。 然后,当下一刻出现新信息时,将新的预测与预期的进行比较。

期间推出经典线路,即:游敦煌莫高窟、敦煌研究院——走瓜州玄奘路(榆林窟、锁阳城、塔尔寺、东千佛洞、张芝文化产业园、玄奘取经博物馆)——赏哈萨克风情(金山湖水上乐园、赛马场、库姆塔格沙漠公园)——住雪山蒙古包(肃北党河峡谷民族文化风情园)。

雷锋网(公众号:雷锋网)注:图 1 :概率表示未来可能得到的奖励,如上图所示,红色表示正向结果,绿色表示负向结果。

最简单的分布强化学习算法与标准TD密切想关,这种算法也称为分布式TD。两者的区别是:标准TD算法学习单个预测或者预测的期望值;而分布式TD则学习的是一组不同的预测,这组预测中的每一个都采用标准TD方法学习。但关键的因素是,每个预测器都会对其奖励预测误差应用不同的转换。

如图5 所示,研究者发现仅使用多巴胺细胞的放电率,完全有可能重构一个奖励分布(蓝色轨迹),这与小鼠参与任务中的实际奖励分布(灰色区域)非常接近。 这一重构依赖于将多巴胺细胞的放电率解译为分布时间差分模型分布的奖励预测误差并进行推理以确定模型已经了解的分布。

图5:多巴胺细胞作为一个群体,对学到的奖励分布的形状进行编码:可以给予放电率对奖励分布编码,灰色的阴影区域是任务中遇到的真实的奖励分布。每条浅蓝色的轨迹都显示了执行解码过程的示例。深蓝色表示的是浅蓝色轨迹平均超出灰色区域的部分。

雷锋网原创文章,。详情见转载须知。

图4:在该任务中,小鼠被给予随机确定、容积可变的水奖励,容积从0.1ul到20ul不等(奖励大小由掷骰子决定):(A)经典TD 模型下模拟的多巴胺细胞对7种不同奖励大小的反应;(B)分布式TD 模型下,每一行点对应着一个多巴胺细胞,每一种颜色对应着不同的奖励大小,颜色曲线表示数据的样条插值。一个细胞的“反转点”(细胞的奖励预测误差、放电率在0值处相交)就是特定细胞将奖励“调”到的预期奖励,例如,由于奖励大小达到了细胞的期望,所以它的放电率与它的基线率相比不多也不少;(C)实际多巴胺细胞对其中不同奖励大小的反应,与分布式TD模型的预测非常接近。

值得一提的是,甘肃冰雪旅游资源富集,业态产品丰富,一到冬季尽显“北国风光、千里冰封、万里雪飘”的壮观景象,目前已建有兰州市安宁大青山滑雪场、临夏和政松鸣岩国际滑雪场、张掖市祁连山国际滑雪场等20多处滑雪设施先进、配套服务完善的现代化滑雪场,冬季各类冰雪旅游节、冰雪嘉年华、冰雕雪雕大赛等主题旅游活动遍布各地,惊险刺激的雪上项目更是琳琅满目,广大游客可尽情乐享嬉雪童趣的欢乐与浪漫。

图3比较了在相同基准下经过相同条件训练和评估的多个标准RL和分布式RL算法。分布式强化学习agent以蓝色显示,可以看出取得了显著的提升。其中的三种算法(QR-DQN,IQN和FQF)是我们一直在讨论的分布式TD算法的变体。为什么分布强化学习算法如此有效?虽然这仍然还是一个活跃的研究课题,但其中一点则在于了解奖励的分布情况会为神经网络提供更强的信号,从而以一种对环境变化或策略变化更具鲁棒性的方式来塑造其表示形式。

目前,在我国的区域经济格局中,东部沿海地区是全国经济增长的“龙头”,长期在全国经济发展中处于引领地位。同时,中部地区发展速度则明显加快,发展速度领先于东部地区。2020年,经济总量前三位的省份均在东部地区,分别是广东、江苏和山东;中西部地区则在经济增速上处于领跑地位,西藏、贵州、云南位居前三。从城市的层面看,多个城市的总量也实现了自己的“小目标”。2020年底,“万亿俱乐部”城市扩容至23个,其中,位于东部的城市有16个,位于中部和西部的分别为4个和3个。

数据凸显经济发展结构变化。2020年各地迎难而上,高质量发展取得了新进展,新动能引领作用增强,新经济不断发展壮大,民生福祉持续增进。未来,各地区要发挥比较优势,增强创新发展动力,促进各类要素合理流动和高效集聚,形成优势互补、高质量发展的区域经济布局。

预测链:时间差分学习

而当细胞获得了与它的预测恰好相等的奖励,预测误差就为 0 ,从而其放电率也不会发生任何变化。研究者为每个多巴胺细胞决定好不会改变它的基线放电率的奖励大小,对此研究者称之为细胞的“反转点”。他们希望能够了解到,细胞与细胞之间的“反转点”是否不同。

强化学习是人工智能与神经科学结合形成的最为「古老」且强大的思想,早在80年代末就已经出现。当时的计算机科学研究人员试图设计一种算法,把奖励和惩罚作为反馈信号融入到机器的学习过程,目的是让机器能够自动执行复杂的行为。奖励行为可以强化机器的行为,但是要解决一个特定的问题,即必须了解当前机器的行为如何带来未来的回报;为了预测某项行为带来的未来的总回报,通常有必要对未来采取许多措施。