谈谈深度学习中记忆结构的设计和使用从NLP终生学习开始

文章编号：43299 资讯动态 2024-12-09 AAAI 人工智能 DeepMind 经验重放机器学习深度学习

从NLP终生学习开始，谈谈深度学习中记忆结构的设计和使用

雷锋网 AI 科技评论按：终生学习，简单说是让模型有能力持续地学习新的信息，但更重要的是让模型学习新信息的同时还不要完全忘记以往学习过的内容（避免「灾难性遗忘」），是深度学习的长期发展和大规模应用中必不可少的一项模型能力。

近期，「NLP 网红」Sebastian Ruder 小哥把终生学习能力融入了语言模型中，方法是加入一个片段式记忆存储模块。实际上类似的做法也并不是第一次得到应用了，雷锋网 AI 科技评论一并介绍几篇相关论文。

终生语言学习中片段式记忆的作用

论文地址：

内容简介：首先我们把「终生语言学习」（lifelong language learning）任务定义为：模型需要从连续的文本样本流中学习，其中不会指明数据集的边界。作者们提出了一个用片段式记忆存储结构增强语言模型的方式，模型中的存储可以进行稀疏经验重放，也可以进行局部适应，以减缓这种任务中的灾难性遗忘现象。另外，作者们也表明，这个记忆存储结构的空间复杂度可以进行大幅简化（可以降低 50% 到 90%），只需要随机选择把哪些样本存储在记忆中，这种做法对性能的影响非常小。作者们认为片段式记忆存储部件是通用语言智能模型中不可或缺的重要组件。

通过记忆能力增强模型表现其实并不是新鲜事，「经验重放（experience replay）」的思路最早可以追溯到 1990 年代的强化学习机器人控制论文《Programming Robots Using Reinforcement Learning and Teaching》（）以及《Self-Improving Reactive Agents Based On Reinforcement Learning, Planning and Teaching》（），论文中用教学的方式让机器人学会新的技能，那么记忆能力就与教学过程相配合，记录已经学会的技能。

下面我们再介绍几个新一些的成果

通过深度强化学习实现人类级别的控制

论文地址：

论文亮点：DeepMind 发表在《Nature》的鼎鼎大名的 DQN 论文中也使用了经验重放。在强化学习的设定中，智能体通过与环境交互获得数据（相当于监督学习中的标注数据集），经验重放可以让智能体重放、排练曾经执行过的动作，更高效地使用已经采集到的数据。当然了，DQN 的另一大贡献是学习到原始输入的高维表征，不再需要人工的特征工程。

Memory-Augmented Monte Carlo Tree search

记忆增强的蒙特卡洛树搜索

论文地址：~mmueller/ps/2018/Chenjun-Xiao-M-MCTS-aaai18-FINAL.pdf

AAAI 2018 杰出论文

论文简介：这篇论文把一个记忆结构和蒙特卡洛树搜索结合起来，为在线实时搜索提出了一种新的利用泛化性的方式。记忆结构中的每个存储位置都可以包含某个特定状态的信息。通过综合类似的状态的估计结果，这些记忆可以生成逼近的估计值。作者们展示了，在随机情况下，基于记忆的逼近值有更高可能性比原始的蒙特卡洛树搜索表现更好。

经验重放还有一些高级改进

优先经验重放

论文地址：

论文亮点：这篇论文的作者们提出，在之前的研究中，智能体学习到的经验是均匀地从重放记忆中采样的。而既然记忆的存储来自于智能体实际的探索活动，这就意味着智能体进行活动、获得记忆的分布和从记忆中采样、利用记忆的分布是一样的。作者们认为，智能体获得的记忆中肯定有一些是重要的、有一些是不那么重要的，我们应当更多地利用比较重要的记忆，这样可以用同样多的记忆提高智能体的表现。这篇论文中作者们就设计了一个为记忆的优先程度排序的框架，更多地重放重要的记忆，以便更快地学习。作者们在 DQN 上做了这个实验，改进后的 DQN 比原来的（均一记忆）的 DQN 在绝大多数游戏中都取得了更好的表现。

后见经验重放

论文地址：

论文亮点：假想要让机械臂执行一个用末端在桌面上推方块到指定地点的任务。对于强化学习模型来说，初次尝试基本是注定失败的；如果不是特别的幸运，接下来的几次尝试也同样会失败。典型的强化学习算法是无法从这些失败经验中学习的，因为它们一直接收到固定的失败（-1）反馈，也就不含有任何可以指导学习的信号。

人类在执行任务的时候其实有一个直觉的感受是：即便我没有达成原来那个给定的目标，我起码还是完成了另外一个目标的。HER的核心思想就是把这一人类直觉公式化。在这里，HER会把实际达到的目标暂且看成要达到的目标；进行这个替换以后，算法认为自己毕竟达到了某个目标，从而可以得到一个学习信号进行学习，即便达到的目标并不是最开始任务要求的那个目标。如果持续进行这个过程，最终算法可以学会达成任意一个目标，其中也自然就包括了我们最开始要求的目标。

依靠这样的办法，即便最开始的时候机械臂根本就碰不到圆盘、以及反馈是稀疏的，最终它也学会了如何把圆盘拨到桌子上的指定位置。这个算法之所以称为Hindsight Experience Replay 后见经验重放，就是因为它是在完成了一次动作之后再选定目标、重放经验进行学习。也所以，HER可以和任何策略无关的强化学习算法结合起来使用，比如DDPG+HER。

这 7 篇论文打包下载：

雷锋网 AI 科技评论整理

原创文章，未经授权禁止转载。详情见转载须知。

从NLP终生学习开始，谈谈深度学习中记忆结构的设计和使用

本文地址： https://www.gpxz.com/article/5e02a258b04bbb50c018.html

上一篇：论文解读基于强化学习的时间行为检测自适应

下一篇：美图AAAI2018论文视频语义理解的类脑智能美

居民身份证号码免费查询系统

身份证号码查询专业网站，查询身份证号码

网站模板 2026-01-21 13:14:14

学习小游戏,儿童学习小游戏,学习小游戏大全,4399小游戏

4399儿童学习小游戏大全收录国内外儿童学习益智游戏、儿童学习教育游戏、在线学习类小游戏等。好玩就拉朋友们一起来玩吧！

游戏网游 2024-08-16 23:01:43

【正穗】广州公司注册

广州正穗财税从事代理记账,公司注册,地址注册,商标专利版权注册申请,企业出口退税,税务异常处理,公司注销,项目申报等，为企业提供一站式企业服务,有20年行业服务经验,正穗为您服务,专业至诚,无微不至,值得信赖,请相信您的选择!

商业服务 2026-01-25 14:41:08

脱硫工程

沛恩环境是一家从事大气污染治理的专业工程公司，主要提供不同行业解决方案和各种改造工程的承揽，专业从事脱硫、脱硝、除尘、脱碳、脱白一体化协同治理方案，帮助企业在实现达标排放的前提下大幅度降低了环保运行成本！

企业品牌 2026-01-25 19:09:30

湖北浩嘉工程项目管理有限公司

管理咨询 2026-01-25 19:34:20

广州骨科医院

广州骨科疑难病医学研究是以广州和谐医院为研究载体单位，充分结合中西医技术优势，重点研究股骨头坏死、腰椎间盘突出、颈椎病等骨伤疾病，是广州市骨科很好的医院、广州股骨头坏死医院、广州颈腰椎病医院，受到广大患者一致好评！

电影视频 2026-01-25 20:09:32

PP匠

ppt转换h5,完美还原动画效果

电影视频 2026-01-28 23:27:12

杭州潮埠网络科技有限公司

杭州潮埠网络科技有限公司是一家从事技术服务、技术开发、技术咨询、技术交流、技术转让、技术推广；网络技术服务；广告设计、代理；教育咨询服务的公司。

网络应用 2026-01-29 15:14:20

徐州桐圣建材有限公司

徐州桐圣建材有限公司是一家集开发、生产、贸易于一体的企业。公司主要从事如下产品的生产、销售、施工：新型建材•特种干混砂浆,自流平地面材料与施工,承接瓷砖粘贴工程施工,意大利•干混砂浆输送喷涂机械化设备经销商

编程开发 2025-02-06 14:59:16

北京时间,北京时间校准几点几分几秒,在线时差换算

时间查询网为您免费提供北京时间查询,北京时间校准几点几分几秒,北京时间校准毫秒在线显示,在线时差换算,还提供世界各地主要城市时间查询、时区查询、与北京时差对照表等信息。

行业信息 2025-02-11 14:54:06

收获日3

《收获日3》是经典合作射击游戏《收获日2》的正统续作，由StarbreezeStudios开发。游戏于2023年9月21日发售，登陆PC、PS5、XboxSeriesX|S等平台，并支持中文。

游戏网游 2026-02-03 00:53:35

数码印刷机

深圳市万德数字科技有限公司，东方精工集团成员之一，先后推出适用于瓦楞纸板小批量印刷的MutiPass扫描式数码印刷机系列，可满足大、中、小各类瓦楞纸板订单的SinglePass高速数码印刷机，扫描式数码印刷机，卷纸预印机以及适用于原纸预印的SinglePass高速卷对卷数码印刷机系列。

硬件数码 2026-03-05 16:13:26

看看你拖后腿没年终奖城市排名出炉 (看看你拖后腿的表情包)

每到年底，，年终奖，这三个字总会让每一位职场人士牵肠挂肚，日前，国内人力资源数据调查机构众达朴信的，2014，2015年企业年终奖特别调研报告，显示，沈阳人均年终奖为4100元，排名全国第25位，大连则以4254元排名第21位，而互联网金融行业以平均年终奖近四万的高额度引领各行业，超八成企业会发年终奖报告称调研了全国多个行业的6432...。

2025-01-30 21:14:24

AI技术将改变我们的营销之旅人工智能助力营销 (ai技术将改变社会,带来危害)

7月8日，阿里巴巴无人超市，淘咖啡，亮相杭州，没有收银员，无需排队、东西买完就能走，而在此前，5月27日落幕的围棋天才柯洁与谷歌AlphaGo的人机大战刚刚引发了新一轮人工智能发展热潮，2017年可以说是人工智能落地的关键一年，过去只能在科幻电影中看到的场景一步步成为现实，人工智能技术被很多人看作是下一个风口，尽管人工智能的新时代已经...。

2025-01-30 18:56:03

大学生可以选择鲱鱼宝宝早教创业吗 (大学生可以选两个专业吗)

早教是很有潜力的经营项目，有着众多家长的支持，鲱鱼宝宝早教是一个有着较强专业能力的品牌，它有着不错的市场前景，让加盟者选择开店，还可以获得不错的收效，大学生可以选择鲱鱼宝宝早教创业吗，据了解，这是不错的选择，而且它的市场竞争能力也很突出，是很可靠的合作对象，人们对孩子的教学问题是比较注重的，都希望他们能够有一个好的开始，尤其是的在早教...。

2024-12-21 21:00:41

TV AI 能拯救越来越冷的电视业么信息流全线拥抱暴风

9月20日，北京阳光刺目，尴尬突如其来，暴风TV，AI2.0，发布会后，雷锋网编辑，尿急逃遁，，走进了奥雅会展中心只有两个小便器的男卫生间，，解放，之机，暴风集团董事长冯鑫叼着一支还未燃着的烟走了进来，尴尬地，SayHi，后，一阵沉默，时针回拨两小时，冯鑫穿着没有扎进牛仔裤里的白衬衫，单肩背着一个松垮垮的包，匆匆经过雷锋网编辑身旁，在...。

2024-12-03 20:06:45

我亲手创办的公司再见

2019年，你还在创业吗?对于很多创业者而言，2019年是艰难的一年，各行各业都相继出现了因为资金流断裂而带来的清算和倒闭，以及因为政策收紧而带来的市场紧缩，很多创业者关闭了自己亲手创办的公司，一些年初还热得发烫的赛道，如今正在经历寒冬，社交电商、生鲜、线下教育、P2P、电子烟……这些行业都曾登上创业风口，但在2019年都不同程度地遇...。

2024-11-21 22:38:05

北京百草堂加盟连锁店怎么样电话百草堂加盟需要多少钱 (北京百草堂加盟连锁药店是空壳公司吗)

1、北京百草堂加盟怎么样?北京百草堂是惠及国民百姓的大健康品牌，公司倍受业界瞩目、消费者瞩目，总部位于北京市副中心，占地面积2000㎡，旗下控股多家医药企业，公司目前已发展千余家药店加盟连锁店面，布局全国各省，为全国商品流通、中医问诊、健康理疗、技术输出提供综合性服务，2、百草堂大药房加盟需要多少钱?这要看您的城市等级和房租水平，一般...。

2024-11-16 14:40:03

一步步教你如何独自游戏 GTA5线上形式怎样单人 (一步步教你如何折纸玫瑰)

GTA5，或许更为人们所熟知的，侠盗猎车手5，，是RockstarGames发行的一款开明环球冒险游戏，自从该游戏推出以来，它的线上形式无疑是最受玩家青睐的局部之一，但有时，玩家或许想独自享用游戏的乐趣，而不是与其余玩家互动，那么，GTA5的线上形式怎样单人呢?断开互联网衔接法，在衔接到GTA5线上形式之前，将您的互联网衔接断开几秒钟...。

2024-07-16 03:35:24

全球咏春拳高手同台竞技！首届全球南少林咏春拳大赛中级提拔赛正式开启 (全球咏春拳高手排名)

传承中华文明，弘扬少林文明，追溯咏春根脉，结合五洲四海，日前，首届全球南少林咏春拳大赛中级提拔赛在全球各大赛区相继开赛，争夺170个晋级全球总决赛的名额，据了解，首届全球南少林咏春拳大赛由中国武术协会指点，全球网全程允许，福州市文明和旅行局、福州市体育局、福建省咏春拳协会结合主办，福清市文明体育和旅行局、福建传统咏春拳，海峡，文明开展...。

2024-07-04 23:48:23

哪里下载歌曲不要钱 (在哪可免费下载歌曲)

1、无损音乐不要钱下载对音噪音质有必定要求的好友们来说，这个无损音乐网站还是不错的选用，真正的无损音噪音质，然而无损音乐的空间占有量相比普通音乐可是大了不少的，2、墨灵音乐该网站有自带的音乐播放器，且领有十分宏大而完整的曲库，歌曲降级也十分迅速，试听流利，口碑极佳，提供高质量无损音乐下载服务，3、疯狂音乐搜查这个网站的界面很繁复明了，...。

2024-06-30 15:05:44

MySQL实现点餐系统的优惠活动管理功能-mysql教程

MySQL实现点餐系统的优惠活动管理功能引言：随着互联网的发展，餐饮行业也逐渐迈入了数字化的时代。点餐系统的出现，极大地方便了餐厅的经营和顾客的用餐体验。而在点餐系统中，优惠活动是吸引和留存顾客的重要手段之一。本文将介绍如何使用MySQL数据库实现点餐系统的优惠活动管理功能，并提供具体的代码示例。一、设计数据库表结构在MySQL中创建一个名为

2023-11-03 11:22:11

我爸妈想让我去当音乐老师，我不想这么快去当老师，想去横店待半年玩一下-浙江金华剧组贴吧

我爸妈想让我去当音乐老师，我不想这么快去当老师，想去横店待半年玩一下，但是我爸不放心，他说要跟我一起去！我的天.....有人是父母一起来当群演的吗……头都大

2023-10-08 01:01:57

源代码_开源代码_源代码源程序下载

我们提供源代码,如asp源代码,php源代码,java源代码等优秀的源程序下载PC6免费提供源代码,源程序下载

2023-08-11 18:17:29

文章推荐

SEO新站关键词排名怎样做? (seo 新站)

企业网站SEO推行是现今非常盛行的线上推行形式，很多企业在做关键词排名时，由于是新站且都不具备一定的SEO技术，所以网站推行排名的难度也就变得越来越大，网站在搜索引擎中都难以有较大的收录和排名，从而也让企业渐渐地失去SEO推行的耐烦，树立新站做网络营销，前期有很多的根底优化工作要完善，一个新搭建的网站要做哪些优化设置才契合搜索引擎的抓...。

2025-01-30 17:19:05

网络百科

一加刘作虎的出海启示录 (一加刘作虎的背景资料)

雷锋网按，1月20日，在极客公园创新大会上，一加手机创始人刘作虎做了演讲，刘作虎分享了一加在海外市场的成绩，现在他们有近70%的营业额都在海外，去年一年的营收接近100亿元人民币，虽然主战场在海外，但他认为国际化是个伪概念，这很大程度上是因为海外对中国品牌缺乏认知和信任问问题才形成的，而一加在一开始就是在做全球市场，刻意强调国际化没有...。

2024-12-09 19:09:55

资讯动态

Intel第三代加速卡登场助力交付5G网络服务 (intel第六代cpu)

雷锋网消息，在2019MWC上，Intel宣布推出FPGA可编程加速卡N3000，IntelFPGAPACN3000，，可加速多种虚拟化工作负载，包括5G无线接入网络和5G核心网络应用；同时，作为一款功能齐全的端到端解决方案，IntelFPGAPACN3000可部署在5G边缘和网络中，IntelFPGAPACN3000可加速多种虚拟化...。

2024-12-09 17:52:32

资讯动态

烤鸭加盟 (烤鸭加盟费是多少)

烤鸭是广大消费者非常熟悉的美食，在全国各地都非常的有名，烤鸭加盟京都世家烤鸭，京都世家烤鸭，味道纯正，好吃又便宜，营养也比较高，经常吃的话可以补充身体所需要的很多营养成分，再加上独特的特制配方，开店确保生意好，京都世家烤鸭装修风格简单大方，舒适卫生，整洁干净，是一家很有特色的烤鸭品牌，操作起来得心应手，只要2，3人便可以快速开店，两个...。

2024-12-05 00:29:16

创业加盟

5 位艺术家眼中的人工智能 (艺术家眼睛)

艺术真的专属于人类吗，但AI时代的到来，似乎正在解构这一专属所有权，仅仅从人类最为重视的创作领域而言，AI已经在大量的艺术领域进行了原创性工作，包括AI绘画、AI作曲、AI唱歌、AI导演、AI写诗、AI写稿、AI雕塑、AI平面设计……许多看起来不可替代的工作，AI都可以完成，甚至在有些方面比人类做得更好，是的，面对如此超越意料之外的艺...。

2024-12-03 18:53:50

资讯动态

谈谈深度学习中记忆结构的设计和使用 从NLP终生学习开始

Memory-Augmented Monte Carlo Tree search

相关文章

文章推荐

谈谈深度学习中记忆结构的设计和使用从NLP终生学习开始