两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

文章编号：45842 资讯动态 2024-12-09 LongLoRA 贾佳亚长文本大语言模型

中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触，比如当想和大模型讨论一些稍长的内容，需要拆分输入，而前面输入的要点，很快就会被大模型忘记。

这是典型的大语言模型对话缺陷！就像先天有注意力缺陷的儿童，难以专注看完一本新书。而缺陷的关键，在于模型缺乏长文本处理能力。这个局面如今被打破。

近日，贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜：hugging face热榜第一、paperwithcode热度第一，Github全部python项目热度第五、github stars一周内破千，Twitter上的相关技术帖子浏览量近18万......

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶：只需两行代码、一台8卡A100机器，便可将7B模型的文本长度拓展到100k tokens，70B模型的文本长度拓展到32k tokens；同时，该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出，让全球大语言模型的对话缺陷第一次得到解决，自此，几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此，有专业人士激动地表示，LongLoRA是大语言模型迷宫中的希望之灯！它代表着业界对长文本大语言模型的重新思考和关注，有效扩展了大语言模型的上下文窗口，允许模型考虑和处理较长的文本序列，是大语言模型的革新性发明。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

除了技术革新外，大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此，研究团队特意收集了9k条长文本问答语料对，包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够，该团队又挑选了3k的短问答语料与9K的长问答语料混合训练，让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k，目前已经开源。

在LongAlpaca-12k数据集基础上，研究团队对不同参数大小7B、13B、70B进行了训练和评测，开源模型包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说，盲选几个dEMO,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向，重点呈现关键贡献和影响，论文被接受的机会将得到提高。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

现在，让系统读两篇新的不同的论文，让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别。LongAlpaca总结认为，CVPR论文倾向更具结构性和实验性的风格，专注于实用性和技术性。而ICLR的论文风格更加灵活，侧重关键的理论分析和数学推导，而非标准格式。

可以看出，经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文，在学术相关问题的回答上相当精准。

接下来，再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集，对经济形势进行逐年总结以及对未来经济趋势进行预测。LongAlpaca告诉我们，2023年全球经济形势不明朗，跟2022年相比，增长预计放缓;未来几年，全球经济扩张速度偏温和并将低于预期，而地缘政治紧张、金融市场波动等大的挑战依然存在，需通过多边合作和结构性改革小心应对。

LongAlpaca还可以读新的长篇小说，读完后对内容进行分析。下面选取的对比模型是13B参数的LongAlpaca和Llama2，且看各自表现。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

名著《西游记》中，为什么孙悟空在大闹天宫时很厉害，但取经路上却屡屡受挫?LongAlpaca 给出了5点原因，大概可总结为 “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移，他获得了智慧、经验和战友，使他最终战胜了最强大的敌人。”

而 Llama2 的回答较为简单。“虽然他确实大闹天宫，但说他代表着不败的力量并不一定准确。事实上，他最终在西游记中被强大的唐三藏打败。”Llama2没有给出正确答案，并且还提出需要更多的内容信息。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

这一次让系统新读一次《三体》，然后问第一部中，叶文洁为什么要联系外星人，而后期又为什么后悔？LongAlpaca认为，叶文洁最初接触外星人是出于理想主义和复仇，但随着时间的推移，她对人类的看法发生了变化，意识到自己可能给全人类带来的危险，她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是，“通过与外星人的互动，她希望能更深入地了解宇宙的本质，以及自己在宇宙中的位置。叶文洁逐渐意识到，外星人和他们的技术并不能解决她的问题。”回答笼统，之后开始对小说整体进行评论，答非所问。

从模型给出的答案可发现，一些模型如Llama2 [2] 可能在预训练过程中见过相关小说，但如果在提问时进行仅根据小说题目进行短文本提问的话，回答并不理想。

两个模型的回答对比，高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说，都是一把好手，完胜Llama2。

两行代码和三个关键结论

Llama2可以说是 AI 社区内最强大的开源大模型之一，行业位置领先，LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意，到底是怎么做到的？

原来大语言模型对长文本处理过程中，计算量的主要开销集中在自注意力机制(self-attention)，其开销随着文本长度成平方次地增加。

针对这个问题，研究团队提出LongLoRA技术，并用分组和偏移的方式来对全局自注意力机制进行模拟。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

简单来说，就是将长文本对应的tokens拆分成不同的组，在每组内部做自注意力计算，而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量，又可以维持全局感受野的传递。

而这个实现方法也非常简洁，仅两行代码即可完成！

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

LongLoRA还探索了低秩训练的方式。原有的低秩训练方式，如LoRA [5]，无法在文本长度迁移上取得良好的效果。而LongLoRA在低秩训练的基础上，引入嵌入层 (Embedding layer和 Normalization layers) 进行微调，从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

进行不同长度文本扩展和训练时，LongLoRA、LoRA和全参数微调不同技术的具体效果如何，可以参考三个维度表现：

在Perplexity-困惑度上，原有LoRA方法的性能在不断恶化，而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果；

在显存消耗上，相比于全参数微调，LongLoRA和原有LoRA都有大幅度的节省。例如，对于8k长度的模型训练，相比于全参数微调，LongLoRA将显存消耗从46.3GB降低到25.6GB；

在训练时间上，对于64k长度的模型训练，相比于常规LoRA，LongLoRA将训练时间从90～100小时左右降低到52.4小时，而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗，以及极佳的准确性，令LongLoRA大规模推广成为可能。目前，相关技术与模型已全部开源，感兴趣的用户们可以自己部署感受。

值得一提的是，这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。相距不过短短两个月，不得不说，这研究速度和能力跟LongLoRA一样惊人。

版权文章，未经授权禁止转载。详情见转载须知。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

谷普下载提醒您

本文链接：http://www.gpxz.com/article/ebb9f1875e2d6ceb5ad6.html

上一篇：云游戏和数据中心领域做了些什么云计算NVID

下一篇：贸易战也挡不住对中国的热情Google贸易战只

Pixso官网

pixso是一体化设计协作工具，助力产研设团队制作原型，ui/ux设计，视觉设计，低代码交付时获得更轻松流畅的工作体验，让团队协作更高效。支持sketch，figma格式。

设计美化 2024-08-16 14:35:46

国际快递大全

提供实时、快速、准确的的国际邮政包裹、国际邮政EMS、国际邮政大包小包、国际快递专线等查询跟踪服务，支持TNT、UPS、DHL、FedEx等国际快递、专线；支持手机端查询，并提供国际快递查询接口(API）服务。

手机软件 2024-09-14 23:58:57

4399云游戏

4399云游戏，为广大玩家提供热门手游和热门端游。原神、战双帕弥什、创造与魔法、崩坏三、造梦西游OL等游戏，无需高设备即点即玩，电脑也能玩手机游戏。

游戏网游 2024-08-16 23:01:34

留学生网

中国留学生海外留学交流必备社交平台,留学生论坛,留学生社区,留学生理性知识经验分享.

社交直播 2024-07-03 21:49:57

宁波山石忆电器有限公司

宁波山石忆电器有限公司以创新的时代精神和求变的热情，发展成为集产品开发、模具制造、冲压、注塑、喷塑、成品装配、电机制造为一体的行业巨头。主要产品有电风扇、取暖器和空气炸锅。

编程开发 2024-07-12 00:17:40

首页

碧桂园服务创立于1992年，2018年6月19日在香港交易所主板上市，2020年全面升级品牌。秉承“服务成就美好生活”的品牌使命，碧桂园服务为住宅、商业物业、写字楼、产业园、政府大楼医院、学校及其他公共设施(如机场航站楼、高速公路服务站、文旅景区)等多种业态提供专业服务。

商业服务 2024-07-11 13:28:21

北京语言大学出版社

语言大学出版社，汉语出版社，中国文化，HSK，汉语考试，汉语教材用书

历史文化 2024-07-11 13:31:33

分类信息网

冒泡分类,领先的分类信息网。您可以免费查找各种新鲜的二手物品交易、二手车买卖、房屋租售、招聘、交友及生活服务等分类信息。

商业服务 2024-07-10 16:04:35

泰州腾艺信息科技/微众

泰州腾艺信息科技有限公司是一支全新的服务于社会化媒体的优质团队，旗下品牌微众为腾艺自主开发的微营销运营系统，致力于为企业提供全面的微信营销整体解决方案。腾艺人坚信并坚持“维护一个原则，规范一个市场；一众人，一件事，一干到底”的做事原则，把企业打造成为从微信营销培训、微信公众号开发、微信平台策划运营的整套落地方案、实战型的微营销服务商

编程开发 2024-08-18 14:51:09

等离子激光切割除尘器

青岛鑫耀环保科技有限公司专业生产等离子激光切割除尘器，扁布袋除尘器，木器厂除尘，斜插式滤筒除尘器，欢迎需要环保除尘设备的客户来电咨询。

管理咨询 2024-11-25 22:47:43

月蓝成语知识网

成语是汉字文化圈特有的语言形式，存在于汉语中，它是一个固定短语，表达了一个固定的语意，常带有历史故事及哲学意义。成语大多数由四个汉字组成，在文言文中使用广泛，也有其他字数不等的成语，在白话文或者日常会话中也经常出现。

历史文化 2025-01-31 02:03:29

群歌音乐

音乐歌曲 2025-02-15 00:37:40

网易邮箱昨晚再次出现大面积瘫痪 (网易邮箱昨晚打不开)

7月17日消息，今年5月11日，网易服务器出现大面积瘫痪，致多数网易产品和客户端无法连接和刷新，后来网易回应称因骨干网络遭受攻击，导致网易旗下部分服务暂时无法正常使，这才没过多久，网易邮箱又出了问题，昨天晚上10，11点之间，微博上陆续有网友反馈网易邮箱出现登陆故障，具体表现为客户端提示无法登陆，网页端显示，繁忙的系统暂时需要停下歇歇...。

2025-01-30 19:15:38

多语种语言理解再上新台阶！ 2022三项冠军科大讯飞拿下SemEval (多语种研究)

近日，第十六届国际语义评测，The16thInternationalWorkshoponSemanticEvaluation，SemEval2022，大赛落下帷幕，科大讯飞在三项主要赛道中拿下冠军，标志着科大讯飞在多语种语言理解领域持续进阶，SemEval2022评测由国际计算语言学协会，AssociationforComputati...。

2024-12-03 22:49:14

巧妙避开已入局者的狙击苹果对AI和社交敞开了怀抱 (巧妙避开已入冬的句子)

近日，据多家外媒报道，苹果在移动软件领域又盯上了两大新趋势，一是利用人工智能打造应用、升级云服务质量，二是通过信息应用在社交内容分享上占得先机，不过，苹果的想法总是与众不同，它在赶这两大新趋势的同时并不会侵扰现有行业巨头的利益，因此也就避免了不必要的正面冲突，苹果在AI领域的稳步推进也是有目共睹，继今年6月WWDC上宣布iOS10将启...。

2024-12-03 17:49:31

彩妆店加盟好吗加盟小资生活坐拥更多美丽财富 (彩妆店加盟好不好)

随着经济快速的发展，彩妆也成为年轻人不可缺少的产品注意，所以需求量不断的增加，创业者看到彩妆项目未来的发展势头，产生加盟想法，彩妆店加盟好吗，选择小资生活小资生活坐拥更多美丽财富，彩妆店加盟好吗，小资生活化妆品具有数三百多个化妆品品牌，多款时尚单品可供各位顾客朋友尽情选择，这很大的满足了当今顾客朋友关于产品品牌、品种的多元化选购的需求...。

2024-11-16 18:48:03

董璇在海边度假穿露背装享用日光浴 (董璇约会)

董璇在社交平台上晒出一组度假照，她身穿白色波点露背上衣在三亚海边享用日光浴，手扶草帽愁容治愈，形态十分惬意！...。

2024-09-07 23:13:29

超高层建筑着火了，要怎么救援？|火灾|消防车|消防人员|消防灭火

超高层建筑着火了，要怎么救援？,火灾,消防车,消防人员,消防灭火,超高层建筑

2024-09-03 14:16:26

更牢靠香港警方将改用国产手枪功能更好 (更牢靠香港警务干部)

据港媒10日报道，香港警方将以国产，92改，半智能手枪片面取代目前经常使用的美国制，点三八，左轮手枪，多年来，港警最为人相熟的配枪是巡查小队、冲锋队等军装警员经常使用的史密斯威森M10，点三八，左轮手枪，因发射口径为0.38英寸，故被称为，点三八，报道称，因为目前这款手枪曾经停产，整机供应和维护培修存在疑问，通过深化钻研，香港警方选...。

2024-07-13 03:20:11

修正器软件有哪些 (修正器软件有哪些好用)

介绍一，光遇智能弹琴辅佐器免卡密光遇智能弹琴辅佐器免卡密是一款能够协助咱们智能弹琴的软件，在软件中能够协助咱们在光遇智能弹琴，每次弹琴都不须要咱们来入手就可以了，青睐这种类型软件的小同伴必需不能错过，快来下载一个用用看吧！介绍二，小霸王免框架吃鸡辅佐小霸王免框架吃鸡辅佐软件中有着超多丰盛的吃鸡辅佐配置，协助大家能够了解到自己须要的框架...。

2024-07-08 22:25:22

须要常年寄存的哈弗H7l车辆须要留意什么 (须要常年寄存的蔬菜)

哈弗H7l须要常年，一个月以上，停放车辆时，应做好以下预备，·增加燃油，·彻底荡涤、枯燥车身外表，·清扫车辆外部，确保地毯、脚垫等齐全枯燥，·监禁驻车制动，用轮胎止动器抵住前、后轮，·稍微关上一侧车窗，假设停放在室内，·断开蓄电池负极，·将刮水器臂用折叠的毛巾或布片垫起，使其不与风窗玻璃接触，·为缩小粘黏，应在一切车门密封处喷上硅酮...。

2024-07-06 00:28:08

初次发布中国核弹数量?五角大楼给咱挖了个坑补壹刀 (初次发布中国疫情通报)

原题目，补壹刀，初次发布中国核弹数量，五角大楼给咱挖了个坑！执笔，胡一刀每年一度的五角大楼，中国军力报告，又来了，这一次性与以往有些不同，200页的报告除了引见最新的束缚军现代化武器开展等与每年相似的内容外，最引人注目的是，这一次性不只间接发布了他们评价的，中国核弹头数量，，而且还抛出，未来10年中国核弹头数量或者至少翻一番，美国这...。

2024-07-03 21:38:34

网友揭发医院创伤外科主任私下流传病人麻醉时裸照及手术消息没有这回事情院方已介入考查 (网友揭发医院的秘密)

网友揭发医院创伤外科主任私下流传病人麻醉时裸照及手术消息，院方，已介入考查，没有这回事情海报资讯记者张旭实习生李思璇报道近日，有网友揭发称，上海市西方医院创伤外科主任、主任医师孙贵新私下流传病人麻醉时裸照及180份病人手术消息，引发关注，7月3日上午，海报资讯记者咨询到上海市西方医院，关系任务人员称已接到实名揭发，医院方介入考查，经了...。

2024-07-03 14:55:12

文章推荐

好玩的莉比小公主游戏前五2023 热门的莉比小公主游戏大全 (莉比小游戏大全)

莉比小公主系列的游戏都具有一定的休闲趣味性，很多女孩子对莉比小公主主题的游戏都十分喜爱，在游戏中你可以陪莉比小公主一起经历各种冒险，那么有趣的莉比小公主游戏大全情况怎么样?下文这六款莉比小公主题材的休闲游戏就很受女孩子喜欢，可爱的公主形象和多元化的玩法一定会吸引你，1、，之奇幻仙境，这款莉比小公主主题的游戏具有卡通向的画面和休闲的氛围...。

2025-02-11 15:03:55

资讯动态

我是怎么布局双十一前通过百度获取巨大流量的 (我是怎么布局好)

前言，我并不是什么你们所谓的大神，你们向往的大咖，就是自己亲自操作的就想分享给大家，希望可以帮助到大家，文字可能也没那么华丽，就是简简单单实践操作分享，女朋友早上8点55分打电话给我，让我起床，我懒散了一会，被窝里实在是暖和啊，不想起，但是好久没看到太阳了，我就硬着头皮起来，脸都没洗，坐在电脑旁，之前朋友给我讲他拥有一个贴吧，很早之前...。

2025-01-30 19:07:23

网络百科

朋友圈都在晒支付宝关键词一张图给你解释关键词含义是什么 (朋友圈都在晒年夜饭)

今天上午，支付宝个人年账单正式发布，打开支付宝，在首页即可看到，如果没看到，支付宝首页搜索，年账单，在这份榜单中，你可以查看到个人2017年网购总支出，不同商品类型占比，理财收益、水电煤缴费、线下支付等等非常详细的数据，当然还有喜闻乐见的当地排名和全国排名，不过这份榜单最大的亮点是最后的2018年度关键词，比如，远方，颜值正义，...。

2025-01-30 19:03:25

网络百科

巨头电商失利往事 (又一电商巨头倒下每月亏2亿)

现代企业巨头就如武侠里各城池里的各大门派，有的精修刀枪剑戟、擅长拳脚招式，有的则好内功心法、崇尚精神力修为，神剑山庄、天元神宗，无一不是各自领域令人敬畏的强者，如同精于做人与货买卖的阿里、专于人与人社交的腾讯、发于物与物流通的顺丰、擅于人与信息搜索的百度，意在网聚人之力的网易……巨头们各怀绝技，在各自的山头占地为王，然而，巨头们的野心...。

2025-01-30 17:58:27

网络百科

爱普生投影仪遥控器配对方法 (爱普生投影仪安装视频教程)

发表在专业问答2024，3，1215，04展示机型信息，品牌型号，爱普生EF，15系统版本，腾讯极光TVOS爱普生投影仪遥控器配对方法可以通过长按爱普生投影仪遥控器的配对按键即可完成连接，总共可以分为三步，下面为爱普生投影仪遥控器配对方法的详细步骤做具体说明，爱普生投影仪遥控器配对方法1.打开投影仪按下爱普生投影仪的电源键打开投影仪；...。

2024-11-29 02:11:43

网络百科

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

相关文章

文章推荐