两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

文章编号：45842 资讯动态 2024-12-09 LongLoRA 贾佳亚长文本大语言模型

中途迷失、模型偷懒、上下文越长大模型越笨......如果体验过大语言模型产品,用户多少会对文本输入长度带来的限制有所感触，比如当想和大模型讨论一些稍长的内容，需要拆分输入，而前面输入的要点，很快就会被大模型忘记。

这是典型的大语言模型对话缺陷！就像先天有注意力缺陷的儿童，难以专注看完一本新书。而缺陷的关键，在于模型缺乏长文本处理能力。这个局面如今被打破。

近日，贾佳亚团队联合MIT发布的新技术和新模型悄然登上各大开源网站的热榜：hugging face热榜第一、paperwithcode热度第一，Github全部python项目热度第五、github stars一周内破千，Twitter上的相关技术帖子浏览量近18万......

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

Twitter上的相关技术帖子浏览量近18万

这项名为LongLoRA的技术实用但却简单得令人惊讶：只需两行代码、一台8卡A100机器，便可将7B模型的文本长度拓展到100k tokens，70B模型的文本长度拓展到32k tokens；同时，该研究团队还发布了首个拥有70B参数量的长文本对话大语言模型LongAlpaca。

全球首个70B长文本大语言模型发布

LongLoRA的提出，让全球大语言模型的对话缺陷第一次得到解决，自此，几十页的论文、几百页的报告、鸿篇巨制不再成为大模型盲区。

对此，有专业人士激动地表示，LongLoRA是大语言模型迷宫中的希望之灯！它代表着业界对长文本大语言模型的重新思考和关注，有效扩展了大语言模型的上下文窗口，允许模型考虑和处理较长的文本序列，是大语言模型的革新性发明。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

除了技术革新外，大语言模型处理长文本问题的一大难点还在于缺少公开的长文本对话数据。

为此，研究团队特意收集了9k条长文本问答语料对，包含针对名著、论文、深度报道甚至财务报表的各类问答。

光会回答长问题还不够，该团队又挑选了3k的短问答语料与9K的长问答语料混合训练，让长文本大模型同时具备短文本对话能力。这个完整的数据集被称为LongAlpaca-12k，目前已经开源。

在LongAlpaca-12k数据集基础上，研究团队对不同参数大小7B、13B、70B进行了训练和评测，开源模型包括LongAlpaca-7B, LongAlpaca-13B和LongAlpaca-70B。

看小说、改论文、指点经济堪称全能王

话不多说，盲选几个dEMO,一起看看应用了LongLoRA技术叠加12K问答语料的大模型LongAlpaca效果。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

让系统新读一篇论文，并根据ICLR的审查指南，对其提出修改意见，从而提升该论文的接收率。LongAlpaca的意见是：通过更精确地阐明新颖性，提供更严格和更有对比性的实验结果(包括具体的数据集和指标)、更广泛的应用和未来发展方向，重点呈现关键贡献和影响，论文被接受的机会将得到提高。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

现在，让系统读两篇新的不同的论文，让LongAlpaca概括ICLR和CVPR两个会议之间的风格区别。LongAlpaca总结认为，CVPR论文倾向更具结构性和实验性的风格，专注于实用性和技术性。而ICLR的论文风格更加灵活，侧重关键的理论分析和数学推导，而非标准格式。

可以看出，经过训练的LongAlpaca模型已经可以很轻松地接受新的长篇学术论文，在学术相关问题的回答上相当精准。

接下来，再看看LongAlpaca模型在颇高阅读和理解门槛的经济领域的解读表现。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

根据国际货币基金组织从2012年到2023年的全球经济展望的概述合集，对经济形势进行逐年总结以及对未来经济趋势进行预测。LongAlpaca告诉我们，2023年全球经济形势不明朗，跟2022年相比，增长预计放缓;未来几年，全球经济扩张速度偏温和并将低于预期，而地缘政治紧张、金融市场波动等大的挑战依然存在，需通过多边合作和结构性改革小心应对。

LongAlpaca还可以读新的长篇小说，读完后对内容进行分析。下面选取的对比模型是13B参数的LongAlpaca和Llama2，且看各自表现。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

名著《西游记》中，为什么孙悟空在大闹天宫时很厉害，但取经路上却屡屡受挫?LongAlpaca 给出了5点原因，大概可总结为 “孙悟空的不成熟、强大的对手、力量的限制、敌人的欺骗、最初缺少同伴等因素导致了他在旅途中的失败。但随着时间推移，他获得了智慧、经验和战友，使他最终战胜了最强大的敌人。”

而 Llama2 的回答较为简单。“虽然他确实大闹天宫，但说他代表着不败的力量并不一定准确。事实上，他最终在西游记中被强大的唐三藏打败。”Llama2没有给出正确答案，并且还提出需要更多的内容信息。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

这一次让系统新读一次《三体》，然后问第一部中，叶文洁为什么要联系外星人，而后期又为什么后悔？LongAlpaca认为，叶文洁最初接触外星人是出于理想主义和复仇，但随着时间的推移，她对人类的看法发生了变化，意识到自己可能给全人类带来的危险，她的悔恨与日俱增。回答得十分清晰。

而Llama2的回答则是，“通过与外星人的互动，她希望能更深入地了解宇宙的本质，以及自己在宇宙中的位置。叶文洁逐渐意识到，外星人和他们的技术并不能解决她的问题。”回答笼统，之后开始对小说整体进行评论，答非所问。

从模型给出的答案可发现，一些模型如Llama2 [2] 可能在预训练过程中见过相关小说，但如果在提问时进行仅根据小说题目进行短文本提问的话，回答并不理想。

两个模型的回答对比，高下立见。LongAlpaca改学术论文、点评全球经济大势和读小说，都是一把好手，完胜Llama2。

两行代码和三个关键结论

Llama2可以说是 AI 社区内最强大的开源大模型之一，行业位置领先，LongAlpaca居然可以完胜。其背后的LongLoRA技术成功引起网友们的注意，到底是怎么做到的？

原来大语言模型对长文本处理过程中，计算量的主要开销集中在自注意力机制(self-attention)，其开销随着文本长度成平方次地增加。

针对这个问题，研究团队提出LongLoRA技术，并用分组和偏移的方式来对全局自注意力机制进行模拟。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

简单来说，就是将长文本对应的tokens拆分成不同的组，在每组内部做自注意力计算，而分组的方式在不同注意力头 (attention head) 上有所偏移。这样的方式既可以大幅度节约计算量，又可以维持全局感受野的传递。

而这个实现方法也非常简洁，仅两行代码即可完成！

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

LongLoRA还探索了低秩训练的方式。原有的低秩训练方式，如LoRA [5]，无法在文本长度迁移上取得良好的效果。而LongLoRA在低秩训练的基础上，引入嵌入层 (Embedding layer和 Normalization layers) 进行微调，从而达到可以和全参数微调 (Full fine-tune) 逼近的效果。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

进行不同长度文本扩展和训练时，LongLoRA、LoRA和全参数微调不同技术的具体效果如何，可以参考三个维度表现：

在Perplexity-困惑度上，原有LoRA方法的性能在不断恶化，而LongLoRA和全参数微调都能在各种文本长度下维持很好的效果；

在显存消耗上，相比于全参数微调，LongLoRA和原有LoRA都有大幅度的节省。例如，对于8k长度的模型训练，相比于全参数微调，LongLoRA将显存消耗从46.3GB降低到25.6GB；

在训练时间上，对于64k长度的模型训练，相比于常规LoRA，LongLoRA将训练时间从90～100小时左右降低到52.4小时，而全参数微调超过1000小时。

极简的训练方法、极少的计算资源和时间消耗，以及极佳的准确性，令LongLoRA大规模推广成为可能。目前，相关技术与模型已全部开源，感兴趣的用户们可以自己部署感受。

值得一提的是，这是贾佳亚团队继8月9日发布的“可以分割一切”的多模态大模型 LISA 后的又一力作。相距不过短短两个月，不得不说，这研究速度和能力跟LongLoRA一样惊人。

版权文章，未经授权禁止转载。详情见转载须知。

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术

本文地址： https://www.gpxz.com/article/ebb9f1875e2d6ceb5ad6.html

上一篇：云游戏和数据中心领域做了些什么云计算NVID

下一篇：贸易战也挡不住对中国的热情Google贸易战只

中国化学工程第七建设有限公司

中国化学工程第七建设有限公司，中化七建，七建，七化建

电影视频 2026-01-21 13:35:34

高质量吉他谱平台

回忆吉他网，一个致力于做优质曲谱的高质量曲谱平台，利于回忆吉他网可以有效节省音乐爱好者找曲谱的时间，发现更棒的音乐。

音乐歌曲 2026-01-21 14:55:00

福州体育用品批发

福建体育用品批发零售公司,台湾尤尼克斯,广州市耀健体育用品有限公司,福建尤尼克斯,福州尤尼克斯,尤尼克斯代理,尤尼克斯体育用品,尤尼克斯球拍,台湾尤尼克斯体育用品,尤尼克斯羽毛球拍。

体育竞技 2026-01-24 20:28:43

福昕PDF在线转换器

PDF365是福昕旗下的高品质PDF在线转换编辑平台,提供在线PDF转Word,PDF转换成Word,PDF转Word转换器,PDF转图片,Word转PDF,PDF合并,PDF压缩,PDF去密码等服务,轻松解决PDF转换编辑所有问题!

图片摄影 2026-01-24 20:45:45

五常市御谷坊粮油有限公司

五常市御谷坊粮油有限公司,御谷坊粮油,五常笨榨大豆油,黑龙江笨榨大豆油,鼎记御谷坊,黑龙江非转基因大豆油

电影视频 2026-01-25 01:30:09

杭州赛虎空分设备有限公司

设计美化 2026-01-25 17:42:53

幼儿园门户网

利用幼儿园门户网的免费幼儿园网站建站平台，只需一分钟，幼儿园就可以免费拥有一个五星级的幼儿园网站、附送园务管理系统，让更多家长选择您的幼儿园!

商业服务 2026-01-28 22:41:01

小棋子游戏网

2024手游排行榜收录热门手游,好玩的手游,来小旗子游戏网了解全新手游资讯。

游戏网游 2026-01-29 13:15:28

嫩容网

嫩容网提供一站式美妆护肤指南。涵盖护肤常识、化妆技巧、最新美妆趋势和护肤产品推荐。专注天然护肤，提供彩妆新品评测及护肤秘籍。汇集各品牌信息，解析护肤常用品效果。以护肤科学为基础，分享专业建议和彩妆技术。探索护肤小窍门，发现彩妆达人经验分享。我们致力于带您踏上美丽之旅，让美丽成为共同探索的主题。

企业品牌 2026-01-29 19:13:19

蚁景网安实验室

蚁景网安实验室提供在线实验与课程,包含web安全\渗透测试\密码学应用\软件安全\CTF挑战\漏洞挖掘等多方面的内容,大量靶场实战提升操作能力,助你快速成长

网络应用 2026-01-29 19:34:13

首页

国内首部原创交互式游戏动漫——《大吉成长记》，专为2-6岁儿童精心设计的安全教育软件，打造可看可玩的3D电影级儿童动画，教育方向涵盖儿童安全防护、认识广阔世界和探索人类未知等基础知识。

电影视频 2025-02-09 23:57:50

博文

江阴博文财税专注于为中小微企业及创业者提供一站式专业工商财税服务。江阴公司注册,代理记账报税,公司变更,注销公司,财务税务咨询,一般纳税人申请,出口退税,办理内外资,江阴公司注册,财税记账选「博文」

商业服务 2026-01-30 00:43:42

雷军入选 2017十大经济人物评选完整名单 (雷军入选过时代周刊吗)

由新浪财经、人民日报，客户端，、吴晓波频道联合打造的，2017十大经济年度人物，颁奖盛典于2018年1月28日在北京演艺中心举办，雷军第一个登场亮相，获得的评价也极高，他是手机行业颠覆者，从巅峰到低谷再强势反弹，凭借对品质和技术创新的坚持，2017年提前完成千亿销售目标五，他战略布局新零售，高速推进小米之家线下大规模扩张，绘就全球化...。

2025-01-30 20:24:57

以及利用AI工具提升数倍工作效率 AI带来的赚钱机会 (以及利用职权或者地位形成的便利条件)

现在ai、可以说是非常火，国内外也涌现了一大批AI聊天工具，最火的就是chatgpt了，其他比如，国外，国内，AI的爆火也给普通人带来了很多机会，普通人可以通过提升工作效率，还可以通过AI赚钱，ChatGPT或者其他AI工具可以说是精通任何领域的知识，问他问题都能给出非常专业的回答，操作门槛为零，我们输入提示词，AI就会输出对应的内容...。

2025-01-29 00:05:55

好友麻辣烫可以加盟吗 (麻辣烫可以)

麻辣烫是现在很多年轻小伙伴都非常喜欢吃的美食，因此在餐饮市场获得了广阔的发展空间，面对这样的市场现象，也引得了一些创业者的关注，不过，关于麻辣烫的品牌还是比较多的，其中比较有名气的当属好友麻辣烫，很多人在吃过之后都非常的满意，并且对其频频点赞，那么，好友麻辣烫可以加盟吗，就成为了广大加盟商需要提前了解的开店前提，好友麻辣烫可以加盟吗好...。

2024-12-21 17:51:34

原迅雷高级副总裁於菲被指利益输送；比特币突破1.1万美元大关；三星宣布量产第二代10nm芯片内讧迅雷始末 (原迅雷高级副本在哪)

迅雷，内讧，始末，原迅雷高级副总裁於菲被指利益输送11月28日，迅雷发布公告称，迅雷金融、迅雷易贷、迅雷小游戏、迅雷爱交易系迅雷大数据信息服务有限公司及其子公司经营的业务，并非迅雷集团旗下业务，迅雷已正式撤销品牌和商标授权，并要求其全面停止对迅雷商标的任何使用，但迅雷金融随后却发布公告称，迅雷大数据和迅雷金融，其字号名依法注册，受法律...。

2024-12-09 23:55:38

子 2的联名款手 Pro哈利·波特版体验评测办骁龙7s 电 Pad 12.1英寸LCD Gen Redmi

RedmiPadPro在4月10日和RedmiTurbo3一同发布，骁龙7sGen2，12.1英寸120Hz的2560x1600LCD屏幕，10000mAh电池，33W快充，6，128版1499元，5G版1999元，，8，128版1599元，8，256版1799元，5G版2399元，而带上收纳袋、触控笔、双面保护壳的哈利·波特版，8...。

2024-12-02 18:09:27

展现壮族风情广西队绣球舞出呗侬情 (展现壮族风情的歌曲)

海报集团全媒体记者李天平摄影报道11月26日，第十二届全国少数民族传统体育运动会表演项目，室内，在三亚市体育中心体育馆举行，广西队表演的，绣球舞出呗侬情，充满壮族风情，让观众仿佛置身于传统节日，三月三，的氛围之中，据了解，2006年，广西南宁首次将抛绣球引入体育中考，如今，这项运动已在南宁市各中学铺开，抛绣球也被多地列入中考项目，...。

2024-11-28 11:02:05

百度输入法往选字框里强塞广告

百度输入法居然在输入法键盘上推送广告，近日，博主@阑夕表示，V2EX论坛上有程序员发现百度输入法将广告塞到了选字框里，如下图所示，目前这个功能正在灰度测试，不是所有人都能出现，但还是被很多人发现了，被，骂，的很惨，因为现在民众对百度强加广告好像很反感，是不是，百度搜索竞价广告，后遗症?其实我觉得这事并不大，因为国内几乎100%的输入法...。

2024-11-16 00:25:08

在这里出现的事情令人震惊美国地下批以色列稀有 (在这里出现的什么)

据，今天美国报，15日报道，美国政府今天谴责以色列空袭加沙地带的一座医院，报道称，这场空袭引发左近巴勒斯坦难民帐篷营地出现火灾，外地期间10月14日夜间的这场空袭，形成至少4名巴勒斯坦人死亡，数十人受伤，其中包含儿童，空袭引发帐篷营地起火，视频显示，一名女子被活活烧死，美媒，美国谴责以色列空袭加沙医院对此，美国白宫国度安保委员会发言人...。

2024-11-13 22:42:04

曹操网约车出行 (曹操出行网约车租金多少一月)

申明，1.以上内容仅代表揭发者自己，不代表黑猫揭发立场，2.未经授权，本平台案例制止任何转载，违者将被清查法律责任，3.黑猫揭发处置揭发不收取任何费用，凡以黑猫揭发名义不要钱的均为混充、诈骗行为，请及时报警并与黑猫官网反应，揭发邮箱heimaotousu@vip.sina.com，4.请大家选用官网渠道处置生产纠纷，不要轻信第三方机构...。

2024-07-17 20:24:01

帕拉梅拉属于什么品位 (帕拉梅拉属于保时捷吗)

帕拉梅拉属于上流品位，帕拉梅拉是保时捷品牌推出的一款奢侈轿车，它代表着上流汽车制作技术和设计的完美联合，该车不只在外观设计上独具特征，充溢了流线美感和力气感，而且在外部性能和性能体现上也到达了极高的水平，以下是对于帕拉梅拉的一、外观设计的上流品位帕拉梅拉的外观设计时兴、流线型，展现出保时捷品牌的经典元素，车身线条流利，外型共同，给人一...。

2024-07-06 21:57:59

新必应下载-微软新必应v111.0.1660.13官方最新版

微软新必应是一款由微软官方推出的人工智能AI交流软件，能够满足用户与AI之间的交流需求，通过与OpenAI进行深入合作

2023-11-05 09:18:24

纺织印染网站大全-重庆分类目录网

重庆分类目录网站收录纺织印染相关的优秀网站大全分类检索，为上网用户提供纺织印染网站排行榜与您分享、收藏！

2023-09-18 01:03:12

文章推荐

好玩的莉比小公主游戏有哪些莉比小公主游戏大全2024 (好玩的莉比小公主游戏推荐)

相信很多玩家都特别喜欢莉比小公主游戏，玩起来放松，而且也能让玩家在过程中感受到满满的成就感，不仅如此，莉比小公主游戏的画面异常精美，几乎每一帧都能带来视觉盛宴，为大家推荐几款好玩的莉比小公主游戏大全，当下类似的游戏有很多，希望能为您带来更丰富的选择，1、，莉比小公主之梦幻学院，喜欢冒险类题材的游戏的玩家，可以下载，莉比小公主之梦幻学院...。

2025-02-11 16:33:57

资讯动态

如何用资本运作的思维扩大项目 (如何用资本运作企业)

朋友b，主业做投资，为什么有的人起点没我们高，却实现了质的蜕变，我们还在原地踏步?很大原因，是因为没有严格的计划，明确的目标，也没有监督机制，日复一日重复执行低势能行动，势必注定了颓废，b说，很多赚钱功夫是在背后，为什么以前很多品牌卖产品不赚钱，甚至亏钱，还要大规模去拿地，建地，因为他们赚钱的方式不是通过产品，而是房地产，比如肯德基，...。

2025-01-30 23:01:12

网络百科

起点中文网的17年互联网征程 (起点中文网的股东)

那天，阅文集团的高级副总裁，起点中文网的创始人林庭锋告诉我个，小秘密，他说自己现在每天依然会捧着手机看上至少三四个钟头的网络小说，他还说，，不是为了工作，就是爱看，都身价好多个亿的霸道总裁了，还成天‘沉迷，网络小说?我信你个鬼，，我怀疑他在贩卖情怀，但没有证据，哪知，他真的点开手机让我看，全球高武，读至最新1039章……，...。

2025-01-30 21:14:34

网络百科

如何进行品牌规划什么是品牌规划 (如何进行品牌建设)

如今的市场，走出了杂乱，形成了规章，并且伴随着人们需求及消费模式的改变，市场上销量靠前的多为知名品牌，面对这种现状，很多人都开始思索，要不要进行品牌规划，那么，什么是品牌规划，如何进行品牌规划呢，接下来，请大家随小编一起来看看吧，什么是品牌规划，其实，我们可以将品牌规划拆分为品牌，规划，品牌，是一个营销名词，在广义上，品牌就是具有经济...。

2025-01-16 02:16:21

创业加盟

Pxiel 约合4900元起 Google 火热机皇候选 6系列价格爆料

新机最大特色是Google的自研SoC芯片GoogleTensor，谷歌张量，，三星5nm工艺，CPU部分组合非常特殊，其搭载了2颗2.8GHzX1，骁龙888是单颗2.84GHz的X1，，2颗2.25GHzA76，传闻是为了省芯片面积，和4×1.8GHzA55，GPU是Mali，G78，核心数未知，但能猜到这会是一颗很热情的SoC，...。

2024-12-02 18:03:38

手机评测

两行代码解决大语言模型对话局限！港中文贾佳亚团队联合MIT发布超长文本扩展技术 (两行代码解决电脑卡顿)

相关文章

文章推荐