AndrejKarpathy:大模型有内存限制,这个妙招挺好用|速度|序列|token|karpathy

用微信扫码二维码

Karpathy大模型有内存限

分享至好友和朋友圈

AndrejKarpathy用通俗易懂的语言介绍了speculativeexecution。

「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latents的离散代码。」

看完上述评价,我们大概也了解了,Karpathy说的「Speculativeexecution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解Karpathy的内容。我们先介绍一下「Speculativedecoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4泄密报告也提到了OpenAI线上模型推理使用了它(不确定是否100%)。

关于「Speculativedecoding」,已有几篇重要文献可供参考,这也是Karpathy为了写这则推特所参考的论文,包括谷歌今年1月发表的论文《FastInferencefromTransFormersviaSpeculativeDecoding》、DeepMind今年2月发表的论文《AcceleratingLargeLanguageModelDecodingwithSpeculativeSampling》,以及谷歌等机构2018年的论文《BlockwiseParallelDecodingforDeepAutoregressiveModels》。

简单来说,「Speculativedecoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个token进行猜测,并将它们作为单个batch输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculativedecoding」,我们再回到Karpathy的推特。Karpathy是针对下面内容回复的。

Karpathy表示:对于LLM来说,「Speculativeexecution」是一种极好的推理—时间优化方法。

它取决于以下方面:在单个输入token上分发LLM所花费的时间与在批处理中分发K个输入token所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从VRAM读取transformer的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批K个token,因为每N个token都取决于我们在第N-1步采样的token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

这种方法起作用的原因在于,很多「草稿」token都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时,我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy表示,这个奇怪的技巧之所以有效,是因为LLM在推理时受到内存限制,在对单个序列进行采样的batchsize=1设置中,很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。


本文地址: https://www.gpxz.com/article/a735b091036354aa2eda.html
全局中部横幅
全局中部横幅
司马阅

司马阅是成都三生万物科技旗下核心AI品牌,作为百度AI生态首批原生AI合作伙伴,依托自研备案DocMind文档智能模型,专注文档智能与数据智能领域,为企业提供严肃场景AI落地解决方案。通过将非结构化文档转化为大模型可理解的标准化数据,有效控制AI幻觉,助力企业从数字化向AI智能化转型。产品入选2025非凡-原生AI产品奖、国家职业教育教材及“一带一路”AI应用案例集,已服务招投标、制造、物流等数十行业上百家企业,践行“AI普惠”愿景,让AI生产力落地业务创造价值。

赛尔生物

赛尔主要从事抗体与相关产品研发及生物医学技术服务,已通过抗体生产ISO9001体系认证,从2008年开始一直被评为国家高新技术企业,并获得“开发区科技创新奖”荣誉称号。

八珍袋泡茶

茶郎中是重庆多普泰制药和多代制药公司品牌,专注于袋泡茶赛道,产品包含八珍袋泡茶、茸杞补肾健脾茶等,打造国潮养生和中医药文化理念相融合的新诠释,持续力争成为袋泡茶药品行业品牌。

DAV数字音视工程网

DAV数字音视工程网(dav01.com)是音视频工程行业权威门户网站,为您提供全面及时的项目,招标信息,厂商动态,工程技术资源和详尽准确的产品信息及相关厂家,经销商,工程商信息.包括大屏显示,信号处理,集中控制,数字会议,音频扩音,灯光舞台,公共广播,监控安防,摄录编播,远程音视涉及的会议系统,视频会议,多媒体会议,多功能会议,指挥中心,指挥调度,投影机,虚拟仿真,大屏幕,监控,公共广播,项目招

热门游戏攻略网

炫游攻略网是一个分享网游、手游、单机游戏玩家提供最新/最全的游戏资讯、攻略、活动内容的综合服务平台,内容涵盖手游攻略,游戏攻略,游戏资讯,游戏排行,手游排行耪,热门游戏等内容

首页

朴朴超市官方网站,朴朴快送超市创立于2016年,专注于打造移动端30分钟即时配送一站式购物平台。

铭辰影院

铭辰影院为您提供最新电影、热播电视剧、综艺节目、华语动作电影、欧美科幻电影、韩剧、美剧、港剧、动漫等、以及各种好看的视频。更有丰富电影专题,电影分类,权威电影评分,忠实影迷的电影评论!

东莞GEO优化

东莞市中易网络科技有限公司是一家专注于全网整合营销推广服务商,主营:东莞GEO优化,AI搜索排名,GEO优化公司,GEO优化哪家好,东莞阿里巴巴运营,东莞诚信通装修,东莞阿里巴巴代运营,1688店铺运营,1688旺铺装修,阿里巴巴装修,诚信通代运营,诚信通开户,阿里装修,阿里代运营,阿里托管,GEO优化十大服务商.提升网络营销效果热线:13433038878

二手行车回收

上海佰杏废旧物资回收有限公司从事二手行车回收,二手机械设备回收等服务,至开业以来,有很多的回收案例,得到企业以及很多机构的一致好评.

纱奈网络

关于我们 绍兴纱奈网络科技有限公司(以下简称


全局底部横幅