AndrejKarpathy:大模型有内存限制,这个妙招挺好用|速度|序列|token|karpathy

用微信扫码二维码

AndrejKarpathy大模型有内存限

分享至好友和朋友圈

AndrejKarpathy用通俗易懂的语言介绍了speculativeexecution。

「如今,LLM(大语言模型)并不是单点突破的——而是需要多个重要组件有效协同工作的系统。Speculativedecoding是帮助我们从系统角度思考的一个很好的例子。」爱丁堡大学博士生符尧表示道。

人形机器人公司1XTechnologies的AI副总裁EricJang评价道:「Karpathy很好的解释了LLM的speculativeexecution。其他自回归模型可能会以类似的方式加速。连续(扩散)模型可能从K步中获益较少(可能在第1步后偏离猜测),但可以将其应用于VQ-latents的离散代码。」

看完上述评价,我们大概也了解了,Karpathy说的「Speculativeexecution」,这是优化技术的一类,采用这个技术的计算机系统会根据现有信息,利用空转时间提前执行一些将来可能用得上,也可能用不上的指令。如果指令执行完成后发现用不上,系统会抛弃计算结果,并回退执行期间造成的副作用(如缓存)。

为了让大家更好的理解Karpathy的内容。我们先介绍一下「Speculativedecoding」方法,对后续理解更加有益,其主要用于加速大模型的推理。据了解,GPT-4泄密报告也提到了OpenAI线上模型推理使用了它(不确定是否100%)。

关于「Speculativedecoding」,已有几篇重要文献可供参考,这也是Karpathy为了写这则推特所参考的论文,包括谷歌今年1月发表的论文《FastInferencefromTransformersviaSpeculativeDecoding》、DeepMind今年2月发表的论文《AcceleratingLargeLanguageModelDecodingwithSpeculativeSAmpling》,以及谷歌等机构2018年的论文《BlockwiseParallelDecodingforDeepAutoregressiveModels》。

简单来说,「Speculativedecoding」使用两个模型:一个是原始目标模型称为大模型,另一个是比原始模型小得多的近似模型称为小模型。主要思想是先让小模型提前解码多个token进行猜测,并将它们作为单个batch输入到一个大模型中进行审核修正,其效果和直接用大模型解码等价。如果小模型猜测的不准确,那么大型模型会放弃小模型预测的token,继续使用大型模型进行解码。

由于小模型计算量小,从而大大减少了内存访问需求。

介绍完「Speculativedecoding」,我们再回到Karpathy的推特。Karpathy是针对下面内容回复的。

Karpathy表示:对于LLM来说,「Speculativeexecution」是一种极好的推理—时间优化方法。

它取决于以下方面:在单个输入token上分发LLM所花费的时间与在批处理中分发K个输入token所花费的时间一样多。产生这样的原因是因为采样严重受内存限制:模型运行时的大部分工作不是在做计算,而是从VRAM读取transformer的权重到片上缓存进行处理。如果你要做的工作是来读取这些权值,你可以把它们应用到一整批输入向量上。

但是我们不能一次性采样一批K个token,因为每N个token都取决于我们在第N-1步采样的token。由于存在串行依赖性,因此基线实现只是从左到右逐一进行。

这种方法起作用的原因在于,很多「草稿」token都会被接受,因为它们很容易,所以即使是更小的草稿模型也能得到它们。当这些简单的token被接受时,我们会跳过这些部分。大模型不同意的hardtoken会回落到原始速度,但由于一些额外的工作,实际上速度会慢一些。

Karpathy表示,这个奇怪的技巧之所以有效,是因为LLM在推理时受到内存限制,在对单个序列进行采样的batchsize=1设置中,很大一部分本地LLM用例都属于这种情况。因为大多数token都很「简单」。

全局中部横幅
不休的音符

4399不休的音符是一款音乐节奏游戏,在游戏中玩家体验不同类型的音乐,通过准确的音符设计和精确的节奏感,真实地感受到音乐的魅力。快来挑战反应速度和节奏感吧!

手机软件应用免费下载

vip下载站是一个免费下载手机软件应用平台,为广大用户提供最新最全的免费手机软件app下载,手机游戏下载,并提供精品软件使用教程,手机游戏攻略等,为您提供vip般的下载服务。

首页

为精英家庭2-15岁子女提供多元文化课程及特色主题课程的寄宿制国际化学校,让孩子成为有爱心、有社会责任感、有创造能力、有国际视野、有民族自信的新英才

免费算命,生辰八字算命,周易占卜,姓名测试打分

欢迎光临卜易居免费算命大全!本站是网上算命最准的网站,主要测算项目有生辰八字算命,姓名测试,在线算命,周易算命,在线抽签,姓名算命,起名网免费测名,在线算命,老黄历查询,周易占卜,八字算命婚姻,周公解梦,万年历,周易算卦,手机号码测吉凶,姓名配对,车牌号码吉凶,塔罗牌占卜,2024年生肖运程,宝宝起名打分,起名字大全等内容;

广州市皓萱堂珠宝首饰有限公司

广州市皓萱堂珠宝首饰有限公司新注册于2018年4月。公司的前身是美国一家大型首饰公司驻广州的采购办公室。

益美硬盘消磁

广州益美硬盘销毁回收公司隶属于广州益美环境服务有限公司,长期提供硬盘消磁销毁,冻肉销毁,冻品销毁,保密数据销毁,洗发水销毁,涉密载体销毁,咖啡销毁,茶叶销毁,咖啡豆销毁,沐浴露销毁,洗衣液销毁,保密文件销毁,过期食品销毁,过期奶粉销毁,啤酒饮料销毁,冷冻食品销毁,牛肉销毁,报废化妆品销毁,过期保健品销毁,报废面膜销毁,过期护肤品销毁,u盘芯片银行卡销毁,垃圾清理,工业垃圾处理,工业垃圾处置等业务,服务范围涵盖深圳珠海东莞过期化妆品处理销毁,佛山惠州过期食品处理销毁等珠三角地区

昆山兆准测量仪器有限公司官网

昆山兆准测量仪器有限公司是中国测量仪器领先品牌、行业的领导者!拥有完全自主知识产权的三坐标测量机、影像测量仪、快速测量仪、投影仪等精密量测设备的制造厂家,也是目前测量行业最具实力的生产厂家之一。工厂总部位于广东省东莞市,昆山为直销及全方面售后服务点,全国各地设有多个分公司或办事处,服务网点辐射于中国的华南、华东、华北、西北以及亚洲、欧洲等多个国家。

上海洁固清洗设备有限公司

洁固高压清洗机,高压水除漆除锈,汽车厂格栅滑撬清洗,反应釜换热器清洗,船体除漆除锈,造纸机设备清洗,工业高压清洗机,上海洁固清洗设备有限公司

广州博森科技市场服务

博森科技全球市场服务对接。广州博森科公司主营CCG合约量化机器人CCR现货量化机器人、FA外汇EA机器人。专注量化技术交易10年,成熟稳定自主研发技术,欢迎交流。苏经理

房山区企业管理咨询

房山区企业管理咨询由北京星颂企业管理有限公司提供服务。

滴滴车主招募

滴滴车主招募,详细介绍滴滴注册司机车辆要求及滴滴出行打车app下载,滴滴网约车,让你上班灵活,多劳多得,轻松补贴家用!点击查看滴滴车主招募、司机注册及车辆要求,滴滴打车app下载尽在滴滴出行!

全局底部横幅