开放代码又如何 资源集中 成本昂贵 大规模语言模型的民主化越来越难 (开放原代码许可)

文章编号:42294 资讯动态 2024-12-04 175B Meta OPT OpenAI
开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难

5月初,Meta发布了一个可以执行多个不同任务的大型语言模型Open pretraining Transformer (OPT-175B)。在过去几年里,大型语言模型(large language model,LLM)已经成为人工智能研究的热点之一。

OpenAI发布包含1750亿参数的深度神经网络gpt-3之后,就引发了一场LLM的「军备竞赛」,OPT-175B是这场竞赛的一个最新参与者。GPT-3已经表明,LLM可以无需额外训练就能执行许多任务。后来,微软将GPT-3集成到它的几个产品中,不仅展示了LLM在科学研究上的前景,也展示了LLM在商业上的应用潜力。

而OPT-175B的独一无二性在于Meta对「开放」的承诺, 正如这个模型的名字(OpenXX)所暗示的那样。Meta已经向公众提供了这个模型,并且公布了训练和发展过程中的大量细节。在Meta AI博客上发表的一篇文章中,Meta将OPT-175B的发布描述为「大规模语言模型的民主化访问」(Democratizing access to large-scale language models)。

Meta这种朝着透明化方向的发展是值得称赞的。 然而,在大型语言模型的激烈竞争下,民主化已经变得难以实现。



1750亿参数的OPT

开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难

Meta发布的OPT-175B有一些关键特征。它包括了预训练的模型以及需要训练和使用LLM的代码。训练神经网络比运行神经网络要消耗更多的计算资源,所以,对于没有计算资源来训练模型的组织来说,预训练模型特别有用。通过减少训练大型神经网络所需的计算资源,它还会有助于避免造成巨大的碳足迹。

与GPT-3一样,OPT也有不同的规模,参数从1.25亿到1750亿不等,参数越多的模型学习能力越强。目前,所有300亿参数及以下的版本都可以直接下载。完整的1750亿参数版本的模型将提供给部分研究人员和机构,只需要填写一张申请表。

“为了保证学术诚信和防止滥用,我们将在非商业许可下发布我们的模型,以专注于研究用例。该模型将授权学术研究人员使用,与政府、民间社会和学术界有关的组织,以及世界各地的行业研究实验室。”

除了模型,Meta还发布了一个完整的日志,提供了大型语言模型开发和训练过程的详细技术时间表。通常来说,经发表论文只包含关于最终版本模型的信息。Meta表示,该日志提供了一些有价值的信息,包括「用于训练OPT-175B的计算量,以及当底层基础设施或训练过程本身在规模上变得不稳定时所需的人力开销」。




Meta:GPT-3不够透明

开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难

Meta在其博客文章中还表示,大型语言模型大多可以通过「付费API」来访问,对LLM的访问进行约束「限制了研究人员去理解这些大型语言模型如何工作以及为什么能工作,阻碍进一步提高模型的鲁棒性和减少模型的偏见和有害性等已知问题」。

这是对OpenAI的一种抨击,OpenAI发布GPT-3只是提供了一种黑箱API服务,而不是将其模型的权重和源代码公开。OpenAI宣称没有公开GPT-3的原因之一,是为了控制有害应用程序的滥用和开发。

而Meta认为,通过将模型提供给更广泛的受众,会有利于研究和预防它们可能造成的任何伤害。

Meta这样描述他们所做的工作:

我们希望OPT-175B将为大型语言模型创建的前沿领域带来更多的声音,帮助社区共同设计负责任的发布策略,并为该领域大型语言模型的开发增加前所未有的透明度和开放性。




大型语言模型的成本

然而,需要注意的是,大型语言模型的 「透明和开放」并不等同于「民主化」。 训练、配置和运行大型语言模型的 而且未来可能还会继续增加。

根据Meta的博客文章,研究人员已经成功地大大降低了训练大型语言模型的成本。他们表示,该模型的碳足迹已减少到GPT-3的七分之一。之前也有专家估计,GPT-3的培训成本高达2760万美元。

这说明,OPT-175B的培训成本仍然高达数百万美元。幸运的是,预训练的模型将避免训练模型的需要,并且Meta表示,将提供「只用16块NVIDIA V100 gpu」来进行训练和部署完整模型的代码库。这相当于一台Nvidia DGX-2,成本约为40万美元,对于资金紧张的研究实验室或单个的研究人员来说,这仍不是一笔小数目。根据一篇提供了更多关于OPT-175B细节的论文显示,Meta使用了992块 80GB A100 gpu训练了自己的模型,比V100明显更快。

Meta AI的日志进一步证实,训练大型语言模型是一项非常复杂的任务。OPT-175B的开发时间表上,充斥了诸如服务器崩溃、硬件故障和其他需要高级技术人员来解决的并发症。研究人员还不得不多次重启训练过程,调整超参数,改变损失函数。所有这些产生的额外费用,都是小型实验室所无法承担的。




民主化的阻碍:权力集中在少数公司手中

开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难

语言模型如OPT和GPT都是基于transformer架构。transformer的关键特性之一,是它能够并行和大规模地处理大型顺序数据(如文本)。

近年来,研究人员已经证明,通过在transformer架构中添加更多的层和参数,可以提高语言任务的表现。一些研究人员认为,达到更高的智力水平只是一个规模问题。因此,资金充裕的研究实验室,如Meta AI、DeepMind (Alphabet旗下)和OpenAI(微软赞助),都在致力于创建越来越大的神经网络,比如DeepMind最新推出了多模态AI系统Gato。

去年,微软和英伟达创建了一个价值5300亿参数的语言模型,名为Megatron-Turing (MT-NLG)。上个月,谷歌引入了语言模型 Pathways Language Model (PaLM),这是一个包含了5400亿参数的大规模语言模型。更有传言称,OpenAI将在未来几个月发布GPT-4。

然而,更大的神经网络也需要更多的财政和技术资源。虽然更大的语言模型会有更多新花哨(和新的失败),但它们也会不可避免地把 权力集中在少数富有的公司手中, 较小的研究实验室和独立的研究人员在大型语言模型的研究上更加艰难。

在商业方面,大型科技公司将拥有更大的优势。运行大型语言模型是非常昂贵和具有挑战性的。像谷歌和微软这样的公司都有专门的服务器和处理器,所以他们能大规模运行这些模型并盈利。对于较小的公司来说,搞出一个自家版本的LLM(如GPT-3)的开销太大了。正如大多数企业都使用云托管服务而不是建立自己的服务器和数据中心一样,随着大型语言模型变得越来越流行,像GPT-3 API这样的开箱即用系统将会更具有吸引力。

而这反过来又会进一步地将AI集中在大型科技公司手中。更多的人工智能研究实验室将不得不与大型科技公司合作,以获得研究资金。这将赋予大型科技公司更大的权力来决定AI未来的研究方向(与他们的经济利益相一致的方向)。那些没有短期投资回报的研究领域,可能就会成为这其中的代价。

一个底线是,当我们庆祝Meta为LLM带来透明度的时候不要忘记,大型语言模型的本质仍是不民主的,它们只是更多地对宣传它们的公司有利。

开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难

版权文章,未经授权禁止转载。详情见 转载须知 。

开放代码又如何?成本昂贵、资源集中,大规模的民主化越来越难


本文地址: https://www.gpxz.com/article/94c4bd97048065e8d82f.html
全局中部横幅
全局中部横幅
寺库网

寺库奢侈品网站(secoo.com)作为全球最大的奢侈品购物服务平台,涉及了奢侈品网上销售、奢侈品实体休闲会所、奢侈品鉴定与养护服务等主营业务,100%正品保证,全球奢品,尽在寺库。寺库,我是奢侈品!

东哥常识网

东哥常识网(www.qunkangdg.com)为广大网友提供各类生活常识、生活百科知识、生活百科知识、世界之最、排行榜、生活知识常识大全,原创生活常识尽在2024常识网!

广州翔云网络科技有限公司

翔云网络(www.aqxyun.com)是国内专业的云安全平台,为用户网站、游戏、APP等提供黑客攻击云防护、云加速服务,使用翔云云安全可有效防御黑客攻击,防DDOS,防CC攻击,防病毒,网站全球提速200%以上。

四川博创机械有限公司

四川皮带输送机厂家推荐博创机械主要从事四川皮带输送机/四川皮带机研发销售和四川斗式提升机/四川螺旋输送机/四川链式输送机生产制造以及四川振动筛/四川电机振动给料机设计销售,机械设备类型多样,功能齐全,可满足各种使用要求,广泛运用于各领域,欢迎新老客户来电选购.

Bose

Bose官网了解创新型解决方案,助您感受更多、实践更多、成就更多。选购耳机、扬声器、穿戴设备和健康类产品。

气力输送系统公司

广东智子智能致力于成为全球领先的物料处理技术服务公司。公司秉承材料和工艺正向研发理念,提供流程工业技术一体化解决方案,涵盖先进设计、先进制造、先进运维管理等服务体系;广泛服务于新能源、新材料、化工塑料、食品医药、半导体、石油石化等行业。产品端通过高精度自动化设备、自适应软件控制系统,实现散装物料从拆包、投料、输送、储存、计量,混合、破碎、反应、搅拌、分散、除磁、筛分直至包装的全工序管控; 利用物联网、大数据及人工智能等前沿技术构建数字孪生系统,实现流程工厂的在线决策与优化。践行绿色环保理念,为客户提供可持

蓄能器价格

上海耕能液压技术有限公司主要经营,德国科德宝FREUDENBERG蓄能器,美国派克PARKE密封产品,美国伊顿EATON螺纹插装阀,液压密封件等液压元件产品,产品型号齐全,种类繁多,价格合理,质量可靠,诚信经营.如需科德宝FREUDENBERG蓄能器,派克PARKE密封产品,伊顿EATON螺纹拆装阀,液压密封件等产品,欢迎来电咨询021-36382890.

搜好货网

搜好货网(www.912688.com)互联网+智能营销云B2B电子商务平台,为您提供丰富的B2B行业资讯、供应、求购、库存信息、品牌信息等,是企业做电子商务网络贸易的网站平台。

青重重型机床有限公司

青重重型机床有限公司位于三江源青海省西宁市,是一家集研发、生产、制造销售为一体的公司。公司主要产品有重型卧式车床系列、立式车床系列、轧辊车床系列、铁路专用机床系列、组合机床系列及其他专用机械产品。

熊童子

熊童子周易算命易经知识网。提供在线算命服务,算命大全汇集了周易算命、姓名算命、生辰八字算命、周易起名等传统命理,以及塔罗占卜,星座算命、等等玄学知识!

湖北康景医药有限公司官网

湖北康景医药有限公司成立于2012年1月8日,公司位于湖北省化工重镇应城市东马坊,主要业务是为基层医疗机构提供基药配送服务。主要经营范围:中成药、化学药制剂、抗生素制剂、生化药品等。

凡花智能

凡花智能,ip运营,动作捕捉技术,三维技术

全局底部横幅