GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7|ai|示例|置信度|gpt-4|软件安装包

文章编号：3639 技术教程 2023-09-19 ai 示例终结置信度 gpt 4 软件安装包

用微信扫码二维码

分享至好友和朋友圈

【新智元导读】 GPT4终结人工标注AI标注比人类标注效这个开源工具，居然能用GPT-4代替人类去标注数据，效率比人类高了100倍，但成本只有1/7。

大模型满天飞的时代，AI行业最缺的是什么？毫无疑问一定是算（xian）力（ka）。

老黄作为AI掘金者唯一的「铲子供应商」，早已赚得盆满钵满。

除了GPU，还有什么是训练一个高效的大模型必不可少且同样难以获取的资源？

高质量的数据。OpenAI正是借助基于人类标注的数据，才一举从众多大模型企业中脱颖而出，让ChatGPT成为了大模型竞争中阶段性的胜利者。

但同时，OpenAI也因为使用非洲廉价的人工进行数据标注，被各种媒体口诛笔伐。

时代周刊报道OpenAI雇佣肯尼亚廉价劳动力标注

而那些参与数据标注的工人们，也因为长期暴露在有毒内容中，受到了不可逆的心理创伤。

卫报报道肯尼亚劳工指责数据标注工作给自己带来了不可逆的心理创伤

总之，对于数据标注，一定需要找到一个新的方法，才能避免大量使用人工标注带来的包括道德风险在内的其他潜在麻烦。

所以，包括谷歌，Anthropic在内的AI巨头和大型独角兽，都在进行数据标注自动化的探索。

谷歌最近的研究，开发了一个和人类标注能力相近的AI标注工具

Anthropic采用了ConstitutionalAI来处理数据，也获得了很好的对齐效果

除了巨头们的尝试之外，最近，一家初创公司refuel，也上线了一个AI标注数据的开源处理工具：AutoLabel。

Autolabel：用AI标注数据，效率最高提升100倍

这个工具可以让有数据处理需求的用户，使用市面上主流的LLM（ChatGPT，Claude等）来对自己的数据集进行标注。

refuel称，用自动化的方式标注数据，相比于人工标注，效率最高可以提高100倍，而成本只有人工成本的1/7！

就算按照使用成本最高的GPT-4来算，采用Autolabel标注的成本只有使用人工标注的1/7，而如果使用其他更便宜的模型，成本还能进一步降低

采用AutolabelLLM的标注方式之后，标注效率更是大幅提升

对于LLM标注质量的评估，Autolabel的开发者创立了一个基准测试，通过将不同的LLM的标注结果和基准测试中不同数据集中收纳的标准答案向比对，就能评估各个模型标注数据的质量。

当Autolabel采用GPT-4进行标注时，获得了最高的准确率——88.4%，超过了人类标注结果的准确率86.2%。

而且其他比GPT-4便宜得多的模型的标注准确率，相比GPT-4来说也不算低。

开发者称，在比较简单的标注任务中采用便宜的模型，在困难的任务中采用GPT-4，将可以大大节省标注成本，同时几乎不影响标注的准确率。

Autolabel支持对自然语言处理项目进行分类，命名实体识别，实体匹配和问答。

支持主流的所有LLM提供商：OpenAI、Anthropic和GooglePalm等，并通过HuggingFace为开源和私有模型提供支持。

Autolabel免除了编写复杂的指南，无尽地等待外部团队来提供数据支持的麻烦，用户能够在几分钟内开始标注数据。

可以支持使用本地部署的私有模型在本地处理数据，所以对于数据隐私敏感度很高的用户来说，Autolabel提供了成本和门槛都很低的数据标注途径。

所以，不论是律所想要通过GPT-4来对法律文档进行分类，还是保险公司想要用私有模型对敏感的客户医疗数据进行分类或者筛查，都可以使用Autolabel进行高效地处理。

如果没有Autolabel，用户需要首先收集几千个示例，并由一组人工注释者对它们进行标注，可能需要几周的时间——熟悉标注方针，从小数据集到大数据集进行几次迭代，等等。

而如果使用Autolabe可以在分钟内就对这个数据集进行标注。

首先安装所有必要的库：

现在，将OpenAI密钥设置为环境变量。

下载和查看数据集

将使用一个名为CivilComments的数据集，该数据集可通过Autolabel获得。你可以在本地下载它，只需运行:

接下来，通过运行agent.plan，使用config中指定的LLM对的数据集进行一次标注

定义下面的配置文件:

如果要创建自定义配置，可以使用CLI或编写自己的配置。

最后，进行数据标注:

输出结果为54%的准确率不是很好，进一步改进的具体方法可以访问以下链接查看：

技术细节：标注质量Benchmark介绍

在对Autolabel的基准测试中，包含了以下数据集：

表1：Autolabel标注的数据集列表

表2：用于评估的LLM提供者与模型列表

本研究在三个标准上对LLM和人工标注进行评估：

对于每个数据集，研究人员都将其拆分为种子集和测试集两部分。

种子集包含200个示例，是从训练分区中随机采样构建的，用于置信度校准和一些少量的提示任务中。

测试集包含2000个示例，采用了与种子集相同的构建方法，用于运行评估和报告所有基准测试的结果。

在人工标注方面，研究团队从常用的数据标注第三方平台聘请了数据标注员，每个数据集都配有多个数据标注员。

此过程分为三个阶段：

研究人员为数据标注员提供了标注指南，要求他们对种子集进行标注。

然后对标注过的种子集进行评估，为数据标注员提供该数据集的基准真相作为参考，并要求他们检查自己的错误。

可以看到，与熟练的人工数据标注员相比，最先进的LLM已经可以在相同甚至更好的水平上标注文本数据集，并且做到开箱即用，大大简化了繁琐的数据标注流程。

但由于LLM是在大量数据集上训练出来的，所以在评估LLM的过程中存在着数据泄露的可能。

研究人员对此进行了例如集合的额外改进，可以将表现最好的的LLM（GPT-4、PaLM-2）与基准真相的一致性从89%提高到95%以上。

对于提供对数概率的LLM（text-davinci-003），研究人员使用这些概率来估计置信度。

对于其他LLM，则使用FLANT5XXL模型进行置信度估计。

例如，上图显示，在95%的质量阈值下，我们可以使用GPT-4标注约77%的数据集。

添加这一步的原因是token级日志概率在校准方面的效果不佳，如GPT-4技术报告中所强调的那样：

GPT-4模型的校准图：比较预训练和后RLHF版本的置信度和准确性

95%与基准真相一致的完成率

相比之下，人类标注者与基准真相的一致性为86.6%。

从上图可以看到在所有数据集中，GPT-4的平均完成率最高，在8个数据集中，有3个数据集的标注质量超过了这一质量阈值。

而其他多个模型（如text-bison@001、gpt-3.5-turbo、claude-v1和flan-t5-xxl）也实现了很好的性能：

平均至少成功自动标注了50%的数据，但价格却只有GPT-4API成本的1/10以下。

在接下来的几个月中，开发者承诺将向Autolabel添加大量新功能：

支持更多LLM进行数据标注。

支持更多标注任务，例如总结等。

支持更多的输入数据类型和更高的LLM输出稳健性。

让用户能够试验多个LLM和不同提示的工作流程。

我是一万米高的搞笑女2023-09-1719:21:36

谷普下载提醒您

本文链接：http://www.gpxz.com/article/923deb9785f5d084d7cc.html

上一篇：全新EC6整车358万元起售NT20平台产品切换完

下一篇：CEO也被AI机器人代替了我没有周末，247全天候

hao123导航手机

hao123是汇集全网优质网址及资源的中文上网导航。及时收录影视、音乐、小说、游戏等分类的网址和内容，让您的网络生活更简单精彩。上网，从hao123开始。

音乐歌曲 2024-07-03 15:51:03

意大利餐的做法大全

豆果美食意大利餐栏目为您推荐意大利餐做法大全,意大利餐怎么做好吃技巧分享,意大利餐最正宗的做法和意大利餐家常做法推荐,更多意大利餐的简单做法就来豆果美食。

电影视频 2024-08-17 00:25:37

微信支付服务商系统

微信支付服务商系统是一款帮助服务商快速赚佣金的系统，可以实现商户代理进件和支付结算的平台,支持微信个人支付,跨境支付,电商收付通分账等功能，同时迅虎帮助申请跨境微信服务商和国内普通服务商，快速赚取支付服务商佣金。

网络应用 2024-07-11 13:44:08

win7家园

win7家园提供win7使用教程、windows7系统常见问题，让电脑小白遇到问题也能轻松解决。

电影视频 2024-11-16 17:50:25

枣强县盛飞复合材料有限公司

枣强县盛飞复合材料有限公司是集设计、开发、制造与销售为一体的实业型企业。

编程开发 2024-11-17 07:39:26

Parker

无锡德品科技有限公司

科技创新 2024-11-19 23:43:32

bolt

山东民安锁业有限公司boltseal,plasticseal,cableseal,meterseal,metalstrapseal

查询工具 2024-11-29 02:16:38

四川纳仕企业管理咨询有限公司

管理咨询 2024-11-30 15:19:13

人在长春

(自适应移动端)大气的个人博客作品pbootcms网站模板博客主题作品展示网站源码下载

博客日志 2024-12-03 22:55:49

牛皮文学

牛皮文学网致力于为广大书虫朋友整理推荐各种类型的精彩小说，包括言情小说、重生小说、穿越小说、玄幻小说、仙侠小说、科幻小说、历史小说、悬疑小说等。牛皮不是吹的，小说还得看我推的，找小说看小说就上牛皮文学网。

小说阅读 2024-12-09 18:26:28

审批管理系统

千余款各行业审批管理软件系统，通过我们自研的高效管理平台开发，并在使用中不断优化、改进、升级，让系统具备了高安全性、高拓展性；我们的全部软件均支持电脑端、手机端、微信小程序、APP等，帮助用户轻松跨平台数据实时管控。

手机软件 2025-02-09 16:31:59

安徽科电电力建设有限公司【企业官网】

企业品牌 2025-02-21 00:58:45

空调一年不洗竟然比马桶还脏60倍！ (空调一年不洗可以开吗)

随着天气变得炎热起来，汽车作为人类的第三空间，意味着每天有很大一部分时间都会在车内度过，闲置的汽车空调也要开始用起来了，理想的姿势应该是这样的，炎热的夏天，吹着凉风，带上一家人出去踏青出游，感受大自然的美，而现实却是刺鼻的异味让您窒息，比马桶还脏的细菌滋生物、霉菌、空调不制冷等等因素，想摆脱这样的痛苦吗，汽车空调真的有那么脏吗，答案是...。

2024-12-21 14:45:26

其被曝曾在办公室扎小人抽打泄愤百度高层对璩静事件震怒并火速拿下向参哥取经；马云20年前旧帖公开；58裁撤不盈利业务丨雷峰早报

要闻提示1.百度高层对璩静事件震怒并火速拿下，其被曝曾在办公室扎小人抽打泄愤、向参哥取经2.知情人士回应华为发布致战友们的一封信，不太可能以类似方式进行内部动员3.马云20年前淘宝旧帖重新公开，电商最大的受益者应该是用户4.58同城或酝酿大变革，设立新基金，不盈利业务全部裁撤，两年多来已有十余轮裁员5.苹果自己制造了一次，灾害级公关，...。

2024-12-01 01:41:39

王则昭艺术经历 (王则昭艺术经历简介)

王则昭的艺术生涯从幼年时期便展现出对京剧的热爱，她在九岁时拜韩富信和艾连奎为师，开始了她的京剧学习之旅，十岁那年，她初次登台演出，展示了非凡的才华，随着家庭的迁移，她先后在西安、兰州等地生活，十四岁进入西安夏声戏校，成为该校唯一的女生，这为她日后的艺术发展奠定了坚实的基础，在西安，她凭借出众的演技，十六岁便成为，世界舞台，的主演，赢得...。

2024-11-29 14:27:25

支持HDR10 的4k全色激光电视怎么样三星lsp9t评测首发 (支持hdr10+的电视)

发表在三星投影仪2021，2，1916，36三星lsp9t是一款支持HDR10，的全色4k激光电视，超高的4k分辨率与全色激光技术融合，为用户打造了个人专属的家庭影院；同时三星lsp9t还附赠100寸抗光硬屏，下面就一起来看看这款三星lsp9t全色激光电视怎么样，1、三星lsp9t外观展示三星lsp9t采用了灰白色的机身设计，外观感受...。

2024-11-28 23:16:23

当贝F5投影仪评测首发全面突破亮度达到行业新高度 (当贝F5投影距离尺寸)

发表在当贝投影仪2022，2，2217，472022当贝旗舰新品F5已全网上线，这是一款亮度突破新高度的投影仪，已是LED投影仪中顶尖的存在，具体这款投影仪的实际效果如何呢，下面就随我一同来看一下当贝F5的实测效果吧，看看究竟有哪些特色，1.当贝F5外观赏析当贝F5虽说是当贝2022年的全新作品，不过整体外观还是继承了当贝F3系列的高...。

2024-11-28 18:28:54

创维A63电视通过U盘安装软件教程 (创维a63电视怎么样)

创维A63电视安装第三方软件最新通用教程分享，下面为大家分享创维A63电视最新安装第三方软件通用教程具体方法如下，方法一，01、下载安装当贝市场到U盘，下载安装地址，点击这里安装打开创维A63电视，在电视主页，用遥控器往上移，找到设置03、在，设置，里面找到本机，进入找到本机信息，打开更多信息04、在下图界面中，用遥控器依次点击，上上...。

2024-11-25 12:02:42

副部长杜玉波接受审查考查教育部原党组副书记 (副部长杜玉波分工)

教育部原党组副书记、副部长杜玉波涉嫌严重违纪违法，目前正接受中央纪委国度监委纪律审查和监察考查，总台央视记者李本扬，更多报道，打虎！杜玉波被查，长安街知事据中央纪委国度监委网站18日信息，教育部原党组副书记、副部长杜玉波涉嫌严重违纪违法，目前正接受中央纪委国度监委纪律审查和监察考查，地下资料显示，杜玉波出世于1955年9月生，河北晋...。

2024-11-13 17:48:06

痣的位置与命运图 26 其余痣的吉凶 (痣的位置与命运图解)

26、其余痣的吉凶一、臀部长痣预示你永世衣食无忧图注1，福禄寿高痣，，长在臀部上，落在坐椅子的位置是最好的，偏上到腰和偏下至大腿根部都不是很好的位置，臀部上的痣比拟由于位置不凡，无论男女，中年，大略42岁，会特意的颠簸，子女孝敬，万事顺利，所以，身材倍儿棒吃嘛嘛香，，寿命也会较常人高，图注2，光荣吉庆痣，，长在大腿根儿臀部以下的位...。

2024-07-10 00:15:30

奥铃速运贵还是捷运贵 (奥铃速运贵还是捷达贵)

奥铃速运贵，依据查问中国卡车网显示，奥铃速运最低多少钱为八点七万元，捷运最低多少钱为六万元，以此相比奥铃速运贵，福田奥铃捷运是什么意思福田奥铃捷运是一种市区客运车辆，重要用于市区公交线路及市内长途运输，其驳回环球上游的汽车技术和设计，具备杰出的安保功能和温馨功能，能够满足市区极速交通的需求，福田奥铃捷运能够满足市区公共交通的多种需求，...。

2024-07-07 01:26:28

五菱宏光s算不算面包车 (五菱宏光s算面包车吗)

五菱宏光S算面包车，它处于商用汽车和新动力客车两边，归属于跨界营销商品，按等级来分归属于小型面包车，五菱宏光S对比普通的面包车来讲，外观设计设计打算愈加顺畅、，部空间规划愈加动静变动无常，总体来说，运行性的驾驶室内空间愈加开阔，五菱宏光S归属于免检车子吗，上边有说到，五菱宏光S归属于小型面包车，载客量普通为5，8座，据国度公安部发布的...。

2024-07-01 17:49:49

京东预订尾款能用券吗

京东预订尾款是指在购买某些高价商品时，用户可以先支付一部分订金，然后在商品发货前支付尾款。这种购买方式让用户更加方便，可以先锁定心仪的商品，等到它正式发售之后再支付尾款。关于京东预订尾款是否能使用券，

2023-11-19 03:37:52

XmanagerPowerSuite7下载-XmanagerPowerSuite7破解版v7.0.0028中文激活版

XmanagerPowerSuite7破解版是一款功能强大的远程管理软件，集Xmanager（高性能PCX服务器）、Xshell（强大的SSH客户端）、Xftp（SFTP/FTP客户端）

2023-11-05 02:48:51

文章推荐

8999元起东芝Z750电视4月20日开售 iCare眼舒适音画双芯 (2399元起)

东芝Z750电视将于4月20日晚上8点正式开售，新品共有65英寸、75英寸以及85英寸三种版本可选，定价分别为10999元、13999元以及19999元，需要注意的是，IT之家查看商品详细购买页面发现，若用户在预售期间支付了100元定金，可享尾款立减2000元优惠，到手价分别为8999元、11999元以及17999元，具体来看，东芝Z...。

2025-02-02 19:26:26

资讯动态

怎样加盟火锅火锅店加盟好吗 (怎样加盟火锅连锁店)

火锅领域有一个品牌大家一定是有所耳闻的，那就是火锅火锅，火锅火锅出名的不在于口味有多独特，而在于服务的高水准，虽然有很多业内人士诟病，但从品牌差异化竞争角度分析，火锅火锅确实成功占据了大片市场，火锅火锅店的成功成了很多智慧之选者的目标，那么，怎样加盟火锅火锅店，加盟好吗，一起来看下吧，怎样加盟火锅火锅店，加盟好吗，这一问题存在的前提是...。

2024-12-02 20:56:47

创业加盟

有正规典当可以加盟吗 (典当行能做吗)

创业，选择对项目，就说明已经成功一半了，所以在此之前，创业者们也纷纷走上了对于创业之路的探索上，典当行业，在国内的市场上已经有上千年的发展历史，如今也是比较受欢迎的金融类项目，对于大众较大的需求下，以及行业不断拓张的发展市场，不少的创业人士，也纷纷将对其加盟开店的想法关注了过来，下文中，有关有正规典当可以加盟吗，详情的内容一起去探索了...。

2024-12-02 20:45:29

创业加盟

善草纪护肤品怎么加盟 (善草纪护肤品怎么样)

保持美丽肌肤状态是很多人不由自主便会坚持的梦想，但是人力毕竟难抵大自然的伤害，很多时候我们还需要借助外界的力量，比如比较常见的护肤产品，护肤产品一般都是采用原料加以先进的技术提取很多对肌肤有修复或者养护或者补水功能的成分制作而成，不同年龄段的消费者有针对性不同功能的护肤产品，这导致化妆护肤产品市场前景大好，善草纪护肤品在众多品牌之中不...。

2024-11-22 23:23:43

创业加盟

灯饰加盟怎样 (灯饰加盟怎样做)

灯是家家户户必备的产品，也是一种能够温暖家的物品，灯饰产品搭配好可以提高整体的装修档次和氛围，不仅仅起到照明的作用，而且也能起到美观的作用，因此，广大市民在选择灯饰的过程中，需要按照整体的装修风格做选择，华艺灯饰是市场上口碑较好的品牌，在研发方面的实力相当强大，向市场上推出不同种类的产品，得到越来越多消费者的认可，为人们带来一站式的购...。

2024-11-22 21:51:19

创业加盟

GPT-4终结人工标注！AI标注比人类标注效率高100倍，成本仅1/7|ai|示例|置信度|gpt-4|软件安装包

相关文章

文章推荐