大模型可通过自我验证提高推理性能 AI 团队最新研究发现中科院 (大模型可通过什么传播)

文章编号：36806 资讯动态 2024-11-30 大模型中科院团队语言模型

语言模型越大，其自我验证能力越强，推理性能也更高。

推理能力是机器接近人类智能的一个重要指标。

最近的大型语言模型（Large language mode，LLM）正在变得越来越擅长推理，背后的一个关键技术是思维链（chain-of-thought，CoT），简单来说，CoT 可以让 LLM 模拟人类思考的过程，帮助大型语言模型生成一个推理路径，将复杂的推理问题分解为多个简单的步骤，而不仅仅只是一个最终答案，从而增强模型的推理能力。

对人类而言，我们推断得出一个结论后，往往会通过重新验证来进行核对、避免错误。但当 LLM 在通过 CoT 执行复杂推理尤其是算术和逻辑推理的过程中若出现错误，会在一定程度上影响推理效果，所以不得不进行人工验证。

那么能不能让语言模型也具备自我纠错和自我验证的能力呢？

近日，中国科学院自动化所的研究团队提出了一种新方法证明了 LLM 可对自己的推理结论进行可解释的自我验证，从而大大提高推理性能，这让 LLM 朝着人类智能又前进了一步。

正向推理+反向验证

当涉及复杂推理时，语言模型往往缺乏稳健性，一旦发生任何一个小错误，都可能会改变命题的全部含义，从而导致出现错误答案。使用CoT 提示进行推理时，问题会更严重，由于模型没有纠错机制，以至于很难从错误的假设中纠正过来。

以往的一种解决方法是通过训练验证器（verififiers）来评估模型输出正确性。但训练验证器有三个大缺点：需要大量的人力和计算资源、可能存在误报、可解释性差。

为此，中科院团队提出让 LLM 进行自我验证。

首先，假设推理问题中的所有条件对于得出结论都是必要的，给定结论和其他条件后，可推导出其余条件。自我验证分两个阶段进行：

如下图，对于“Jackie 有 10 个苹果（f1），Adam 有 8 个苹果（f2），Jackie 比 Adam 多了多少个苹果？”这个问题，可从 f1 和 f2 推理出结论 fy。然后，通过反向验证来检验该结论的准确性，就像解方程一样，如果以 f2 和 fy 为条件，可以得出 f1，通过验证 f1 是否与原来的 f1 结果一致，可以判断 fy 的正确性。

图 1：正向推理与反向验证

研究表明，LLM 仅需少量提示即可使用自我验证，无需训练或梯度更新。它们用候选结论来验证，解决了原 CoT 中偏离正确思维过程的问题。而且，验证分数源自整个思维推理过程，可解释性很高。

通过对 GPT‑3、CODEX 和 Instruct‑GPT 等大模型的实验分析，这项研究证明了 LLM 具备可解释的自我验证能力。

LLM 的自我验证过程

自我验证的整个过程如图 2所示。第一步与 CoT 类似，但研究通过采样解码生成多个候选结论，计算每个候选结论的验证分数，并选择最高分数作为最终结论。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

图 2：自我验证示例；LLM 在第一阶段中生成一些候选结论，三个预训练语言模型用于大量自动构建的数值推理问题，但这些方法需要大量的数据和专家注释，然后 LLM 依次验证这些结论，统计推理正确的屏蔽条件的个数作为第二阶段的验证分数

图 3：这是一个需要使用多个条件的示例；如果只屏蔽第一个证据，则不需要这个证据（前向推理时，需要计算周末的钱，周五的工作时数不影响最终结论）。因此，我们无法根据现有条件和任何候选结论来预测此证据

给定一个语言模型 M 和一个问答数据集 D，CoT 为 D 设计了一组样本 C，其中包含 n 个样本，epoch 样本有包含条件和问题的输入 X，思维过程 t 和结论 y。这些示例用作测试时间的输入。通常 n 是一位数，因此需要语言模型 M 在生成 y 之前安装 C 生成 t 的提示：

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

C 中的每个示例都连接为提示。

使用 S Ampling 解码生成 K y，K 是 y 的个数。具体来说，采样译码是一种随机译码方法，它可以在每一步从可能生成的词的概率分布中采样来选择下一个词，重复使用 Sampling 解码可以得到多个候选结论。

.2 条件和结论的重写

对输入的 X 进一步细分为中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能其中每个 f 是一个条件，q 是一个问题。我们使用命令“请把问题和答案改成完整的陈述句[q] The answer is [y]”通过 M 把 q 和 y 改成新的陈述句 fy 。

在问题生成上，问题的多样性使得在实际操作中很难平衡问题和答案之间的连贯性和事实一致性的需要，因此直接屏蔽条件。首先，通过正则匹配找到 f1 中的值改写为 X，在新问题的末尾加入“What is the answer of X？”，从而提示语言模型指示目标。

.3 依次验证

如图 4 所示，如果给定的 X 不满足所有条件都是结论的必要条件，可以发现只有掩码的第一个条件会有局限性，难以准确评估其验证分数。为了解决这个问题，可以采用多个条件依次验证的方法：依次用 X 替换原始 X 中出现的所有 f，并要求 M 重新预测它，提高验证的可靠性和准确性。

图 4：在八个基准数据集上进行评估，这些基准数据集涵盖了算术推理、常识推理和逻辑推理任务

.4 验证分数

研究人员设计了一个类似于正向推理的 CoT 以指导 LLM 生成解决过程。而反向验证过程类似于求解方程式，可将其最终结果与屏蔽条件进行匹配。

由于 LLM 本身性能有限，在反向验证过程中，单次解码会因随机性导致验证结果出现偏差，难以保证更准确的验证分数。为了解决这个问题，采样解码过程将重复 P 次，这样验证分数就可以更准确地反映模型对给定结论的置信度。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

其中，1（.）为指示函数，从生成的 K 个候选答案中选择验证分数最高的一个作为结果，

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

LLM 的自我验证能增强推理性能

任务和数据集

此项研究评估了6个算术推理数据集，进一步证明了自我验证在常识推理和逻辑推理数据集上的有效性。这些数据集在输入格式方面高度异质：

型号

研究人员在实验中测试来原始 CODEX 模型和 Instruct‑GPT 模型，此外还通过使用 GPT‑3 进行分析实验，研究了不同参数级别对可验证性的影响，LLM 的大小范围为 0.3B 到 175B 。这些实验使用了 OpenAI 的 API 来获得推理结果。

实验结果表明，使用了自我验证的两个模型在多个任务中实现了 SOTA 性能。

图 5：推理数据集上的问题解决率（%）

可以看到，自我验证在算术数据集上实现了1.67%/2.84%的平均改进，并为常识推理和逻辑推理任务带来了少量优化。此外，自我验证还直接导致高性能 Instruct‑GPT 模型结果平均增加2.33%，这表明，具有强大前向推理能力的模型也具有很高的自我验证能力。

研究人员进一步发现了以下几个关键结论。

可用条件越多，验证准确性越高

图 6：单条件验证与多条件验证的问题解决率（%）比较

图 6 中观察了对六个不同算术数据集使用单一条件掩码的效果：由于这些数据集输入中的每个数字都可以被视为一个条件，因此可以研究增加验证条件数量的影响。经大多数实验可发现，多条件掩码比单条件掩码表现更好，并且都比原始 CoT 表现更好。

模型越大，自我验证能力越强

图 7：不同尺寸模型的自我验证能力

图 7显示了参数从 0.4B 到 175B 的 GPT‑3 模型能力。实验结果表明，当参数较小时，模型的自验证能力较弱，甚至不如 CoT 的原始性能。这说明，模型的自我验证也是一种涌现能力，且往往出现在更大的模型中。

思维链提示很少并不影响自我验证能力

图 8：2 次提示和8 次提示的问题解决率（%）比较

图 8 所示的实验结果显示了不同的提示量对性能的影响。可以看到，自我验证在较小的样本中表现出更大的稳健性，甚至低至 2 次，这时候其 8 次提示的性能是 99.6%，而 CoT 只有 98.7%。不仅如此，即使只有 4 个提示（2 个 CoT 提示+ 2 个自我验证提示），自我验证也明显优于 CoT 8 次提示，突出了自我验证在数据有限情况下的重要性。

图 9：不同验证方式的提示对比

与其它方法相比， 条件掩码 的自我验证性能更优

有另一种方法可以验证模型答案的正确性：真-假项目验证，这以方法是模型对所有条件进行二分判断，如图 12 所示，不覆盖任何条件。此研究还提供了一个反向推理的例子，并尝试让模型自动从结论是否满足条件进行反向推理，但实验结果如图 10 所示，真-假项目验证的性能，要落后于条件掩码验证的性能。

图 10：6 个算术数据集的问题解决率（%）条件掩码验证和真-假项目验证的比较

为了理解这种差距的原因，研究分析了具体案例，如图 11 所示，结果表明：（1）缺乏明确的反向推理目标导致模型再次从正向推理，该结果没有意义、并且不利用现有的结论；（2）真-假项目验证提供了所有的条件，但这些条件可能会误导模型的推理过程，使模型没有起点。因此，更有效的做法是使用条件掩码验证，从而更好地激发模型的自我验证能力。

图 11：一些实际生成案例进一步展示了不同验证方法的影响

LLM 的自我验证 能纠错，但可也能「误伤」

图 12 展示了 LLM 使用自我验证来验证其自身结果的详细结果：

图 12：使用 Instruct‑GPT 为八个数据集中的每一个生成了五组候选答案，然后利用 Instruct‑GPT 的自我验证能力，对它们进行一一判断和排序

左边的扇形图显示了自我验证产生的候选结论的预测结果。LLM 在每次提示中产生1-5个候选结论（由于 LLM 的自洽性，可能会产生相同的候选结论），这些结论可能是正确的，也可能是错误的，再通过 LLM 自我验证来检验这些结论，并将其类为真阳性（TP）、真阴性（TN）、假阴性（FN）或假阳性（FP）。可以发现，除了 TP 和 TN 之外，还有大量的 FN，但只有少量的 FP。

右边的表格显示了召回率明显高于准确率，由此可以说明，LLM 的自我验证可以准确剔除不正确的结论，但也可能将一个正确结论错误地认为是不正确的。这可能是由于反向验证时方程错误或计算错误造成的，这一问题将在未来解决。

最后总结一下，这项工作提出的自我验证方法能够让大型语言模型和提示来引导模型验证自己的结果，能提高 LLM 在推理任务中的准确性和可靠性。

但需要注意的是，这些提示是人为构造的，可能会引入偏差。所以方法的有效性会受到 LLM 产生的候选结论中正确答案的存在的限制，因此取决于模型正确前向推理的能力。

此外，该方法涉及生成多个候选 CoT 和结论，这对于 LLM 来说也存在计算资源的消耗。虽然它可以帮助 LLM 避免来自不正确的 CoT 干扰，但也可能无法完全消除推理过程中的错误。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

版权文章，未经授权禁止转载。详情见转载须知。

中科院 AI 团队最新研究发现，大模型可通过自我验证提高推理性能

本文地址： http://www.gpxz.com/article/0b3725b0f2eddb3b2aea.html

上一篇：李航ACM名单公布恭喜梅宏Fellow俞栋2022邢

下一篇：就没有啃不动的机器学习论文看懂这25个核心

码农之家

码农之家为程序员朋友们提供计算机电子书学习资源，打造成编程电子书、PDF文档的专业网站，还提供了计算机相关课本的课后习题答案以及相关可书籍配套资源，为大家学习编程和计算机知识节省成本。

下载资源 2024-09-15 00:19:50

Welcome

WelcometoCENTURY21China-欢迎访问21世纪不动产中国网站

网站模板 2024-01-15 01:32:03

微波炉的做法大全

豆果美食微波炉栏目为您推荐微波炉做法大全,微波炉怎么做好吃技巧分享,微波炉最正宗的做法和微波炉家常做法推荐,更多微波炉的简单做法就来豆果美食。

电影视频 2024-01-14 18:45:34

泄爆窗

河北泄爆门窗厂家生产定制：泄爆窗，泄爆门，抗爆窗，抗爆门，钢质防火窗，断桥防火窗，防火门等产品是集生产、安装为一体的厂家。

电影视频 2024-07-04 17:04:03

胶合木

南通佳筑建筑科技有限公司专业胶合木加工24米超长压机，大构件、大跨度。弧形梁、异型梁定制加工。构件精确开槽，打孔，预组装。强大技术支持服务结构施工图设计、构件力学计算书。项目材料表清单，工程成本预算。

设计美化 2024-07-13 12:42:53

天佑工程设计有限公司

天佑工程设计，是专业从事景观设计，园林规划设计，景区旅游规划，施工图设计，旅游景区设计的设计院，现有数百名专业设计师，不断创新的设计理念，以精工细作，精益求精的施工理念。

设计美化 2024-07-15 22:40:38

深水防水电连接器

泰兴市联海电子有限公司是一家专业从事：防水电连接器、深水电连接器、玻璃烧结电连接器等产品的生产与销售的企业。适用于插针、圆形三孔、矩形航空等，厂家直销，我们期待您的来电。

企业品牌 2024-11-13 02:14:19

如美生活

如美生活读书生活旅行您身边的旅行专家&品质生活小助手

生活常识 2024-11-13 14:39:36

阿凡提物流供应链管理（广东）有限公司

阿凡提物流供应链管理（广东）有限公司拥有覆盖中亚国家国际物流网络，2021年与哈萨克邮政合作，成为哈邮在中国唯一授权的货运代理出口企业。公司现已打造了国际跨境电商平台，并同哈萨克斯坦合作伙伴共同建立了两个海外仓库，能够为客户提供便捷无延迟的物流服务体验，并通过先进的管理理念及科学管理方法为客户提供优质、高效的物流服务。

网络应用 2024-11-13 17:43:09

衡水网站设计制作造页关键词优化微信小程序开发推广

电话：13630818340，七星网络是专业从事互联网相关业务开发的公司，主要经营：衡水网站建设,衡水网站制作,衡水网页设计,衡水网站优化,衡水seo优化,衡水小程序开发,衡水公众号开发,衡水网站推广,衡水关键词优化,企业视频等专门提供全方位的优质化服务和专业的网站建设方案，为企业打造全新电子商务平台。成熟的技术实力和完善的运营服务体系是七星网络IT应用服务的根基。

电影视频 2025-02-24 18:49:06

狸谱｜AI壁纸漫画梗图

动漫厨的二创新社区

游戏网游 2025-03-05 19:49:53

2023适合情侣体验的游戏大全好玩的游戏适合情侣一起玩的推荐 (2023适合一辈子网名)

情侣之间很重要的娱乐方式之一就是一起玩游戏，今天给大家介绍下有哪些好玩的游戏适合情侣体验，这些游戏不仅玩法多样趣味好玩，而且对玩家之间的默契配合、互动交流以及团队协作考验不小，情侣之间一起玩会体验非常欢乐，来看看都有哪几款游戏值得期待吧，近年来非常热门的开放世界冒险游戏，主要玩法就是控制角色在大世界中展开探险，跟随主线剧情进行探索或者...。

2025-02-10 02:23:14

阿里云摘得中国数据库市场5连冠！公有云部署成主流 (阿里云chia)

日前，全球领先的IT市场研究和咨询公司IDC发布了，2023年下半年中国关系型数据库软件市场跟踪报告，报告显示，2023年阿里云整体市场份额，公有云，本地部署模式，稳居第一，其中公有云市场份额高达39.2%，自2019年起连续5年蝉联榜首，图说，2023年中国公有云关系型数据库市场，阿里云绝对优势夺冠关系型数据库是当下最流行的数据库...。

2024-12-09 23:07:50

久告互动宣传平台是否能为品牌带来真正的突破

随着数字化营销的不断发展，品牌推广方式也在发生着深刻变化，传统的广告方式逐渐被更多互动性、参与感强的新型平台所替代，久告互动宣传平台作为其中一员，其号称能帮助企业与消费者之间建立更紧密的联系，那么，久告互动宣传平台是否真能为品牌带来突破，这一问题值得我们深入探讨，平台简介及其核心功能久告互动宣传平台是一个专注于为品牌提供互动营销解决方...。

2024-12-05 21:09:06

投影机投射的画面为什么会出现偏色 (投影机投射的映像是什么状态)

shenzuoman大神级投影控发表于2024，02，21投影机投射的画面出现偏色的原因可能有以下几种，1.信号环境，例如，投影仪接收到的是偏色的信号，这就导致画面偏色，一般来说，这种现象是由于信号源，如DVD等，或显示设备有问题，此时，需要检查这些设备是否正常工作，2.投影机问题，投影机的灯泡可能损坏或驱动问题可能会导致偏色，这种情...。

2024-11-28 17:03:11

3LCD DLP和LCoS LCD技术有什么区别全面分析投影技术特点

发表在综合交流大区2024，3，514，02相信大家非常疑惑，究竟有多少种投影技术，尤其华为海思即将推出才有LCoS技术的激光投影仪，对于如今主流的DLP、3LCD、LCD技术上有什么不同呢，下面就来全面了解一下，看看DLP和LCoS、3LCD、LCD技术有什么区别，一、DLP和LCoS、3LCD、LCD技术有什么区别DLP的英文全称...。

2024-11-28 14:54:43

教育加盟 (教育加盟项目)

教育加盟，教育理念，即关于教育方法的观念，是教育主体在教学实践及教育思维活动中形成的对，教育应然，的理性认识和主观要求，包括教育宗旨、教育使命、教育目的、教育理想、教育目标、教育要求、教育原则等内容，教育加盟网是全新的教育加盟网络服务平台，是服务于教育创业的快速通道，每一位想加入教育加盟的企业、个人都想找到一家靠谱的教育加盟服务商，大...。

2024-11-27 18:59:41

美国在台协会一中被消音台媒发如今赖办资讯稿中新处长提 (美国在台协会新馆落成)

[全球网报道]据台湾中时资讯网、中天资讯网7月11日报道，，美国在台协会，AIT，新任处长谷立言日前与台当局指导人赖清德会面，重申美国对台湾的允许，并称这合乎美国长期以来的，一中政策，而台媒留意到，谷立言，一中，两字在赖办的资讯稿中，被消音，了，台湾中天资讯网报道称，依据AIT在会后所颁布的资讯稿，谷立言与赖清德会面时谈到，美国会...。

2024-07-12 00:23:56

长城m2重大缺陷 (长城m2复产)

1、长城m2缺陷是排量小，稳固性不好以下是对长城m2缺陷的详细引见1排量小空调制冷慢，满载时开空调较费劲起步没力，毕竟只要15L的发起机，高速开到130一点疑问都没有，然而150就差不多极限，没方法继续优化多少2，2、3最不满意的缺陷是减震的硬空间，对空间很满意4头号舱携带的行李基天性满足要求，只是先行李箱空间太短5关于15L发起机来...。

2024-07-07 06:22:47

DVD-ClonerGold破解版-DVD-ClonerGold(DVD拷贝工具)v20.30.1481免费版

DVD-ClonerGold(DVD拷贝工具)是一款能够完全解码CSS加密和区码的制作高质量1:1DVD备份拷贝的软件。支持用户单独选择喜爱的章节、字幕及音轨。

2023-11-05 21:34:14

海盗湾水上赛车游戏下载，我想看海盗湾-赛车竞速游戏

谁能帮我找几个BT下载游戏的好网站? 好的电脑游戏下载平台有：steam、腾讯游戏平台、Origin、百度游戏大厅、网易游戏平台、快玩游戏盒。SteamSteam平台是Valve公司聘请BitTorrent(BT下载)发明者布拉姆·科恩亲

2023-11-07 22:58:24

不需要实名认证的游戏直播软件

推荐a实名认证Yes直播软件，which软件/No/。未使用实名认证游戏软件未使用实名认证/，有没有直播-0认证宽松手游直播现在几乎没有平台，现在都需要实名-2。1、斗鱼直播必须要身份证吗?您好，很高兴回答您的问题。在浏览了相关文献后，我总结了以下对斗鱼直播的要求，希望对你有所帮助。第一，你要有斗鱼直播的稳定房间，也就是说，你要有斗鱼的房间。你必须年满18岁，这也是一个硬性要求。因为未成年人担心被犯罪分子利用，所以必须是第三个成年人。他们承诺并声明，在向官方斗鱼提供服务时，应遵守法律的规定，不得以履行本协

2023-10-11 01:47:15

盘点南昌颇有名气的拌粉店，第二家人均20元

如果有朋友去过南昌肯定就知道，当地的拌粉是一道比较出名的特色小吃，不过南昌人吃粉是有多种吃法的，一般是有炒米粉、泡米粉、凉拌米粉等，所以今天小编就来为大家推荐南昌能够上榜前十的拌粉店，每一家都有值得去的美食。

2023-10-07 01:07:46

文章推荐

小米将发布5G手机午休余承东海尔回应员工鸿蒙系统华为手机或明年发布被开除 (小米将发布SUV车型)

余承东，华为鸿蒙系统基本准备就绪，手机或明年发布华为终端CEO余承东在IFA展会期间接受媒体采访时表示，麒麟处理器目前依然只供他们自己使用，但是华为在考虑对外销售，至于华为手机是否会使用鸿蒙系统，余承东指出，，事实上我们的鸿蒙系统已经基本准备就绪，但我们不会先去使用它，因为我们还考虑到相关决定和合作，如果我们的手机继续不被允许使用谷歌...。

2024-12-10 00:48:07

资讯动态

助力当地鲜花产业发展抖音电商与昆明签署合作协议 (鲜花助农项目名称大全)

8月19日，，云花产业与直播电商创新高峰论坛暨云花上行供应链创新发展大会，在云南昆明滇池国际会展中心举行，论坛现场，抖音电商与昆明市商务局签署合作协议，双方将发挥各自优势，实现资源共享，构建可持续发展的伙伴关系，该合作将聚焦昆明下辖呈贡、宜良、晋宁、嵩明等花卉绿植交易和种植区域，以重点企业孵化、供应链打造、营销活动策划等手段，推动当地...。

2024-12-09 21:39:10

资讯动态

autosleep睡眠银行入口在哪 (AutoSlide)

autosleep睡眠银行入口在哪，autosleep不仅可以很好的记录用户的睡眠日常，还有睡眠银行的功能，可以很好的帮助用户记录睡眠时长，还可以将你的实际睡眠时长以及需求进行比较，评估你的睡眠质量，那么入口在哪里呢，一起来看看吧！...。

2024-12-02 20:27:32

技术教程

长虹激光电视C6怎么样一文分析参数特点看看值不值买 (长虹激光电视怎么样)

发表在长虹投影仪2021，12，2113，24新年新产品，2022即将到来，不少品牌纷纷开始新品预热活动，长虹最近就预告了一款4K高亮激光电视C6，在亮度色彩、配置功能以及使用的便捷性上都有所提升，本文就详细的谈谈长虹激光电视C6怎么样，分析其参数特点，1、亮度升级长虹激光电视C6采用新升级的超高光效远心激光光学引擎，使得屏前亮度提升...。

2024-11-29 00:50:00

网络百科

当贝X5S怎么玩游戏 (当贝x5s怎么样)

发表在专业问答2024，6，311，00展示机型信息，品牌型号，当贝X5S系统版本，当贝OS4.1当贝X5S玩游戏可以通过应用市场安装游戏玩或者外接游戏主机玩游戏，下面就为当贝X5S怎么玩游戏的详细方法做具体说明，当贝X5S怎么玩游戏方法一，应用市场安装游戏玩游戏1.打开应用市场在当贝X5S的应用界面选择当贝市场并点击打开；2.选择游...。

2024-11-28 21:43:03

网络百科

大模型可通过自我验证提高推理性能 AI 团队最新研究发现 中科院 (大模型可通过什么传播)

.2 条件和结论的重写

.3 依次验证

.4 验证分数

未经「AI科技评论」授权，严禁以任何方式在网页、论坛、社区进行转载！

相关文章

文章推荐

大模型可通过自我验证提高推理性能 AI 团队最新研究发现中科院 (大模型可通过什么传播)