微软：两个AI相互纠错，数学再涨5分

文章编号：387时间：2024-12-17人气：

提升 LLM 数学能力的新方法来了 ——

一个大模型不行，那就两个。让他们彼此合作，纠正对方的错误。

这就是来自加州大学和微软研究院的最新研究成果：Flow-DPO 两个AI相互纠错，再涨5分。通过使用在线学习流（Flow）和直接偏好优化（DPO, Direct Preference Optimization），可以让 LLM 生成更加详细和精确的推理轨迹。

同时，这种在线多智能体（Agent）的学习形式还能挖掘数据中的深层信息，有效避免了人类标注数据不够准确的问题。

我们先一起看个例子感受一下。

比如针对下面这道题：

方程 x + 2y + 3 = 0 的图与方程 ax + 2y + 3 = 0 的图互相垂直。请问 ax + 2y + 3 = 0 中，a 的值是多少？

基准回答是这样的：

方程 x + 2y + 3 = 0 的图形的斜率为 -1/2，因为图形垂直，所以 ax + 2y + 3 = 0 的图形的斜率必须是 x + 2y + 3 = 0 的负倒数。因此，方程 ax + 2y + 3 = 0 的斜率为 2，改写为 2y = -ax - 3，然后两边除以 2，得到 y = -a / 2x-3/2。将此与斜率截距形式 y = mx + b 相比，我们发现斜率 m 为 -a / 2。由于我们知道斜率为 2，所以 - a / 2= 2。将两边乘以 -2，得到 a = -4，答案为：-4。

而 Flow-DPO 的回答是这样的：

要解决这个问题，我们需要了解线性方程中垂直线的概念。当两条直线垂直时，它们的斜率互为负倒数。让我们以斜率-截距形式复述给定方程 x + 2y + 3 = O，即 y = -1/2x - 3/2。这告诉我们直线的斜率是 - 1/2。现在，我们需要找出方程 ax + 2y + 3 = 0 所表示的直线的斜率。我们可以将方程改写成斜率-截距形式，即 y = -a / 2x - 3/2。这告诉我们这条直线的斜率是-a / 2。由于两条直线垂直，因此它们的斜率互为负倒数。这意味着 -1/2 * (-a / 2) = 1，简化为 a = -4。因此，a 的值为 -4。

让 GTP-4o 当裁判，针对两个模型的回答分析了一下，它认为答案 B（FLow-DPO）更好，原因有两点：

答案 A 的回答是：“我们可以利用斜率之间的负倒数关系来求解 a”。答案 B 花时间明确解释了垂直的概念，强调垂直线的斜率是负倒数。这种回答更有教育意义，可以让读者理解数学背后的推理。

答案 A 推导出了正确的方程并正确地求解了方程，但引入了一些不必要的步骤。

例如，中间步骤涉及将方程改写为 2y = -ax - 3 和两边除以 2 的中间步骤比必要的步骤复杂。

答案 B 立即使用两个方程的斜截距形式简化了方法。它有效地解释了如何提取斜率，并直接比较了两个等式的斜率，过程更直接，更容易理解。

答案 B 的解释更清晰、更透彻，既注重概念和公式，又避免了不必要的复杂性，这种循序渐进的方法更易于理解和掌握。

可以看到，在解决真实数学问题的时候，Flow-DPO 生成的推理过程不仅有更详细的指导，还避免了不必要的复杂性，增强了可读性和理解性。

这是怎么做到的呢？

针对 LLM 解决数学问题时反馈信息有限、标注数据质量不高等问题，团队提出了一种新的方法。

那就是通过在线学习流（Flow）和直接偏好优化（DPO）学习来生成高质量的推理轨迹。

Flow-DPO 采用了增量输出生成 Flow，其中有两个独立的 LLM（Answer LLM 和 Stop LLM）协同工作，通过迭代通信构建解决方案。

具体来说，Answer LLM 一次会生成一个有限的答案块，而 Stop LLM 则判断部分答案是否达到最终状态，两个 LLM 通过迭代式学习不断进步。

Answer LLM 和 Stop LLM 的底层都是相同的基础模型，但它们使用不同的 LoRA 适配器进行了微调，可以专门完成各自的任务。

而且在训练过程中，Flow-DPO 可实现更精细的控制较小的块大小，灵活适应不同的概念和方法，较大的块大小近似于单次模型生成。

Flow-DPO 还会通过在线 DPO 学习和回滚来增强 Flow。

对于每个输入问题，Answer LLM 会生成一个答案片段，一直持续到产生完整的回答。

然后模型会在每个输出节点进行随机展开，比如在生成初始答案片段且 Stop LLM 判断为“否”后，Flow 还会生成另一个答案片段，基于之前的部分答案继续构建。

如果两个答案在正确性上不同，就把它们作为答案语言模型的 DPO 对，引导到正确答案的那个片段被选为首选响应。

为了验证 Flow-DPO 的性能，研究团队还设计了精密的验证实验，具体设置如下

数据集：实验使用了 metaMath 数据集，该数据集基于于 GSM8K 和 MATH 数据集，并通过数据增强技术进行了增强。

模型选择：实验采用了两种不同规模的模型：Llama-3-8B-Instruct 和 Phi-3-medium-128k-instruct (14B)

Flow 学习阶段：在 Flow 学习阶段，团队使用不同的 LoRA 适配器对 Answer LLM 和 Stop LLM 进行微调，让它们在 DPO 训练中的能力更加专业。

编译阶段：在编译阶段，收集 Flow 生成的正确推理轨迹和基线模型生成的正确推理轨迹，进行独立评估。

最终结果显示，使用了 Flow-DPO 之后，Llama3 模型和 Phi3 在数学推理上的能力都大幅提升了！

一起来看看具体结果分析：

渐进验证准确率的准确定义，是模型在训练前对输入训练数据的累积准确度，公式和变量含义如下图所示：

实验结果显示，在线 DPO 训练显著提高了 Flow 的泛化能力。

对于 Llama-3-8B-Instruc 模型，在线 DPO 学习在仅 2000 个训练实例内将 Flow 的性能提高了 20%。对于 Phi-3-medium-128k-instruct 模型，在线 DPO 学习使其准确率提高了 4 个百分点，达到了 83%.

Flow 生成的推理轨迹在质量上也优于基线和模型生成的正确推理轨迹。

对于 Llama-3-8B-Instruct 模型，Flow 生成的推理轨迹在 GSM8K 和 MATH 数据集上的微调准确率分别提高了 6% 和 7.8%。

对于 Phi-3-medium-128k-instruct 模型，Flow 生成的推理轨迹在两个数据集上的微调准确率分别提高了 1.9% 和 2.1%.

除了刚开始的垂直直线问题，研究团队还放出了很多真实的解题回答和对比，感兴趣的朋友可以查看论文的更多相关信息。

没想到，不久前还让 LLM 非常头疼的数学问题现在也进步飞快！

有了优秀的逻辑分析能力，我们也能期待 LLM 未来能解决更多复杂的问题了。

IT之家，软媒旗下科技门户网站 - 爱科技，爱这里。

相关标签：微软AI、 AI纠错、 AI数学、

上一篇：泄露镜像显示微软曾计划为Win10X半人马座双

下一篇：微软指控美国联邦贸易委员会泄露反垄断调查

内容声明：

1、本站收录的内容来源于大数据收集，版权归原网站所有！
2、本站收录的内容若侵害到您的利益，请联系我们进行删除处理！
3、本站不接受违法信息，如您发现违法内容，请联系我们进行举报处理！
4、本文地址：https://www.baiwanlian.cn/article/e0b8a720d53a4b7f0395.html，复制请保留版权链接！

温馨小提示：在您的网站做上本站友情链接,访问一次即可自动收录并自动排在本站第一位！

随机文章

以119分获胜！火箭拒绝逆转

昨天火箭在主场迎战湖人，最终以119，115赢得了比赛，战绩提升至23胜12负，比赛一开始，火箭的防守就非常到位，第一节仅让湖人得到22分，而格林单节拿下18分，帮助球队迅速建立接近15分的领先优势，第二节，火箭继续保持高强度的防守，并且通过一波攻势将分差拉开到20分以上，尽管湖人试图反扑，但火箭的三分球保持了不错的命中率，始终没有给...。

最新资讯 2025-01-06 15:40:18

维护中哪吒汽车官网异常修复时间待定

站长之家，ChinaZ.com，1月6日消息，今日，官方网站出现了无法访问的情况，页面显示中，对此，哪吒汽车公关部门在接受采访时表示，官网正在维护中，客服人员也确认了官网系统存在异常，目前正在进行内部维护，但具体的修复时间尚未确定，他们建议有需要的用户可以下载哪吒汽车App以获取相关信息，此前，哪吒汽车宣布因公司战略调整，不再担任CE...。

互联网资讯 2025-01-06 15:06:13

引领产业转型 93年女孩接棒400亿光伏巨头 (引领产业转型升级)

天合光能股份有限公司，简称，天合光能，宣布最新的人事变动，32岁的高海纯被任命为公司联席董事长，并兼任解决方案事业群总裁，高海纯是天合光能实际控制人、董事长高纪凡的女儿，在新职位上，高海纯将协助高纪凡开展董事会日常工作，确保各项工作规范进行并发挥战略指引作用，天合光能发布公告称，为进一步完善公司治理结构，促进董事会工作的规范化，全体...。

最新资讯 2025-01-05 18:42:25

重塑巅峰时刻黄子韬逆天颜值回归 (重塑巅峰时刻在线观看)

黄子韬惊艳亮相，颜值回春引热议黄子韬以一种全新的姿态闯入了公众的视野，先是浙江卫视跨年晚会上的惊艳亮相，后与妻子徐艺洋在新年第一天的抖音视频中的甜蜜互动，黄子韬的每一个举动都牵动着万千网友的心，跨年晚会上，黄子韬以一身时尚装扮和独特的造型亮相，黑色眼线与金色头发的搭配，瞬间让人仿佛回到了他刚出道时的那段青葱岁月，金色的发丝在舞台灯光的...。

最新资讯 2025-01-03 13:43:47

涛的饭店火爆网络独特店名引热议 (涛哥饭店)

导语，1月2日，河北省邯郸市临漳县的一家饭店因独特的店名涛的饭店在社交媒体上走红，这个名字吸引了众多网友的注意，引发了广泛讨论和关注，饭店老板对意外走红感到意外，他希望这个名字能唤起人们对家的温馨回忆，名字引爆关注，引发乡愁共鸣涛的饭店位于一个繁忙的十字路口，名字十分醒目，发布视频的网友表示，这个店名让人耳目一新，引发了网友的热议，饭...。

最新资讯 2025-01-03 10:08:40

家长难以接受的假期安排 2025中小学寒假时间确定引发争议 (家长难以接受的事情)

我国学校通常将每个学年分为上、下两个学期，上学期从秋季9月开始，到次年农历腊月初十左右结束，随后进入寒假，寒假一般持续一个月左右，但在寒冷的中国东北地区及其他高纬度地区，有时会延长至45天甚至两个月，目前，多地教育局已确定了2025年的中小学寒假放假时间，具体如下，山东滕州，中小学生于1月17日开始放寒假，高中则从1月24日开始，辽宁...。

最新资讯 2025-01-03 08:25:31

相认父亲竟是骗子男子16年亲子谜团揭晓身份困惑引发热议 (相认父亲竟是我老婆)

江西上饶一名男子在结婚16年后发现自己的三个孩子都不是亲生的，这一发现让他对婚姻的信任遭受了巨大打击，他与妻子及第三者之间的民事纠纷案件将在法院开庭审理，该男子在寻亲25年期间，于2008年通过养父找到了所谓的亲生父亲，并认亲团圆，在认亲16年后，由于父亲生病，他拿到血样进行DNA检测，结果却发现两人并无血缘关系，这一发现令他感到震惊...。

最新资讯 2025-01-03 07:56:09

社会之殇与安全警示美国跨年惊爆三起恐怖袭击 (社会之悲)

在美国跨年之际，本应是欢庆新年、展望未来的时刻，却遭遇了三起令人痛心的恐怖袭击事件，这三场袭击发生在新奥尔良和纽约市，造成了大量人员伤亡和财产损失，令人震惊，新奥尔良...。

最新资讯 2025-01-03 07:41:57

重大更新预告虫子快餐店明年免费推出 (重大更新是什么意思)

万众期待的免费大型更新TheIsleofBIGsnax即将登陆PS4和PS5平台，为，虫子快餐店，带来全新的冒险篇章，虫子快餐店，是一款卡通画风的动作冒险游戏，将玩家带到了食客岛，一个居住着美味零食虫的奇幻世界，作为一名记者，玩家将踏上旅程，探索这个古怪的岛屿，收集线索，揭开其背后的谜团，TheIsleofBIGsnax更新内容Th...。

游戏资讯 2025-01-02 18:04:07

揭开神秘梦境背后的寓意梦见三眼狗的含义 (揭开神秘梦境小说)

在梦境的世界中，每一幅画面都蕴藏着潜在的含义，预示着生活中的吉凶祸福，梦见三眼狗也承载着不同的寓意，根据不同的梦境场景和个人的情况，其含义各有不同，工作方面梦见三眼狗，可能暗示着当前的工作负担较重，繁杂的流程影响了任务进度，让你感到压力重重，此时，尝试灵活思维，简化程序，不仅能提升效率，还可能赢得上司的赏识，财运方面近期财运不错，可能...。

最新资讯 2024-12-31 07:05:02

性感吊带展现热辣身材曲线杨幂演绎内衣大片 (性感吊带展现美女图片)

...。

最新资讯 2024-12-30 23:24:35

台名嘴对歼灭战的评论 (台湾名嘴谈大陆歼20)

截至2024年12月27日9时47分，航发科技股价达到21.78元，较前一交易日上涨1.98元，涨幅达10.00%，近日，成都上空出现歼，20战机伴飞一架未知型号飞机的画面，引起军事爱好者广泛关注和讨论，尽管官方尚未发布正式消息，但这一现象被认为可能与中国新一代战机研发取得重大突破有关，航空板块大幅拉升，多家军工航空相关上市公司航空航...。

最新资讯 2024-12-29 01:05:36

更换肤色

微软：两个AI相互纠错，数学再涨5分