DeepSeek新数学模型刷爆记录 刷新多项高难基准测试

4个月前 (05-01)热点话题110

  DeepSeek推出了新模型DeepSeek-Prover-V2,专注于数学定理证明,并在多项高难度基准测试中刷新了记录。在普特南测试上,Prover-V2解决了49道题,远超当前第一名的10道和未针对定理证明优化的DeepSeek-R1的1道。

  

  论文中特别提到“通过强化学习发现新技能”的现象。例如,在普特南测试中,参数量较小的DeepSeek-Prover-V2-7B用非CoT生成模式成功解决了13个671B模型未能解决的问题。团队检查后发现,7B模型处理涉及有限基数的问题时,经常使用Cardinal.toNat和Cardinal.natCast_inj,而671B模型没有这些内容。这表明7B模型学会了671B模型未学会的新技能。

  

  DeepSeek-Prover系列模型已推出三款:2024年3月的DeepSeek-Prover、2024年8月的DeepSeek-Prover-V1.5以及2025年5月的DeepSeek-Prover-V2。Prover-V1主要通过大规模合成数据集微调DeepSeek-Math-7B来推进定理证明。Prover-V1.5增加了证明助手反馈的强化学习(RLPAF)和蒙特卡洛树搜索方法。Prover-V2进一步提出“子目标分解的强化学习”,基础模型从DeepSeek-Math-7B升级到DeepSeek-V3,整合了高上下文窗口和强大的自然语言推理能力,统一了形式化和非形式化数学证明。

  

  Prover-V2还继承了Prover-V1.5提出的CoT和非CoT生成两种模式。通过递归证明搜索合成冷启动推理数据,利用DeepSeek-V3将定理分解为高级证明草图并在Lean 4中形式化,从而产生一系列子目标。使用70亿参数模型处理每个子目标,减轻计算负担。一旦具有挑战性的问题的分解步骤得到解决,就将完整的逐步形式化证明与来自DeepSeek-V3的相应思维链配对,创建冷启动推理数据。

“DeepSeek新数学模型刷爆记录 刷新多项高难基准测试” 的相关文章

成功着陆、身体状态良好!神舟十九号载人飞行任务取得圆满成功 航天员平安归来

成功着陆、身体状态良好!神舟十九号载人飞行任务取得圆满成功 航天员平安归来

  4月30日,神舟十九号载人飞船返回舱在东风着陆场成功着陆。航天员蔡旭哲、宋令东、王浩泽身体状态良好,标志着此次载人飞行任务取得圆满成功。   ...

河南代理主帅:球员训练状态挺好 新帅即将到位

河南代理主帅:球员训练状态挺好 新帅即将到位

  4月30日,中超联赛第10轮比赛前夕,河南队在主场迎战武汉三镇。赛前,河南队代理主帅陆峰和队员钟义浩出席了新闻发布会。   ...

特朗普承认关税影响美物价上涨 玩具和日用品价格飙升

  美国总统特朗普在4月30日的白宫内阁会议上讨论了现行关税政策对美国人生活的影响。他表示,受关税影响,货架可能变空,孩子们以前能买30个玩具,现在只能买两个,而且这两个玩具也会比之前更贵...

美国环保署宣称将削减员工 至1980年来最低水平

  当地时间5月2日,美国环保署宣布将裁减员工至1980年以来的最低水平,并削减3亿美元预算。...

12306回应乘客被困4小时 列车晚点原因未明

12306回应乘客被困4小时 列车晚点原因未明

  5月1日晚,有网友乘坐D7987次列车从哈尔滨前往七台河西。按计划,列车应在20时30分左右到达终点站。然而,列车在出牡丹江站后不久突然停车,且停车时间超过4小时。该网友发文时已是5月...

浙江一女士吃蜂胶降血脂,4年后查出肝脏损伤,医生:无知 保健品滥用风险高

  江苏南通的一位普通中年女性在过去四年里每日坚持服用蜂胶胶囊,因为她听说蜂胶可以降血脂、增强免疫力。然而,四年后她的体检报告显示肝功能异常,转氨酶飙升,肝脏出现明显损伤。医生无奈地表示,...