阿里云通义开源首个推理评估标准 7B尺寸比GPT-4o更出色

热度：9℃ 发布时间：2025-02-06 05:37:09

快科技1月16日消息，今日，阿里云通义开源全新的数学推理过程奖励模型Qwen2.5-Math-PRM，72B及7B尺寸模型性能均大幅超越同类开源过程奖励模型。

据悉，在识别推理错误步骤能力上，Qwen2.5-Math-PRM以7B的小尺寸超越了GPT-4o。同时，通义团队还开源了首个步骤级的评估标准 ProcessBench，此项评估标准填补了大模型推理过程错误评估的空白。

据了解，为更好衡量模型识别数学推理中错误步骤的能力，通义团队提出的全新评估标准ProcessBench。该基准由3400个数学问题测试案例组成，其中还包含奥赛难度的题目，每个案例都有人类专家标注的逐步推理过程，可综合全面评估模型识别错误步骤能力。这一评估标准也已开源。

阿里云通义开源首个推理评估标准 7B尺寸比GPT-4o更出色

此外，在ProcessBench上对错误步骤的识别能力的评估中，72B及7B尺寸的Qwen2.5-Math-PRM均显示出显著的优势，7B版本的PRM模型不但超越同尺寸开源PRM模型，甚至超越了闭源GPT-4o-0806。这证明了过程奖励模型（PRM）能够显著提高推理的可靠性，为未来开发推理过程监督技术开辟了新的途径。

(window.slotbydup = window.slotbydup || []).push({ id: "u6501951", container: "_brvvnx0iwme", async: true });

科技资讯推荐

更多+

当前视点！国轩高科百亿高端正极材料项目投产

(相关资料图)11月8日上午，国轩高科子公司合肥国轩科宏新能源科技有限公司（下称“国轩科宏”）正极材料投产仪式在合肥庐江高新区举行，这也是庐江的首个百亿项目。该项目位于合肥市庐江县国轩材料基地，主要产品为国轩高科自主研发的单体电芯能量密度≥210Wh/kg的高性能磷酸铁锂正极材料，应用于高端新能源汽...

11-15

当前热点-10月销量榜出炉！排名发生剧变，这个品牌近乎腰斩

(资料图片仅供参考)进入11月，电哥依旧为大伙儿整理了10月销量榜单，看看这一期的排名和你预想中有多少差别吧：有意思是：又有新人加入了榜单，有的品牌表现极为稳定，当然也少不了波动非常剧烈的选手。Tips：排名统计时间截止到11月3日，未公布品牌尚未纳入榜单另外，电哥也附上9月榜单（截止10月2日统计...

11-15

快报：我国汽车行业发展环境持续向好 10月份汽车销量同比增长6.9%

(相关资料图)来源：人民网原创稿人民网北京11月10日电(记者王连香)今日，中国汽车工业协会发布10月汽车工业产销情况，数据显示，10月，汽车产销延续平稳发展态势。当月产销分别达到259.9万辆和250.5万辆，环比下降2.7%和4%，同比增长11.1%和6.9%。由于车辆购置税减征政策的持续发...

11-15

世界今头条！量子世界中的平行宇宙到底是什么样子的？

(资料图)平行世界是否真实存在？另外一个世界的你自己是不是已经过上了非常幸福的生活，已经走上了人生的巅峰，而处在这个世界的你正在受尽社会的毒打。这种平行宇宙的理论到底是怎么来的呢？为什么科学家又会定义平行宇宙的存在呢？我们今天一起来了解一下量子世界中的平行宇宙到底是什么样子的？我们大家都知道在量子世...

11-15

上市公司拟投建超22万吨电池专用外壳材料项目

(资料图)11月8日晚，甬金股份（603995）公告，拟设立全资子公司“浙江镨赛新材料科技有限公司”，投资建设“年产22.5万吨柱状电池专用外壳材料项目”，计划总投资额约14亿元。该项目分两期建设，其中一期工程建设期12个月，建成年加工7.5万吨柱状电池外壳专用材料生产线，二期工程建设期18个月，建...

11-15

阅读更多+

网友评论

更多科技资讯