热点：

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

2025-03-05 13:50:00 [ 品牌资讯 ]

过去一个月来，深度推理模型的混战已经渐趋白热化。无论是此前就已经对外发布深度推理模型的厂商，还是当下试图追赶这波大模型全民普及热潮的科技公司，都暗自在推理模型上发力。

国外，最先受到冲击的OpenAI不得不临时上新o3-mini，免费开放给用户使用。马斯克旗下的xAI发布Grok3，宣称是世界上最聪明的AI。Anthropic 发布混合推理模型 Claude3.7 Sonnet，主打将两种思考方式合二为一。

国内厂商也不遑多让。阿里巴巴对外开源推理模型QwQ-Max-Preview。腾讯借着元宝接入DeepSeek的东风推广混元T1，字节豆包亦被爆出正在内测最新推理模型，百度则强调即将于3月发布文心4.5，外界称将强化推理能力。

科大讯飞此前已对外发布了基于全国产算力训练的推理模型星火X1，昨日又宣布完成了星火X1的全新升级。升级后的星火X1，仅用70B参数规模，就在数学能力上实现了与DeepSeekR1（参数量671B）和OpenAIo1的全面对标，中文数学任务更是全面领先。相较于DeepSeekR1，X1不仅答题速度更快，而且解题过程和步骤也更为清晰。作为国内率先落地应用的推理模型，此次X1取得的技术突破，将大幅降低大模型的推理训练以及部署成本，进一步加速中国大模型产业的落地应用。

测试集结果显示，升级后的星火X1在数学答题能力上实现了全面提升，尤其在解答竞赛级难题时，相较于国内外主流大模型，展现出了更加显著的优势。在各项数学竞赛试题的测试中，星火X1全面超越了参数量高出其一个数量级的DeepSeek-R1。

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

测试集合来源：中文测试集来自2023/2024年各学段考试真题/模拟题/竞赛题，英文测试集来自AIME2024/2025和MATH500竞赛集

是骡子是马，真刀真枪的测试见真章。我们直接上数学真题来测试星火X1与DeepSeek-R1。

之所以用数学能力而非文字创作等测试，是因为对于推理模型而言，数学能力才是深度推理模型最核心、也是最重要的能力。它就像是推理模型的基本功，只有数学能力过关了，推理模型才能在更多领域保证严谨和准确。

下面，我们随机选取两道中英文数学试题，来对比星火X1和DeepSeek-R1。

以2024年高考全国甲卷理科数学试题中的一道选择题为例：

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

DeepSeek-R1与星火X1都能解出正确答案C，但DeepSeek-R1共耗时224秒，星火X1用时少了一分多，仅耗时124秒就解出了正确答案。

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

上为DeepSeek-R1，下为星火X1

此外，星火X1此次升级之后，保留了X1的完整思考过程。从思维链中可以看到，X1早早地用代数方法解答出了正确答案C，但此后又多次检查验证，最后甚至重新又换了另外一种解题思路，多次验证、检查确认无误后才输出正确答案。

以一道AIME2024 真题为例：

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

二者同样都能解出正确答案25，但星火X1仅耗时234秒，而DeepSeek-R1则用了323秒，仍然是星火X1的解题速度更快。

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

推理模型混战白热化，超越DeepSeek-R1的“新物种”出现了？

上为DeepSeek-R1，下为星火X1

从上边两道题的解答过程和结果中，我们不难发现，星火X1不仅准确给出了题目答案，而且解题速度远超 DeepSeek-R1，解题过程和步骤也更为清晰。

星火X1之所以能用更少的算力、更小的参数规模实现对满血版DeepSeek-R1的超越，离不开科大讯飞的两大技术创新。

一是通过高效的领域数据自动化挖掘和多类型数据合成算法，构建了海量的数学领域预训练数据，从而显著提升了基座模型的数学专业能力。

二是基于评语模型与强化学习算法，实现了大模型长思维链的激发，同时评语模型还促使大模型在推理过程中进行反思验证，进一步提升了模型在推理阶段的准确性。

尤其是对于当前国内算力紧张的局面来说，星火X1的技术突破更具意义。仅有70B参数规模的星火X1，可以让未来模型的推理训练以及部署成本都大幅下降，加速中国大模型产业的普及和应用。在星火X1升级的同时，科大讯飞还联合华为联合发布了全新升级的星火一体机系列新品，不仅支持DeepSeek部署，更可以做到单台机器即可部署星火X1。

未来，大模型不再是大型企业或者科技公司的专属，中小公司乃至普通人也都能低成本地拥有专属大模型。科技普惠的目标有望真正实现。

和多数市面上的推理模型仍停留在“对话框”乃至预览阶段不同，星火X1推出仅仅一个多月时间，就已经在各行各业广泛应用。基于星火X1的强大推理能力，科大讯飞旗下讯飞晓医、星火教师助手、AI学习机等重要产品也实现了全新升级。

以讯飞晓医为例，其背后是星火医疗大模型X1的重磅升级。医疗大模型X1基于星火X1研发，大幅降低了医疗幻觉问题，在面对复杂问题时也可以逐步解释循证过程，提高医疗复杂场景推理的逻辑正确性、专业性、可解释性。

技术的创新从来都不是一蹴而就的，无论是此前DeepSeek打破模型训练高成本的算力桎梏，还是星火X1用更有限的全国产算力平台实现更小参数的胜利，都彰显出中国科技企业在人工智能领域的突破性跃迁。

从最早坚持使用全国产算力平台，到今天的70B参数就完成对主流推理模型的超越，科大讯飞用实际行动证明了中国科技企业的韧性与顽强。中国大模型产业不仅要站起来，更要跑起来！

猜你喜欢
最新
精选
相关

手机版阅读即时更新

点击加载更多内容

中关村在线首页新闻中心首页

热门搜索

苹果发布会 AWE 台北电脑展 mwc

热词：智能穿戴汽车科技三菱空调

24小时热文
本周热评

推荐问答

提问

论坛精选
最热回答

摄影
手机
硬件
笔电
平板

0

下载ZOL APP
秒看最新热品

内容纠错