热点:

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

      [  品牌资讯   ]  

    过去一个月来,深度推理模型的混战已经渐趋白热化。无论是此前就已经对外发布深度推理模型的厂商,还是当下试图追赶这波大模型全民普及热潮的科技公司,都暗自在推理模型上发力。

    国外,最先受到冲击的OpenAI不得不临时上新o3-mini,免费开放给用户使用。马斯克旗下的xAI发布Grok3,宣称是世界上最聪明的AI。Anthropic 发布混合推理模型 Claude3.7 Sonnet,主打将两种思考方式合二为一。

    国内厂商也不遑多让。阿里巴巴对外开源推理模型QwQ-Max-Preview。腾讯借着元宝接入DeepSeek的东风推广混元T1,字节豆包亦被爆出正在内测最新推理模型,百度则强调即将于3月发布文心4.5,外界称将强化推理能力。

    科大讯飞此前已对外发布了基于全国产算力训练的推理模型星火X1,昨日又宣布完成了星火X1的全新升级。升级后的星火X1,仅用70B参数规模,就在数学能力上实现了与DeepSeekR1(参数量671B)和OpenAIo1的全面对标,中文数学任务更是全面领先。相较于DeepSeekR1,X1不仅答题速度更快,而且解题过程和步骤也更为清晰。作为国内率先落地应用的推理模型,此次X1取得的技术突破,将大幅降低大模型的推理训练以及部署成本,进一步加速中国大模型产业的落地应用。

    测试集结果显示,升级后的星火X1在数学答题能力上实现了全面提升,尤其在解答竞赛级难题时,相较于国内外主流大模型,展现出了更加显著的优势。在各项数学竞赛试题的测试中,星火X1全面超越了参数量高出其一个数量级的DeepSeek-R1。

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    测试集合来源:中文测试集来自2023/2024年各学段考试真题/模拟题/竞赛题,英文测试集来自AIME2024/2025和MATH500竞赛集

    是骡子是马,真刀真枪的测试见真章。我们直接上数学真题来测试星火X1与DeepSeek-R1。

    之所以用数学能力而非文字创作等测试,是因为对于推理模型而言,数学能力才是深度推理模型最核心、也是最重要的能力。它就像是推理模型的基本功,只有数学能力过关了,推理模型才能在更多领域保证严谨和准确。

    下面,我们随机选取两道中英文数学试题,来对比星火X1和DeepSeek-R1。

    以2024年高考全国甲卷理科数学试题中的一道选择题为例:

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    DeepSeek-R1与星火X1都能解出正确答案C,但DeepSeek-R1共耗时224秒,星火X1用时少了一分多,仅耗时124秒就解出了正确答案。

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    上为DeepSeek-R1,下为星火X1

    此外,星火X1此次升级之后,保留了X1的完整思考过程。从思维链中可以看到,X1早早地用代数方法解答出了正确答案C,但此后又多次检查验证,最后甚至重新又换了另外一种解题思路,多次验证、检查确认无误后才输出正确答案。

    以一道AIME2024 真题为例:

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    二者同样都能解出正确答案25,但星火X1仅耗时234秒,而DeepSeek-R1则用了323秒,仍然是星火X1的解题速度更快。

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    推理模型混战白热化,超越DeepSeek-R1的“新物种”出现了?

    上为DeepSeek-R1,下为星火X1

    从上边两道题的解答过程和结果中,我们不难发现,星火X1不仅准确给出了题目答案,而且解题速度远超 DeepSeek-R1,解题过程和步骤也更为清晰。

    星火X1之所以能用更少的算力、更小的参数规模实现对满血版DeepSeek-R1的超越,离不开科大讯飞的两大技术创新。

    一是通过高效的领域数据自动化挖掘和多类型数据合成算法,构建了海量的数学领域预训练数据,从而显著提升了基座模型的数学专业能力。

    二是基于评语模型与强化学习算法,实现了大模型长思维链的激发,同时评语模型还促使大模型在推理过程中进行反思验证,进一步提升了模型在推理阶段的准确性。

    尤其是对于当前国内算力紧张的局面来说,星火X1的技术突破更具意义。仅有70B参数规模的星火X1,可以让未来模型的推理训练以及部署成本都大幅下降,加速中国大模型产业的普及和应用。在星火X1升级的同时,科大讯飞还联合华为联合发布了全新升级的星火一体机系列新品,不仅支持DeepSeek部署,更可以做到单台机器即可部署星火X1。

    未来,大模型不再是大型企业或者科技公司的专属,中小公司乃至普通人也都能低成本地拥有专属大模型。科技普惠的目标有望真正实现。

    和多数市面上的推理模型仍停留在“对话框”乃至预览阶段不同,星火X1推出仅仅一个多月时间,就已经在各行各业广泛应用。基于星火X1的强大推理能力,科大讯飞旗下讯飞晓医、星火教师助手、AI学习机等重要产品也实现了全新升级。

    以讯飞晓医为例,其背后是星火医疗大模型X1的重磅升级。医疗大模型X1基于星火X1研发,大幅降低了医疗幻觉问题,在面对复杂问题时也可以逐步解释循证过程,提高医疗复杂场景推理的逻辑正确性、专业性、可解释性。

    技术的创新从来都不是一蹴而就的,无论是此前DeepSeek打破模型训练高成本的算力桎梏,还是星火X1用更有限的全国产算力平台实现更小参数的胜利,都彰显出中国科技企业在人工智能领域的突破性跃迁。

    从最早坚持使用全国产算力平台,到今天的70B参数就完成对主流推理模型的超越,科大讯飞用实际行动证明了中国科技企业的韧性与顽强。中国大模型产业不仅要站起来,更要跑起来!

    news.zol.com.cn true https://news.zol.com.cn/956/9562700.html report 3886 过去一个月来,深度推理模型的混战已经渐趋白热化。无论是此前就已经对外发布深度推理模型的厂商,还是当下试图追赶这波大模型全民普及热潮的科技公司,都暗自在推理模型上发力。国外,最先受到冲击的OpenAI不得不临时上新o3-mini,免费开放给用户使用。马斯克旗下的xAI...
    • 猜你喜欢
    • 最新
    • 精选
    • 相关
    推荐问答
    提问
    0

    下载ZOL APP
    秒看最新热品

    内容纠错