• 春节档“AI大战”开启,上海这一新模型入局:重新定义Agent2.0时代

      发布时间:2026-04-21 13:08:16   作者:玩站小弟   我要评论
    根据北京市科委、北京星辰未来空间技术研究院等发布的太空数据中。

    马年新春将至,国产AI大模型之战愈发火爆——短短一天时间,多家厂商模型密集更新,其中包括MiniMax上线新一代文本模型MiniMax M2.5。

    当各家大模型厂商围绕“春节档”展开密集发布与营销攻势,这款定位为“原生Agent生产级模型”的产品,正式加入这场被业界称为“AI诸神之战”的竞争。

    尽管有着编程、工具调用、办公等生产力场景全球SOTA成绩,这家在资本市场备受瞩目的公司却想抛开参数规模与模型榜单的简单比拼,而是打开另一种叙事:中国大模型重新定义Agent2.0时代!

    能自动处理复杂任务

    在编程能力方面,M2.5在权威榜单SWE-Bench Verified得�.2%、Multi-SWE-Bench得�.3%,较上一代显著提升;在Multi-SWE-Bench等多语言复杂环境中超越Opus 4.6,达到了行业最好的水平。更重要的是,模型展现出“原生Spec能力”——在编码前主动拆解架构与功能规划,更接近真实架构师的工作模式。

    工具调用和搜索能力方面,模型能够自动处理复杂任务,在BrowseComp、Wide Search等多项Agent任务中以更低的轮次消耗取得了更优的效果,相较于上一代模型表现提�% ,达到了行业顶尖水平。

    办公场景中,在Word、PPT、Excel金融建模等工作区间高阶场景中取得了显著的能力提升,在测评框架GDPval-MM与主流模型的对比中取得�.0%的平均胜率。

    新民晚报记者获悉,MiniMax内部已率先受益于M2.5的模型能力——在内部真实业务场景中,整体任务�%由M2.5自主完成,覆盖研发、产品、销售、HR、财务等职能,且渗透率仍在持续上升。其中,在编程场景表现尤为突出,M2.5生成的代码已占新提交代码�%。

    极致推理重构Agent经济

    性能之外,M2.5的另一核心亮点在于极致的推理速度与成本控制。M2.5-lightning版本支� TPS以上输出速度,是主流模型񊄪倍左右;输入价格񏉼.3美元/百万Token,输出񏉾.4美元/百万Token。按每秒输� Token计算,连续运行一小时成本񏉽美元;若� Token计算,成本񏉼.3美元。

    这意味񊢁万美元理论上可支𽸎个Agent连续工作一年。MiniMax方面认为,当性能与成本不再构成约束,Agent规模化部署的经济模型将发生根本变化。

    独创Agent RL支撑高速进化

    过�天,MiniMax从M2、M2.1迭代至M2.5,在SWE-Bench Verified成绩�.4提升�.2,进步曲线在同业中尤为陡峭。团队将这一跃迁归因于大规模Agent强化学习(RL Scaling)。

    其自研Forge框架通过解耦训练引擎与Agent,实现对任意Agent脚手架和工具的泛化优化,并通过异步调度与树状合并策略实现�倍训练加速。同时,在算法层面采用CISPO优化与过程奖励机制,缓解长上下文场景中的信用分配问题,并将“任务真实耗时”纳入奖励函数,在效果与响应速度之间取得平衡。

    据透露,M2.5已𱆎�日在MiniMax Agent上线,并于今日(13日)全球开源支持本地化部署。不到一天,来自全世界的用户已经在MiniMax Agent上构建𱄽万多个专家,且仍在快速增长;而MiniMax也针对办公、金融、编程等高频场景,在MiniMax Agent 上构建了多组深度优化、开箱即用的专家套组。

    新民晚报记者还了解到,MiniMax将𶞓񀙒日公�年全年业绩。

    栏目编辑:陆梓华

    本文作者:新民晚报 郜阳

    图片来源:采访对象供图