马上整整 1 个月了!这一个月以来,全球大模型市场受 DeepSeek 搅动,无不方寸大乱。中外大厂、初创公司都头好秃,全被追着问:你们对 DeepSeek 怎么看?DeepSeek 出来你们怎么办?有避而不谈的,也有主动回应的。国内,比如腾讯,刚刚在微信开启灰度测试“AI 搜索”功能,接入的就是 DeepSeek-R1;比如百度,当即宣布 4 月起文心一言免费用,下一代文心模型决定开源……国外,比如 OpenAI,紧急发布 o3-mini、上新深度搜索、公开 o3 思维链条;比如谷歌 DeepMind,新发布的 Gemini 2.0 系列,新增模型型号 Gemini 2.0 Flash-Lite,其 API 砍价能力比 DeepSeek 还狠;然而正当全球 AI 大模型格局重塑之际,放眼国内,不少人还很关心一件事:六家已成为独角兽的大模型创业公司,零一万物、百川智能、阶跃星辰、智谱华章、月之暗面、MiniMax 江湖人称大模型六小强。在 DeepSeek 猛烈的冲击波下,他们正在如何应对?六小强中,没有任何一家站出来,正面表达对 DeepSeek 的看法。但这不代表它们没有行动 —— 毕竟比起高谈阔论,落地的实际行动更值得用来证明。注:以下均为六小强 1 月 20 日(含)后的动态DeepSeek-R1 问世之前,创始人李开复博士已公开表示,零一万物将不再追求训练超级大模型。经过为期半年多的探索验证,他们明确表示,参数适中同时性能优异、推理速度更快、推理成本更低的轻量化模型更适合商用场景,“会成为 AI-First 应用爆发的催化剂”。而 DeepSeek 问世之后,零一万物对外曝光的首个动作,选择了携手苏州 ——2 月 14 日,零一万物与苏州高新区联合成立的产业大模型基地正式授牌。该大模型基地聚焦垂直产业,重点打造制造、金融、医疗、政务、生物、具身等多个领域的行业大模型解决方案,联合产业链上下 7 家企业,“探索大模型技术从实验室走向生产线的产业化路径”。在现场,李开复谈道,在人工智能技术重构产业的关键节点,大模型绝非“空中楼阁”,而是驱动实体经济的核心引擎。而零一万物官方表示:DeepSeek-R1 发布 5 天后,1 月 25 日,百川智能发布新模型 Baichuan-M1-preview。这是百川第一个全场景推理大模型。所谓全场景,指的是该模型同时具备语言、视觉和搜索三个领域的推理能力。与此同时,百川依然奔赴转向医疗的道路上:Baichuan-M1-preview 解锁了医疗循证模式,官方解释它“实现了从医疗证据检索到深度推理的完整端到端服务,能够快速、精准地回答医疗临床、科研问题”。2 月 13 日,以 Baichuan-M1 为底座打造的「AI 儿科医生」经过近一个月的内测后,在京“上岗”。针对临床推理,它首先会基于一诉五史生成诊疗假设,继而通过检验检查数据进行假设证伪与排除,最终经由自反思机制对剩余假设进行概率排序,输出符合临床思维路径的诊疗建议。官方消息显示,当天,北京儿童医院开展了国内首次“AI 儿科医生 + 多学科专家”的双医并行多学科会诊。与会人员除了多科室 13 位专家,还有该医院与百川智能、小儿方健康科技(这家是百川投资的医疗数据公司)联合研发的「AI 儿科医生」。与会者对一位颅底肿物伴随抽动症状的患儿进行了多学科会诊,另一边,工程师将患者的主诉和病历资料输入模型。
DeepSeek-R1 发布当天,阶跃星辰正处于模型上新进程中。1 月 20 日当天发布的两款模型均为语言模型,一款是轻量级、响应快、性价比高的 Step-2-mini,与自家模型玩意参数的 Step-2 相比,Step-2-mini 以 3% 左右的参数量保有 80% 以上的性能。另一款是主打文学创作的 Step-2 文学大师版,“专为创作而生”。而后两天内,阶跃继续保持节奏对外发布。21 日,升级语音模型 Step-1o Audio,又上新多模态理解大模型 Step-1o Vision。后者发布首测就冲上来了大模型竞技场前 10,位列视觉领域国产第 1。22 日,发布视频生成模型 Step-Video V2 版本,该版本在前代 V1 基础上,从 VAE 模型、DiT 架构与 RL 融合、多模态大模型应用三方面基础上升级而来。
模型侧更新外,阶跃星辰旗下应用「跃问」也在 1 月 24 日推出了全新功能,跃问 AI 创意板。它的功能是“不用代码就能在 3 步内实现想法,开发应用”,并且将成果全平台分享。BTW,量子位发现,跃问不知何时已经偷偷接入了 DeepSeek-R1……
以及农历新年前频繁动作之时,阶跃星辰系统负责人朱亦博就在朋友圈小小剧透,年后阶跃有大动作。而“大动作”本身,或许会在 2 月 21 日阶跃星辰举办的首届“Step Up 生态开放日”上揭晓。至于有无针对 DeepSeek-R1 的回应性动作或战略,也要等到下周会上才见分晓了。2 月 11 日,清华大学计算机系教授、智谱创立发起人唐杰在巴黎大王宫举行的第三届人工智能行动峰会边会“人工智能技术进步与应用”上发言。也是唯一参加该峰会的大模型代表。在阐述对 AGI 的 5 个阶段划分后,唐杰表示现在正处于 L2 和 L3 交汇处,即“对齐机器与人类的意图”和“机器自我学习”的交汇处。而 2025 年的关键词,部分摘录如下:
此外,面对 DeepSeek 搅动风云,智谱的“回应”更多落实在开年频频落地上。首先是 2 月 11 日,继续开展和三星的合作。具体表现为让 Agentic GLM(智谱专为手机研发的系统级大模型)登陆三星最新款 Galaxy S25 系列手机,提供基于 AI 的实时语音和视频通话,以及实现视觉理解和系统功能调用、AI 搜索、文案写作等功能。(此处确与同日唐杰发言部分内容相呼应)其次是量子位注意到,虽未对外官宣,但智谱近日悄悄开始和二次元很火热的 AI 画图捏角色的应用软件「捏 ta」展开合作。一方面,智谱在自家视频模型上线了捏 ta;另一方面,二家基于智谱的 CogVideoX-2 模型等,在涅 ta 发起联名活动。你说巧不巧?DeepSeek-R1 发布一个半小时后,月之暗面官方公众号宣布了旗下 Kimi k1.5 多模态思考模型。相关论文《Kimi k1.5:Scaling Reinforcement Learning With LLMs》中显示,k1.5 模型设计和训练有几个关键要素:长上下文展开。k1.5 团队将 RL 的上下文窗口扩展到 128k,背后的一个关键思想是使用部分展开(partial rollouts)来提高训练效率。策略优化改进。k1.5 团队推导出 long-CoT 的 RL 公式,并采用在线镜像下降的变体进行稳健的策略优化。简洁框架。上述二者的结合为通过 LLMs 学习简历了一个简洁的 RL 框架,最终实现在不依赖蒙特卡洛树搜索、价值函数和过程奖励模型等情况下实现更强性能。多模态能力。即具备联合推理文本和视觉两种模态的能力。2 月 12 日,OpenAI 展示 o3 轻松拿下 IOI 2024 金牌的那篇最新报告论文中,介绍部分就提及了 DeepSeek-R1 和 Kimi k1.5 分别通过 CoT 提升大模型在数学和编程上的性能。
现在回头看 1 月 20 日,真的是神仙打架热闹非凡 ——当天,MiniMax 也有模型上新。升级发布 T2A-01 系列语音模型,并上线了海螺语音产品(同样兼顾模型与产品的推动)。T2A-01 系列包含 T2A-01-HD、T2A-01-Turbo 两款模型,API 服务同步上线 MiniMax 开放平台。该系列模型支持 17 种语言及上百种预置音色。依托该系列模型,在海螺 AI,用户仅需输入文字即可生成自然、流畅的超拟人人声,最长可输入多达 10000 字符。且可根据需要自由配置输出语音的情绪、语速、音高,甚至调整音色效果。这里特别提及一个 1 月 20 日前发生的事情,那就是 1 月 15 日,MiniMax 创始人兼 CEO 闫俊杰对谈《晚点》稿件发出,其中展示和透露出 MiniMax 在当时对 2025 年的调整和计划。最重要的一点就是“开源”。这一点呼应了当日 MiniMax 官宣 MiniMax-01 系列模型,且发布即开源。
其中,MiniMax-01 首次大规模扩展了新型 Lightning Attention 架构,替代了传统 Transformer 架构,使模型能够高效处理 4M token 上下文。综上,截至推送,六小强近期动态如下:
当然了,DeepSeek 这头深海巨鲸此次扔出 R1,搅动的不仅仅是国内六家大模型独角兽的圈子。也就是说,放眼国内,被冲击的不只是六小强,没有一家科技巨头或 AI 大模型公司置身事外。冲击之下有新的视角,新的转变。譬如 DeepSeek「大胆启用业界经验不够丰富的年轻技术人才,以此作为追求突破性技术创新一环」的故事,就在街头巷尾广为流传,重新叩问了每一个企业对用人标准的定义。譬如百度,在放出宣布文心一言即将免费的消息后,紧跟着宣布了决定背叛闭源大模型的决定 —— 将在未来几个月中陆续推出文心大模型 4.5 系列,并于 6 月 30 日起正式开源。在被问到 DeepSeek 是否是意料之中时,李彦宏也在日前的迪拜 AI 峰会上坦言:冲击之下有新的发展,新的机遇。云计算厂商和 AI Infra 平台 / 公司,第一时间上线 DeepSeek API,不仅陆续搭载上 671B 满血版,还争相优化截断率、回复速度、准确率等等,有的还推出利好本地部署的框架,再破大模型推理门槛。为涌入巨量用户的 DeepSeek 分流,让更多用户从不同渠道把 AI 用起来。另一边,以腾讯为例,从云平台腾讯云、腾讯云旗下大模型知识应用开发平台知识引擎、国民应用微信、AI 智能工作台 ima、主力 AI 应用元宝全方位拥抱 DeepSeek,纷纷宣布接入 R1 模型,还用自身能力为其使用体验添砖加瓦。而华为、阿里、字节等大厂们及旗下应用、团队们,也都在这样做。它们开放兼容,拥抱的不光是 DeepSeek,更是用户体验最佳的模型 —— 不管是否是“纯自研”。还是那句话,神仙竞技,凡人捡漏,AI 普惠,多多益善。当然,被搅动的池水里,不止航行着国内的船只。放眼国际,DeepSeek 的名字已经成为华尔街分析师会议上最高频提到的 AI 公司。随着 Alphabet(谷歌母公司)、AMD、Palantir 和亚马逊等科技巨头公布收益,DeepSeek 被提及的次数还在增长。外媒用很简短的一句话形容这一“盛况”:“DeepSeek, DeepSeek, DeepSeek。”
具体到国外大模型玩家身上,面对“DeepSeek 冲击波”,有急得跳脚的,也有反思与撷取精粹的。单举一个例子,就能看到顶尖巨头对此作出“回应”的态度之综合:OpenAI,紧急地首次向用户免费推出推理模型 o3-mini,CEO 奥尔特曼还在 Reddit“有问必答”活动中罕见公开反思:去年 12 月底稳坐高台,拉长战线连续直播 12 天的挤牙膏式打法不见了。OpenAI 现在已经能在一日之内连续官宣 GPT-4.5 几周内上线,GPT-5 几月内面世,以及关于模型路线规划调整、既有模型迭代更新的多个新消息。
而在大模型赛道之外,DeepSeek 冲击带来的影响力如何,大家肉眼可见 ——DeepSeek 逢山开路,无数第三方争先恐后接入合作 R1、V3 等模型。据不完全统计,目前接入 DeepSeek 模型的第三方,包括 infra 平台、手机厂商、Web / App 应用、智驾终端等在内,已超百家。GitHub 上,V3 / R1 不断攀升的星标数量,代表着更多人可以把 DeepSeek 用起来。然后生态繁荣,生生不息。
由是深海巨鲸向 AGI 更深处求索,丢下 R1 这枚深水炮弹后,坊间开始流传一个新梗。DeepSeek 冲击带来的是什么?是「一鲸起,万物生」。
本文来自微信公众号:量子位(ID:QbitAI),作者:衡宇
广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,蓝鸢梦想所有文章均包含本声明。