DeepSeek-V4大概率不会引发美股万亿蒸发,但它的突破一点都不比之前小

发布时间:

2026-04-25 09:22:53

来源:躺平指数
DeepSeek-V4大概率不会引发美股万亿蒸发,但它的突破一点都不比之前小

图文 | 躺姐

4月24号上午,DeepSeek官方发布了DeepSeek-V4预览版,出人意料的是,并没有在中文互联网引起多大的反响,甚至微博热搜第一都没拿下。虽然这次大概率不会再度引发美股市值蒸发,但V4的突破一点也不比DeepSeek-V3和R1小,只是突破的形式变了。

回头想一下,2025年1月R1那次冲击,被改变的并不是模型能力本身的排名,能力上当时R1也没有显著超越最先进的闭源模型。真正冲击市场的是一个认知:原来开源可以追上闭源,原来所谓的算力封锁不是护城河,原来600万美元训练成本可以做出顶级模型。英伟达单日跌17%,不是因为R1真的强了多少,而是市场认识到英伟达并不是大模型必需的“铲子”。

而认知这种东西只能被颠覆一次,R1之后,“开源能打”变成了市场默认的前提,所有后来者都在这个前提下被评估,再强的后续论证也只是加强这个共识,不会再让人意外。

就像iPhone 1到iPhone 4是颠覆,iPhone 4到iPhone 16是渐进,不是苹果不行了,是认知基线被抬高了,每一代新机都要和前一代的巅峰比,而不是和十年前的诺基亚比。

把视角拉到整个AI前沿,这一年所有头部模型都在渐进化,GPT-5.4到5.5、Opus 4.6到4.7、Gemini 3.0到3.1,没有一家再做跳跃式发布,渐进化是当前scaling范式下整个行业的共性,V4只是落在这个大背景里。

于是,真正的问题不在“V4够不够猛”,而是它“具体改变了什么”。

V3/R1的创新在训练效率,如MLA架构、DeepSeekMoE、FP8混合精度。这类创新的共同特点是可以被压缩成一个数字:“600万美元做出GPT-4”。一个数字能在圈外传播,能直接挂到既有资产定价的坐标里。V3/R1的突破本质是一次成本叙事,内核是对一个既有假设的颠覆。

V4的创新在长上下文的结构性重写,如CSA(压缩稀疏注意力)、HCA(重压缩注意力)、mHC(流形约束超链接)这一套组合拳,把1M上下文下的单token FLOPs砍到V3.2的27%、KV cache砍到10%。V2和V3的稀疏化只动了MoE专家层,V4把稀疏化扩到了注意力层本身,这是Transformer核心结构的重大改动。

不过,V4的创新很难用一句话解释,自然也不太可能像V3那样引发国内外无论什么圈层都能知晓的大讨论。它不是跑分提升,是底层范式改变,你需要用它才能知道,改变了什么,1M上下文变成1元到2元每百万token的水电煤这件事,冲击的不是“开源vs闭源”的能力排名,是整个长文本应用的单位经济学。

更何况,RAG还有没有必要、向量数据库怎么定价、企业知识库的成本结构、长程agent任务的商业模式,这些都在被重写。这种冲击要等相当一段时间之后才能在应用层显现,很难在发布当天让大家都能直观感受。

当然,我也会在后续的投研等工作流程中,尝试嵌入V4,和现在的claude opus 4.7等大模型进行对比,如果有足够的价值,会第一时间再发文探讨。

除了这些应用层的影响,技术报告里还有一个值得单独看的东西,Engram,梁文锋今年1月署名论文里提出的条件记忆模块,这次已经实装进V4。它做的事情是把Transformer里记忆和推理拆开。传统模型回答“法国首都是哪里”和推一段代码逻辑用的是同一套参数、同样的计算过程,查死知识也要激活整个模型,很浪费。Engram把这部分固定知识挪到一个外挂的哈希查找表里,注意力层腾出来专心做推理。

这件事的意义在于,它给“模型怎么继续变大”这个问题提了一条新路。过去想让模型更强,要么往里塞更多参数,要么加更多专家,不管哪种都意味着算力账单同步涨。Engram相当于给模型外挂了一个记忆仓库,仓库可以做得很大,但装多少东西不影响推理时的计算量。

更妙的是这个仓库不需要挤在昂贵的GPU显存里,普通内存甚至硬盘都能放,这在当下算力紧缺的背景下是很实在的好处。论文里给的数据是,同等算力预算下27B Engram反超27B MoE,训练计算量还少18%。

CSA、mHC、Engram这几件事加起来看,V4不是在跑分榜上和谁较劲,而是在架构层面为下一代模型找新的生长空间。这个选择本身就透露了DeepSeek对当前竞争格局的判断,开源追赶闭源的“能力维度”竞争正在见顶,真正的分化会发生在别的地方。

有这么几条线索,会让事实变得更清晰:

DeepSeek寻求以100亿美元的投前估值融资,募集不低于3亿美元,这家过去最克制资本叙事的公司开始妥协,说明单靠技术和现金流自转的路径不够了;

V4-Pro的单token FLOPs只有V3.2的27%,说明头部开源之间已经从单纯地堆参数转向效率与参数并重;

V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流agent产品做适配,API直接兼容Anthropic协议,表面是便利,实质是开源方选择把自己嵌进既有的开发者工作流,而不是另起一套。

这三件事叠在一起说明的是同一件事,模型层单点能力的竞争进入收尾阶段,模型再强,也只是实际应用中的一个组件,而不是产品。下一阶段的竞争在agent生态层、应用层、基础设施层。Anthropic的策略已经很清楚,Claude Code加Skill系统加MCP协议加开发者生态,OpenAI这两周密集发布Workspace Agents,把企业agent嵌进Slack、Salesforce这些既有工作流,也是同一个方向。

模型之上的产品和生态,就是下一个阶段中美AI领域各自市场竞争的重点,将成为中美之间AI竞争最核心的战场。

顺着这个判断,V4发布带来的真实机会在三个地方:

第一是开源应用层变现的时间窗口。底层能力补齐之后,分化发生在“谁能把开源模型做成产品”,这一侧的标的还在用“模型能力”的坐标系定价,产品本身的适用性和普适性还没被重新估值。换句话说,大家只在乎用的是谁家模型,还没有一个真正有影响力的应用跑出来。

第二是基础设施层的确认性利好。昇腾950因V4的FP4精度原生适配获得订单可见度,V4-Pro当前的高价被官方明写为过渡价,下半年昇腾950超节点批量上市后价格会大幅下调,这是硬的、可追踪的时间表。中芯国际港股重点半导体公司,会被寄予更大的期待。

第三是DeepSeek自身的估值重估。100亿美元估值的这轮融资还在谈,募集不低于3亿美元。过去一家最克制资本叙事的公司开始接受大额融资,本身就说明它认为接下来将进入资金密集阶段。由于DeepSeek本身不在二级市场,但参投方和深度绑定的产业链伙伴,是这条线的间接观察路径。

发布稿的结尾,DeepSeek引用了《荀子·非十二子》里的“不诱于誉,不恐于诽,率道而行,端然正己”。回顾半年前V3.2-Exp那次发布没什么亮点,外界多数人觉得只不过是个过渡版本;今天回头看,当时悄悄铺的DSA稀疏注意力,正是V4这次CSA的技术前提。

不被历史叙事诱惑,不被市场噪声吓到,按自己的判断往前走,用事实和证据支撑结论。这家公司做叙事的方式和做产品的方式其实是一体的,至于V4这次又悄悄铺了什么,大概还要等半年才看得清。

声明:本文仅用于学习和交流,不构成投资建议。

欢迎点赞、在看、转发,您的支持是我们更新的动力!

关联阅读

AI泡沫论的另类推演:从资金配置动向看高估值的持续性

成立四年冲击上市:思格新能源的增长神速与代价

Windows还在,但坐在屏幕前的已经不是人了

中产觉醒,SKP也不行了吗?

应对恐慌最贵的错误:把所有下跌当成同一种东西

OpenClaw帮你做的投研,恰恰是投资里最不值钱的东西

没有人看好美股,但所有人的钱都在买入

贵金属闪崩启示录:不要假装自己在“分散投资”

免责声明:所有平台仅提供服务对接功能,资讯信息、数据资料来源于第三方,其中发布的文章、视频、数据仅代表内容发布者个人的观点,并不代表泡财经平台的观点,不构成任何投资建议,仅供参考,用户需独立做出投资决策,自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险,入市需谨慎。

古东管家

请先登录后发表评论

0条评论