DeepSeek-V4大概率不会引发美股万亿蒸发，但它的突破一点都不比之前小

图文 | 躺姐

4月24号上午，DeepSeek官方发布了DeepSeek-V4预览版，出人意料的是，并没有在中文互联网引起多大的反响，甚至微博热搜第一都没拿下。虽然这次大概率不会再度引发美股市值蒸发，但V4的突破一点也不比DeepSeek-V3和R1小，只是突破的形式变了。

回头想一下，2025年1月R1那次冲击，被改变的并不是模型能力本身的排名，能力上当时R1也没有显著超越最先进的闭源模型。真正冲击市场的是一个认知：原来开源可以追上闭源，原来所谓的算力封锁不是护城河，原来600万美元训练成本可以做出顶级模型。英伟达单日跌17%，不是因为R1真的强了多少，而是市场认识到英伟达并不是大模型必需的“铲子”。

而认知这种东西只能被颠覆一次，R1之后，“开源能打”变成了市场默认的前提，所有后来者都在这个前提下被评估，再强的后续论证也只是加强这个共识，不会再让人意外。

就像iPhone 1到iPhone 4是颠覆，iPhone 4到iPhone 16是渐进，不是苹果不行了，是认知基线被抬高了，每一代新机都要和前一代的巅峰比，而不是和十年前的诺基亚比。

把视角拉到整个AI前沿，这一年所有头部模型都在渐进化，GPT-5.4到5.5、Opus 4.6到4.7、Gemini 3.0到3.1，没有一家再做跳跃式发布，渐进化是当前scaling范式下整个行业的共性，V4只是落在这个大背景里。

于是，真正的问题不在“V4够不够猛”，而是它“具体改变了什么”。

V3/R1的创新在训练效率，如MLA架构、DeepSeekMoE、FP8混合精度。这类创新的共同特点是可以被压缩成一个数字：“600万美元做出GPT-4”。一个数字能在圈外传播，能直接挂到既有资产定价的坐标里。V3/R1的突破本质是一次成本叙事，内核是对一个既有假设的颠覆。

V4的创新在长上下文的结构性重写，如CSA（压缩稀疏注意力）、HCA（重压缩注意力）、mHC（流形约束超链接）这一套组合拳，把1M上下文下的单token FLOPs砍到V3.2的27%、KV cache砍到10%。V2和V3的稀疏化只动了MoE专家层，V4把稀疏化扩到了注意力层本身，这是Transformer核心结构的重大改动。

不过，V4的创新很难用一句话解释，自然也不太可能像V3那样引发国内外无论什么圈层都能知晓的大讨论。它不是跑分提升，是底层范式改变，你需要用它才能知道，改变了什么，1M上下文变成1元到2元每百万token的水电煤这件事，冲击的不是“开源vs闭源”的能力排名，是整个长文本应用的单位经济学。

更何况，RAG还有没有必要、向量数据库怎么定价、企业知识库的成本结构、长程agent任务的商业模式，这些都在被重写。这种冲击要等相当一段时间之后才能在应用层显现，很难在发布当天让大家都能直观感受。

当然，我也会在后续的投研等工作流程中，尝试嵌入V4，和现在的claude opus 4.7等大模型进行对比，如果有足够的价值，会第一时间再发文探讨。

除了这些应用层的影响，技术报告里还有一个值得单独看的东西，Engram，梁文锋今年1月署名论文里提出的条件记忆模块，这次已经实装进V4。它做的事情是把Transformer里记忆和推理拆开。传统模型回答“法国首都是哪里”和推一段代码逻辑用的是同一套参数、同样的计算过程，查死知识也要激活整个模型，很浪费。Engram把这部分固定知识挪到一个外挂的哈希查找表里，注意力层腾出来专心做推理。

这件事的意义在于，它给“模型怎么继续变大”这个问题提了一条新路。过去想让模型更强，要么往里塞更多参数，要么加更多专家，不管哪种都意味着算力账单同步涨。Engram相当于给模型外挂了一个记忆仓库，仓库可以做得很大，但装多少东西不影响推理时的计算量。

更妙的是这个仓库不需要挤在昂贵的GPU显存里，普通内存甚至硬盘都能放，这在当下算力紧缺的背景下是很实在的好处。论文里给的数据是，同等算力预算下27B Engram反超27B MoE，训练计算量还少18%。

CSA、mHC、Engram这几件事加起来看，V4不是在跑分榜上和谁较劲，而是在架构层面为下一代模型找新的生长空间。这个选择本身就透露了DeepSeek对当前竞争格局的判断，开源追赶闭源的“能力维度”竞争正在见顶，真正的分化会发生在别的地方。

有这么几条线索，会让事实变得更清晰：

DeepSeek寻求以100亿美元的投前估值融资，募集不低于3亿美元，这家过去最克制资本叙事的公司开始妥协，说明单靠技术和现金流自转的路径不够了；

V4-Pro的单token FLOPs只有V3.2的27%，说明头部开源之间已经从单纯地堆参数转向效率与参数并重；

V4针对Claude Code、OpenClaw、OpenCode、CodeBuddy等主流agent产品做适配，API直接兼容Anthropic协议，表面是便利，实质是开源方选择把自己嵌进既有的开发者工作流，而不是另起一套。

这三件事叠在一起说明的是同一件事，模型层单点能力的竞争进入收尾阶段，模型再强，也只是实际应用中的一个组件，而不是产品。下一阶段的竞争在agent生态层、应用层、基础设施层。Anthropic的策略已经很清楚，Claude Code加Skill系统加MCP协议加开发者生态，OpenAI这两周密集发布Workspace Agents，把企业agent嵌进Slack、Salesforce这些既有工作流，也是同一个方向。

模型之上的产品和生态，就是下一个阶段中美AI领域各自市场竞争的重点，将成为中美之间AI竞争最核心的战场。

顺着这个判断，V4发布带来的真实机会在三个地方：

第一是开源应用层变现的时间窗口。底层能力补齐之后，分化发生在“谁能把开源模型做成产品”，这一侧的标的还在用“模型能力”的坐标系定价，产品本身的适用性和普适性还没被重新估值。换句话说，大家只在乎用的是谁家模型，还没有一个真正有影响力的应用跑出来。

第二是基础设施层的确认性利好。昇腾950因V4的FP4精度原生适配获得订单可见度，V4-Pro当前的高价被官方明写为过渡价，下半年昇腾950超节点批量上市后价格会大幅下调，这是硬的、可追踪的时间表。中芯国际等港股重点半导体公司，会被寄予更大的期待。

第三是DeepSeek自身的估值重估。100亿美元估值的这轮融资还在谈，募集不低于3亿美元。过去一家最克制资本叙事的公司开始接受大额融资，本身就说明它认为接下来将进入资金密集阶段。由于DeepSeek本身不在二级市场，但参投方和深度绑定的产业链伙伴，是这条线的间接观察路径。

发布稿的结尾，DeepSeek引用了《荀子·非十二子》里的“不诱于誉，不恐于诽，率道而行，端然正己”。回顾半年前V3.2-Exp那次发布没什么亮点，外界多数人觉得只不过是个过渡版本；今天回头看，当时悄悄铺的DSA稀疏注意力，正是V4这次CSA的技术前提。

不被历史叙事诱惑，不被市场噪声吓到，按自己的判断往前走，用事实和证据支撑结论。这家公司做叙事的方式和做产品的方式其实是一体的，至于V4这次又悄悄铺了什么，大概还要等半年才看得清。

声明：本文仅用于学习和交流，不构成投资建议。

欢迎点赞、在看、转发，您的支持是我们更新的动力！

关联阅读：

AI泡沫论的另类推演：从资金配置动向看高估值的持续性

成立四年冲击上市：思格新能源的增长神速与代价

Windows还在，但坐在屏幕前的已经不是人了

中产觉醒，SKP也不行了吗？

应对恐慌最贵的错误：把所有下跌当成同一种东西

OpenClaw帮你做的投研，恰恰是投资里最不值钱的东西

没有人看好美股，但所有人的钱都在买入

贵金属闪崩启示录：不要假装自己在“分散投资”

免责声明：所有平台仅提供服务对接功能，资讯信息、数据资料来源于第三方，其中发布的文章、视频、数据仅代表内容发布者个人的观点，并不代表泡财经平台的观点，不构成任何投资建议，仅供参考，用户需独立做出投资决策，自行承担因信赖或使用第三方信息而导致的任何损失。投资有风险，入市需谨慎。

请先登录后发表评论

DeepSeek-V4大概率不会引发美股万亿蒸发，但它的突破一点都不比之前小

共0条评论