朱头山

无意邀众赏,一心追残阳
个人资料
朱头山 (热门博主)
  • 博客访问:
正文

AI大战中国胜利的拐点

(2026-04-17 09:33:49) 下一个

如果说1991年的海湾战争,是晶体管芯片主宰的战争,那么最近的伊朗战争,则是AI开始崭露头角,显示了未来主宰者的雏形。


1991年1月17日凌晨,当美军第一枚导弹砸向巴格达时,睡梦中被惊醒的萨达姆并不怎么惊惶。此前几个月,美国一直忙着调兵遣将,海湾地区已经集结起美军六个航母战斗群,但萨达姆充分展示了楞的不怕横的二愣子本色,在他看来,自己手下拥兵百万,要人有人,要装备有装备,跟谁打也不怵。


单从纸面上看,当时伊拉克军队常规武器装备,比当时的中国军队还要强些。萨达姆的如意算盘很简单:美国人接受不了多少牺牲,只要把美军拖入战争泥潭,迟早能把美国人的耐心耗没,然后退兵。越南战争不就是如此么?


但这一次,剧本变了。严阵以待的伊拉克军队,并没有看到预想中的敌人,朝他们飞袭而来的,是100多枚来自美军军舰的“战斧”式巡航导弹,代号“沙漠风暴”的军事行动正式开始。此后一个多月时间里,伊拉克军队始终没有看见一个敌人,只有数千枚导弹从天而降,将伊拉克的防御系统摧毁殆尽。与以往司空见惯的地毯式轰炸不同,这一次取而代之的,是外科手术般的精确打击:对伊拉克参谋部的空袭,炸弹直接准确地从烟囱里钻了进去;对飞机库的轰炸,美军先炸开大门,再把导弹送到机库里;装备先进传感器的预警机,使伊拉克飞机刚起飞便被发现击落,根本没有机会升空。


整个世界都看得目瞪口呆——原来,打仗还可以这样打?


后来的地面战争大同小异,看似强大的伊拉克百万雄兵,在多国部队的各种高精尖武器打击下,如摧枯拉朽一般灰飞烟灭。这场仗打下来,美军因战事伤亡的士兵还不到200人,给全世界上演了一课什么叫高科技战争。

当时冷战已接近尾声,包括中国在内的很多国家作战思维还停留在二战时期,以为只要凭借钢铁洪流和人海战术就能取得胜利。直到海湾战争才发现,时代变了。当时伊拉克军队装备的是一水儿的苏制武器,其中T-72坦克与美军M1A1坦克的性能对比,成为举世关注的焦点。

发生在巴士拉南部的坦克大战中,美军以近乎0的代价将200多辆伊军坦克全歼,取得压倒性的胜利。T-72和M1A1同属第三代坦克, 为何差距如此之大?原因在于,两者在信息化程度上存在巨大差距。M1A1普遍装备热成像仪、先进传感器和计算机火控系统,使美军能够先敌发现,先敌开火。


这场战争,后来被媒体称为“硅对钢的胜利”。这是因为,美军使用的诸多高科技武器,从导弹、预警机、电子干扰机、隐形战机,到幕后功臣GPS系统——所有这些高科技装备,背后所倚赖的核心技术,都是半导体芯片技术。而这一切优势的背后,是美国发达的半导体工业。苏联半导体技术的止步不前,使得第三代苏式装备与美军有了明显的性能差距:苏-27装备的火控雷达,计算速度只有17万次/秒,而美军同代的F-15,已经达到了惊人的4000万次/秒。苏联导弹命中率有60米的误差,而美军导弹只有15米。

这种差距,追根溯源,来自过去半个世纪里,两国在半导体技术路线上的不同选择。草蛇灰线,伏脉千里,历史的每一次轰然巨变,源头往往都隐藏在并不起眼的细节里。美国走在了按摩尔定律进化的芯片发展道路上,苏联则定格在了电子管世界里。半个世纪后,苏联的败局已定!

此次伊朗战争前,AI成为一个热门名词也就两三年时间。这次,不再是美国一门独大,中国没有放弃,而且还创造了一个Deepseek时刻,让美国大为吃惊。但对于AI的作用,很多人还是将信将疑,认为它是一个骗局的人大有人在。但伊朗战争,让大家见识了AI的初步威力。

对于美国和以色列,AI已经从幕后的辅助工具,正式成为了决定战争节奏和强度的核心战斗力。

以下是美、以、伊三方在AI应用上的具体表现与特殊作用:

1. 美国:AI 驱动的“决策压缩”与“目标工厂”。美国利用其在算力和数据整合上的绝对优势,将战争推进到了**“高频战争(Hyperwar)阶段。

Maven 智能系统 (Project Maven): 这是美军最核心的AI资产。它整合了数千个卫星图像、无人机视频流和电子监听信号。在2026年2月28日的首轮打击中,AI在24小时内识别并协助锁定了超过1,000个目标,这在2003年伊拉克战争时期需要数周时间。

缩短 OODA 循环: 美军高级将领确认,AI将从发现目标到下达打击指令的时间缩短了 70-80%。这种“决策压缩”让伊朗的移动导弹发射车几乎在冒头瞬间就会被锁定。

战损实时评估: AI 能够通过打击后的卫星云图实时分析摧毁程度,自动决定是否需要“补刀”,大幅提高了巡航导弹的使用效率。

2. 以色列:AI 驱动的“目标生成器”与“激光防御”。以色列更侧重于将 AI 用于极其复杂的城市巷战识别和多层防空拦截。

Lavender (薰衣草) 系统: 这是一个饱受争议的AI辅助决策系统。它通过分析大数据(社交媒体、通讯记录、位置信息),自动生成大规模的潜在目标清单。在对伊朗海外设施及代理人的打击中,该系统曾一次性列出数万个关联目标。这次斩首伊朗领导人,该系统出了大力,战果辉煌。

The Gospel (福音) 系统: 与 Lavender 配合,专门用于自动识别建筑物。它能快速计算出摧毁一个地堡所需的最小弹药量,以实现“流水线式”的打击节奏。

Iron Beam (铁束) 的AI指挥: 为了应对伊朗及其代理人的饱和式无人机攻击,以色列启用的激光拦截系统依赖 AI 进行微秒级的轨迹预测。AI 能在成百上千个假目标中识别出威胁最大的真弹头,并引导激光束进行低成本拦截。

3. 伊朗这次也使用了AI,面对美以的硬科技压制,伊朗采取了“低成本、高频率、智能化”的抗衡策略。

自杀无人机集群 (Drone Swarms): 伊朗的“见证者(Shahed)”系列无人机在2026年实现了初步的AI集群协同。即便在GPS信号被美军电子干扰的情况下,无人机可以通过AI视觉识别地形或通过相互间的通信维持阵型,利用饱和攻击消耗美军昂贵的拦截导弹。

AI 赋能的认知作战 (Cognitive Warfare): 伊朗在社交媒体上大规模投放由 AI 制作的 Deepfake (深伪视频) 和精准推送的信息流。目的是在美以国内制造混乱、动摇其盟友(如海湾国家)的参战意志。

智能网络攻防: 伊朗利用 AI 自动探测中东美军基地的工业控制系统漏洞。据评估,其AI驱动的网络入侵成功率在战争初期达到了 45%-55%,曾一度导致部分地区网络中断。

与战争几乎同时,中国AI头部企业Deepseek作了一个举动,被黄仁勋认为是中国在AI竞争正在走向胜利的拐点,他说,“如果 DeepSeek 的下一个版本(V4)首发运行在华为芯片上,对美国(的 AI 领导地位)来说将是灾难。”

Deepseek 作了什么?这里有一个背景:按AI行业多年的惯例,模型公司在发布大模型前,都会提前把模型给英伟达、AMD等芯片大厂做性能适配和优化,这几乎是铁打的"规矩"。但这次,DeepSeek V4的早期访问权限独家给了华为和寒武纪,英伟达被排除在外。为此,DeepSeek还专门推迟了V4的发布时间,花了好几个月和华为、寒武纪的工程师坐在一起,重写了模型底层代码的部分模块,就为了确保V4能在华为最新的昇腾芯片上流畅跑起来。


AI模型的生命周期分两个大阶段,训练和推理。很多人把这俩混为一谈,其实它们的差别,大概相当于"从零培养一个学生读完四年大学"和"让这个学生坐进考场答卷子"的区别。训练是"培养"的过程。你需要用海量数据、上万块芯片组成的超大集群,花几个月时间,把一个模型从"什么都不懂"训练到"上知天文下知地理"。这个过程对芯片的要求极其苛刻。不仅单块芯片算力要强,芯片之间的高速互联也要跟上(因为上万块芯片要同步计算),而且整个过程不能崩、不能出错,一次训练动辄几千万甚至上亿美金的成本,中途崩了就得从头再来。


推理则是"答题"的过程。模型训好之后,每天全球几亿用户来问它问题、让它写代码、帮你做PPT,每一次响应都是一次推理。这个过程对单块芯片的算力要求比训练低不少,但对效率和成本极其敏感,因为推理是7×24小时不间断跑的,是持续性支出,是AI公司的"水电煤"。
 

DeepSeek曾经尝试用华为昇腾芯片训练推理模型R2,但遭遇了反复失败。芯片稳定性有问题,集群互联速度太慢,华为的软件工具链也不成熟,训练任务跑着跑着就崩了。最后DeepSeek不得不退回英伟达硬件做训练。V4这次的突破发生在推理端。推理才是AI商业化真正烧钱的环节。推理端如能用国产芯片替代,这件事的经济意义,可能比很多人想象的大得多。


很多人看到DeepSeek不给英伟达提前看V4这个细节,第一反应是政治正确或者民族情怀。其实想多了。美国对华芯片出口管制从2022年10月开始,到现在已经经历了好几轮加码。从最初禁A100,到后来禁H100,再到限制H800的互联带宽,最后连特供版H20都一度传出要禁。


在这种环境下,DeepSeek如果继续把自己的模型生态绑死在英伟达上,就相当于把公司的命脉交到了美国商务部手里。今天你还能买到H20做推理,明天美国一纸禁令下来,你整套推理部署体系瞬间作废。所以DeepSeek现在做的事,用一句老话讲,叫"天晴修屋顶"。趁英伟达芯片还能用的时候,提前把国产芯片的适配跑通,万一哪天真被彻底断供,至少有个兜底。


不过这只是第一层,第二层,也是更深的一层,叫生态位卡位。这才是真正值得琢磨的。
DeepSeek现在是中国最强的开源大模型公司之一,如果它率先证明世界前沿的大模型可以在华为芯片上流畅运行,那它的身份就不仅仅是一个AI模型公司了——它会变成中国AI国产化进程的关键节点。这个身份意味着什么?意味着政策层面的优先支持,意味着华为会把最好的芯片资源和工程师团队优先向它倾斜,意味着政府和国企客户在采购AI服务时会优先考虑"全国产方案",意味着其他中国AI公司如果也想往国产芯片上迁移,可能要参照DeepSeek趟出来的路。


这就像当年智能手机刚起来的时候,三星率先all in安卓生态,别人还在犹豫,它已经和谷歌绑在了一起。后来安卓成了主流,三星自然就成了安卓阵营的老大。


过去两年,关于中美AI竞赛最主流的叙事是这样的:美国封锁芯片→中国买不到高端GPU→中国AI算力不足→中国AI要落后→中国AI要完。链条清晰,逻辑简洁,听起来很有道理。但DeepSeek在过去两年里不断打破这个叙事。

先是2024年底发布的V3,用远少于美国同行的算力和训练成本,训出了性能接近GPT-4o的模型,整个硅谷震动。2025年初R1发布,推理能力直接对标OpenAI的o1,训练成本据称只有对方的零头。现在V4又要证明,推理端可以跑在国产芯片上,不依赖英伟达也行。这一系列事件叠加在一起,传递的信号非常明确:中美AI竞赛的核心变量,可能会从谁的算力多变成谁的算力效率高。


这个变化的意义是什么?意义在于,如果拼的是谁的算力多,那中国铁定输。美国有台积电最先进的制程、有英伟达最顶级的芯片、有微软和亚马逊几百亿美金砸数据中心,中国在算力总量上没法比。但如果拼的是谁的效率高,那比赛就没有那么一边倒了。中国的AI研究者在资源受限的环境下,反而逼出了一套低算力高产出的打法,DeepSeek+华为的组合,本质上是在证明一件事:你可以用二流的硬件跑出一流的效果,只要你的软件和算法足够聪明。


这让我想起中国制造业过去几十年走过的路。一开始用便宜的设备和人力做低端产品,被人嫌弃山寨、廉价。但在实战中不断迭代、不断优化工艺,最后在一个又一个领域把便宜货做成了好货,甚至把原来的高端玩家挤出了市场。光伏、动力电池、新能源汽车、通信设备……一路走来都是这个剧本。


AI芯片生态的国产替代,某种程度上也在重演这个剧本的早期阶段。产品粗糙(功耗高、软件生态差),但有真实需求(出口管制)、有足够大的市场(中国AI产业体量)、有足够强的动力(国家安全考量+商业利益),还有像DeepSeek这样愿意"趟雷"的领头羊。
所有这些条件凑在一起,能不能走通?历史经验告诉我们,不能保证一定行,但概率不小。


另一方面,这件事对美国芯片封锁策略的反噬效应正在显现。黄仁勋在2025年多个公开场合明确表态反对过度限制对华芯片出口,他在今年CES的采访中说得很直白:"如果你限制了中国客户购买我们的芯片,他们不会停下来等——他们会去开发自己的芯片。" 一旦中国AI生态在国产芯片上跑通了,这些客户大概率不会再回来了。 就像当年中国用华为设备替代了思科之后,就算后来不限制了,运营商也不会再换回思科。迁移成本太高,而且已经习惯了。


这就是封锁的悖论。短期确实能卡你一下、慢你一步,但长期反而加速了对手的自主化进程,同时永久丢失了这个市场。美国商务部内部对此其实也有争论。部分官员认为现行管制力度不够,要进一步收紧;另一部分人则担忧过度管制"把中国逼成了自力更生",适得其反。


这个争论在美国新一届政府上台后更加激烈,目前没有明确结论。但不管华盛顿最终怎么决策,DeepSeek V4跑在华为芯片上这件事,本身就已经是对"封锁有效论"的一个有力反例。


Deepseek V4这件事,不一定说明中国赢了,但可能会成为让美国改变AI政策的一个拐点。这里有个典故,就是美苏核竞争。当美国有原子弹,而苏联没有,或不成熟时,美国是一个政策;但当苏联的核弹已经显示了接近,甚至超越美国时,美国又是一个政策,采取了与苏联合作,制订竞争规则,并一起垄断技术,限制后来者。

中国的模型都采取开源,这很危险,被朝鲜这种国家利用,可以干很坏的事。但因为中美竞争,中国为了取得更广阔的市场占有率,不得已如此。AI技术扩散,对中美都没什么好处。当看到中国已经开始朝独立的生态发展了,已经无法阻止其前进了,是美国开始反思的时刻了!



 

[ 打印 ]
阅读 ()评论 (9)
评论
faf999 回复 悄悄话 现在美国各大AI都屏蔽了蒸馏了吧?
laopika 回复 悄悄话 很遗憾,DeepSeek已经被我弃用了,主要是时效性太差。现在用的豆包不错,尽管与chatGBT 还是有距离。
硬码工 回复 悄悄话 训练和推理的关系
如果仅仅中国国产的芯片能做推理,也是很好的。推理连接着物理AI的市场。推理AI芯片,可以让AI应用的市场。这个市场很大
另一个消息,之所以deepseek没有将代码送给英伟达,是美国禁止美国公司给中国公司适配模型
训练仍然是很重要的,但一步一步来,推理能赚到钱,在做训练的事,毕竟中国是发展中国家,落后是正常的
BeijingGirl1 回复 悄悄话 回复 '白钉' 的评论 : 是啊, 没有字典和上几年学, 你也写不成或不懂下面这段话。 问题是,是否每个学生都要从甲骨文、小篆开始学汉字?
白钉 回复 悄悄话 我们不能捧杀DeepSeek,虽然为它感到自豪。

DeepSeek 的真正优势来自蒸馏与 MoE,但必须承认--没有 洋人Teacher,它什么都做不了。
围绕 DeepSeek V4 的讨论中,许多叙事被放大成“国产芯片突破”“中美 AI 拐点”“封锁反噬”等宏大主题。但如果回到技术本质,DeepSeek 的核心竞争力其实来自两个关键技术路线:

知识蒸馏(Distillation)
专家混合架构(Mixture?of?Experts, MoE)

而其中最关键的一点常被忽略:
没有一个已经训练好的大模型(Teacher),DeepSeek 的蒸馏路线根本无法成立。

一、DeepSeek 的成本优势来自蒸馏,但蒸馏的前提是:必须有一个强大的 Teacher
DeepSeek 能以远低于行业平均的成本训练模型,最关键的原因是蒸馏。
而蒸馏并不是中国发明的,它由 Geoffrey Hinton、Oriol Vinyals、Jeff Dean 在 2015 年就正式提出。

蒸馏的核心机制是:

让小模型(Student)直接学习大模型(Teacher)的最终能力,从而跳过最昂贵的基础预训练阶段。

为了让逻辑更清晰,我们拆开来看:
1. 传统大模型训练最贵的部分是什么?
是 基础预训练(pretraining):

需要数万亿 token,需要上千张 GPU,需要连续训练数周甚至数月,成本动辄上亿美元。
这是 OpenAI、Anthropic、Google 的路线。

2. 蒸馏为什么便宜?因为它跳过了这一步。
但它之所以能跳过,是因为:

Teacher 已经替 Student 付过了这笔天价成本。
Teacher 已经:学会语言规律,学会世界知识,学会推理链条,学会对齐(alignment),学会风格与逻辑。

Student 只是把这些“现成能力”压缩、模仿、迁移。
换句话说:蒸馏不是创造能力,而是复制能力。没有能力可复制,蒸馏就无从谈起。

3. 所以必须强调:没有 Teacher,DeepSeek 什么都做不了。

DeepSeek 的蒸馏路线依赖:
开源大模型(如 LLaMA、Qwen)
甚至可能依赖闭源模型的输出(如 GPT、Claude)
以及整个行业过去十年积累的基础模型成果

如果没有这些 Teacher:
DeepSeek 必须自己从零训练一个 GPT?4 级 Teacher

成本会从“几百万美元”变成“几亿美元”,整个蒸馏路线会瞬间失效。

因此必须明确:

DeepSeek 的效率奇迹不是“凭空创造”,而是“站在巨人的肩膀上”。

二、MoE 是 DeepSeek 的第二根支柱,让模型“又大又省”
DeepSeek 的模型(V3、R1、V4)都采用了 MoE(专家混合) 架构。
MoE 也不是中国发明的,它由 Michael I. Jordan、Ronald Jacobs、David Hinton 在 1991–1993 年提出。

MoE 的核心思想是:

模型可以非常大,但每次推理只激活少数专家,从而大幅降低计算量。
它带来的优势包括:

参数规模巨大 → 能力强,实际计算量很小 → 成本低,推理速度快 → 商业化友好,
DeepSeek 的 MoE 调度策略更激进,使得:

同样算力 → 能训练更强模型 同样模型 → 推理成本更低。
但必须强调:
MoE 解决的是“推理成本”,不是“能力来源”。
能力来源仍然来自 Teacher。

如果有人不信本评论,可以转给DeepSeek老板梁文锋,看看他怎么说。

BeijingGirl1 回复 悄悄话 不管哪个国家的管控, 都是有利有弊。 就看取舍和着重点。 谢谢分享了。
远远的雾 回复 悄悄话 谢谢你的分享!信息非常新颖,观点也很有启发性。赞!
BeijingGirl1 回复 悄悄话 如果DS v4 能在华为的芯片上训练出来, 那这一整套就是中国制造了。 这确实是很大的一步。 等看。
BeijingGirl1 回复 悄悄话 有意思的文。 在国内鲜听看到人谈论AI的技术, 说的也都是浮皮潦草,搞几个机器人上春晚, 以为就是AI了。 知其然不知其所以然。 前些天扯什么120万亿token, 说的人根本也不了解什么意思。
登录后才可评论.