SOTA模型也能“全栈国产”？智谱联合昇腾和昇思给出了硬核答案

过去两年里，国内AI圈有一个心照不宣的“焦虑”：国产算力已经满足了大规模的模型推理需求，可大模型的训练，特别是SOTA级模型的预训练，还是无法摆脱对英伟达生态的依赖。

2026年注定是一个分水岭。

刚登陆港股市场的智谱，发布了新一代图像生成模型GLM-Image，在文字渲染的权威榜单中达到了开源SOTA水平，并在“出生证明”上写了一段关键信息：模型自回归结构基座基于昇腾Atlas 800T A2设备与昇思MindSpore AI框架，完成了从数据预处理到大规模训练的全流程构建，验证了在自主创新算力底座上训练前沿模型的可行性。

全流程、SOTA、自主创新算力底座……每一个词，都是对“国产算力不好用”等刻板印象的有力回击。同时也预示着，国产算力已经从“跑推理”正式迈向“数据预处理+预训练+SFT微调+RL训练”的端到端全流程，从“能用”进阶到了“好用”。

01 一场“地狱级”难度的压力测试

在讨论算力前，有必要先理解GLM-Image的“含金量”。

如果只是训练一个“二流模型”，对算力的考验也是“二流”的，而智谱瞄准了下一代技术范式——认知型生成。

过去的图像生成模型，普遍存在“智商不够”的瓶颈。比如让AI画一张“关于量子力学的科普海报”，可以画出炫酷的原子结构和星空背景，但上面的文字却是乱码，典型的“视觉强，认知弱”。

智谱GLM-Image没有照搬开源常用的LDM方案，采用了创新的“自回归+扩散编码器”混合架构，属于兼具世界知识与推理能力的“认知型生成”，不仅要会画画，还要理解物理规律、逻辑关系和文字符号。

可以简单地比作是“大脑”和“画师”的组合：

9B大小的自回归模型，扮演了“大脑”的角色，利用语言模型的底座优势，专注于提升对指令的语义理解和画面的全局构图；

7B大小的DiT扩散解码器，像一个技法高超的“画师”，专注于还原图像的高频细节和文字笔画，改善模型“提笔忘字”的现象。

基于架构上的创新，GLM-Image在通用图像生成质量上能够对齐业界主流隐空间扩散模型方案，在文字渲染与知识密集型图像生成场景中展现出了显著优势，以及出色的多分辨率自适应能力，原生支持从1024x1024到2048×2048尺寸的任意比例图像的生成任务。

参考行业惯例，先来“跑个分”。

在考察模型在图像中同时生成多处文字准确性的CVTG-2K榜单上，GLM-Image凭借0.9116的Word Accuracy（文字准确率）成绩，位列开源模型第一。特别是NED（归一化编辑距离）指标上，GLM-Image以0.9557的得分领先，生成文字与目标文字高度一致，错字、漏字情况更少。

考察模型渲染长文本、多行文字准确性的LongText-Bench，覆盖了招牌、海报、PPT、对话框等8种文字密集场景，并分设中英双语测试，GLM-Image以英文0.952、中文0.979的成绩位列开源模型第一。

比“跑分”更有说服力的是，GLM-Image开源不到24小时就冲上全球知名AI开源社区Hugging Face榜单的全球第一。

只是架构越先进，对算力底座的挑战越大。既要满足LLM对显存和序列长度的极高要求，同时解决图像生成对高并发计算的吞吐需求，对任何算力底座来说，都是一场“地狱级”的压力测试。

02 智谱、昇腾、昇思的协同“破壁”

面对行业“无人区”，智谱和昇腾.昇思是怎么破局的呢？

智谱官方公众号给出了答案：“依托昇腾NPU和昇思MindSpore AI框架，使用动态图多级流水下发、高性能融合算子、多流并行等特性，我们自研了模型训练套件，全面优化数据预处理、预训练、SFT和RL的端到端流程。”

做个“翻译”的话，主要解决了模型训练的三个核心痛点。

第一个是动态图多级流水下发。

在大模型训练的过程中，存在一个经典的“Host-Device”协同问题：Host侧（CPU）负责下发指令，Device侧（NPU）负责计算。但NPU算得太快了，CPU发指令的速度跟不上，导致NPU经常处于“等活干”的空转状态。

昇思MindSpore引入了“动态图多级流水下发”机制，可以理解为将原先串行的“接单-备菜-炒菜”流程，变成了高度重叠的流水线：NPU炒上一道菜的时候，CPU已经在处理下一道菜的订单了。结果是惊人的，Host侧的并行度与下发效率大幅提升，整体训练性能提升了20%。

第二个是多流并行执行。

在多模态训练场景中，文本梯度同步、图像特征广播、混合并行等操作，会产生海量的通信需求。

传统模式下，计算和通信往往是串行的——“路通了再走车”，昇腾的“多流并行执行机制，相当于给计算和通信修了座“立交桥”，通过共用内存池，允许计算和通信同时运行，而且不同通信域还能单独分配“车道”，充分利用网络带宽消除通信串扰，让整体训练性能又提升了10%。

第三个是高性能融合算子。

做过大模型训练的工程师都知道，最大的噩梦就是扩散模型训练后期的Loss震荡。

为了解决这个问题，昇腾CANN高性能算子库提供了多种高性能融合算子，包括AdamW EMA融合算子，缓解扩散模型训练后期loss震荡问题，使收敛效果更稳定；COC通算融合算子，使用集合通信创新算法，用计算掩盖多机多卡场景TP域中ReduceScatter和AllGather等核心通信算子的通信开销，将通信效率提升了15%。

正如我们所看到的，GLM-Image不但验证了在自主创新算力底座上训练高性能多模态生成模型的可行性，更在权威榜单中达到了开源SOTA水平，诠释了自主创新算力底座在模型训练环节的无限可能。

03 中国计算产业破局的“新范式”

GLM-Image的从0到1，预示着AI产业的一次深刻变革。

过去一段时间，外界习惯了“大力出奇迹”：只要堆叠的显卡足够多、带宽足够宽，似乎没有什么模型是跑不起来的。

时间来到2026年，“认知型生成”渐渐成为新的技术范式，模型的架构越来越复杂，既要LLM的逻辑推理能力、生成模型的渲染能力，甚至还要有视频理解的时空建模能力。

面对动态变化的计算需求，“堆算力”已经捉襟见肘，如果不进行底层创新，有效算力将被大量的通信开销和内存墙吞噬。

智谱和昇腾“背靠背”的作战，示范了模型反向定义算力底座的可能：比如为了配合语义Token的理解，专门优化底层的通信流；为了解决混合架构的收敛难题，深度定制融合算子……大模型厂商和算力企业不再是“甲方乙方”的关系，而是联合攻坚作战的“队友”。

除了技术上的“账”，还有商业上的“利”。

“自回归+扩散编码器”的混合架构，兼顾全局指令理解与局部细节刻画，创造性地解决了海报、PPT、科普图等知识密集型场景生成难题。按照常理推断，模型越复杂，计算量越大，成本就越高。但智谱官方公开的数据却是：在API调用模式下，GLM-Image生成一张图片仅需0.1元。

图：GLM-Image生成图片示例

在智能体时代，一个复杂任务（比如设计一张双十一促销海报）可能需要AI在后台进行数十次的自我迭代、草图绘制、反思修改，最终才输出一张成品。倘若生成一张图的成本要几块钱，多步推理的智能体将被局限在实验室，在商业上根本跑不通。

智谱和昇腾.昇思的协同创新，通过计算效率的提升和算力利用率的优化，“抹平”了复杂架构带来的“额外成本”，赋予了GLM-Image极致的性价比，让AI生图从一个需要小心翼翼计费的“工具”，变成了电商、广告、社交媒体等行业的“白菜价”基础设施。

沿循这样的逻辑，接下来的AI竞争，比拼的不只是谁的算力多、模型强，还在于是否拥有“算法-框架-芯片”三位一体的垂直整合能力：在训练端，稳定、高效地进行大模型训练；在推理端，低成本推进产业落地。

像智谱和昇腾一样，拆掉模型和算力之间的墙，进行深度的软硬协同，或将成为计算产业的新范式。

04 写在最后

GLM-Image的一小步，或许是中国AI生态的一大步。

中国最顶尖的算法团队叠加最硬核的算力底座，蹚过了最深的水，踩过了最痛的坑，最终用一份开源SOTA的成绩单告诉行业：用自主创新算力底座训练大模型的路，不仅能走通，还能走得快、走得远。

当然，也要清醒地看到，国产算力生态依然有差距，但GLM-Image撕开了一道口子，光已经照进来了。今天是一个图像模型，明天可能就是万亿参数的多模态“巨兽”。