完美(中国)体育官方网站-365WMSPORTS-智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

2026-04-24 23:38:58

　　导语：包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等。

雷峰网(公家号：雷峰网)讯 DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模子(1.86万亿参数）和DeepSeek-V4-Flash 284B 高效模子（2840亿）。由智源研究院牵头研发的众智FlagOS第一时间对于两个“巨无霸”模子举行全量适配，已经经完成 DeepSeek-V4-Flash于8款以上 AI 芯片上的全量适配与推理部署，包括海光、沐曦、华为昇腾、摩尔线程（FP8）、昆仑芯、平头哥真武、天数、英伟达（FP8）等芯片。FlagOS 同时正于推进 DeepSeek-V4-Pro 模子于多个芯片的迁徙适配，后续行将开源。

起首完成于八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两年夜模子之一，采用混淆专家（MoE）架构，总参数目 284B，激活参数仅 13B，撑持 100 万 token上下文长度。该模子于架构上引入了混淆留意力机制（联合压缩稀少留意力CSA与高度压缩留意力HCA，年夜幅晋升长上下文效率）、流形约束超毗连（mHC，加强跨层旌旗灯号流传不变性）以和Muon优化器（加快收敛、晋升练习不变性）。预练习数据跨越32Ttoken，后练习采用两阶段范式——先经由过程SFT及GRPO强化进修自力造就范畴专家，再经由过程于线计谋蒸馏将多范畴能力同一整合到单一模子中。于最年夜推理力度模式（Flash-Max）下，赐与更年夜思索预算使其推理能力可靠近Pro版本程度；受限在参数范围，于纯常识类使命及最繁杂的Agent事情流上略逊在 Pro。总体机能参考以下官方评测成果：

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

缭绕DeepSeek-V4-Flash多芯适配，这次FlagOS体系软件技能栈冲破了三年夜要害技能：FlagGems全算子替换（实现多芯片同一适配）、为o-group采用自力张量并行计谋解锁更多低显存场景、以和“FP4+FP8混淆精度”的原生权重到 FP8/BF16 的精度路径转换。当下海内出货的AI芯片，都没有FP4的撑持。英伟达也只有于Blackwell和以后的高端芯片才撑持FP4。这三项要害技能，使患上DeepSeekV4可以或许于当前各类厂商的主流AI芯片上不变运行，而非仅限在撑持 FP4 及年夜显存的少数高端AI加快卡。

三年夜技能冲破：为何对于撑持多种AI芯片十分主要

冲破一：FlagGems 提供撑持8种以上芯片的全算子替换——真正意义上的跨芯方案

本次DeepSeek-V4-Flash的适配，FlagGems 实现了模子推理链路中全数算子的替换。这象征着甚么？

完全离开 CUDA 算子依靠：DeepSeek-V4-Flash的 MoE 专家调理、Attention 计较、RMSNorm、TopK 路由等全数焦点计较模块，均由 FlagGems 基在 Triton/Triton-TLE语言从头实现，不挪用任何 cuDNN/cuBLAS 等NVIDIA私有库。

无需芯片厂商一一适配：传统模式下，每一款新模子上线，芯片厂商需要投入工程团队做算子适配。此刻经由过程FlagGems+FlagTree编译器的组合，新模子的算子可以直接编译到多款芯片后端，芯片厂商不需要做任何分外事情。

新算子即时可用：DeepSeek-V4-Flash引入的新计较模式（如 o-group 相干的分组路由机制），FlagGems 已经经实现了对于应的新算子，并经由过程 FlagTree 编译器同一编译到所有撑持的芯片后端。

FlagGems 作为全世界最年夜的 Triton 单一算子库，已经拥有跨越400 个年夜模子经常使用算子，并已经正式进入 PyTorch 基金会生态互助项目。于 40 个主流模子上，推理使命算子笼罩度到达 90%~100%，完备撑持 DeepSeek-V4-Flash的全数计较需求。

冲破二：为o-group采用自力并行计谋——排除张量并行至多单机8卡限定

DeepSeek-V4-Flash为了进一步降低计较开消采用了分组输出投影技能（Grouped Output Projection），配置为o-group=8，这致使于传统的张量并行时辰，至多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或者 64GB，特别于BF16格局环境下，需要张量并行年夜在8份才能放的下。为相识除了这个限定，FlagOS专门针对于o-groups举行了零丁张量并行计谋设计及实现，确保o-groups切分不跨越8份的条件下，可以或许让模子其他部门还有采用经典的张量并行计谋，而且实现跨越8份的切分。经由过程差别的张量并行计谋组合，可以或许实现多在8台装备的张量并行运行。

FlagOS 团队对于o-group张量并行改动有：

自力的并行计谋：自力在已经有的张量并行通讯组以外，为o-group零丁构建所需要的张量并行通讯组，确保其他模子布局张量并行切分跨越8的环境下，o-group的张量并行于8之内。

参数转换调解：对于o-group相干的参数，也举行了对于应零丁的张量并行切分处置惩罚，以确保于新的自力张量并行计谋下，也可以被准确加载。

笼罩面扩大：这一优化可以或许将 DeepSeek-V4-Flash于零丁采用张量并行计谋下，将可运行芯片规模从仅限单机80GB以上显存的个体高端卡扩大到多机64GB/32GB的更多主流国产芯片，包括海光、沐曦、天数智芯等厂商的主力产物线。

冲破三：从“FP4+FP8混淆精度” 到 BF16的精度转换——买通主流芯片的计较路径

DeepSeek-V4-Flash模子发布时初次采用 FP4+FP8混淆精度，该精度只有于Blackwell和以后的英伟达最新硬件上才有撑持，但当前所有海内非英伟达 AI 芯片都未能撑持，只有摩尔线程原生撑持了FP8，其余依然以BF16为主。

FlagOS 完成为了从 FP4 到 BF16 的完备精度转换：

权重反量化：将 FP4 量化权重转换为 BF16 格局。这不是简朴的类型转换，而是需要按照 DeepSeek 的量化方案举行逆量化计较，确保数值精度。

计较路径重修：FP4 及 BF16 于底层计较上有素质差异——FP4 的动态规模更窄，累加精度、溢来由理计谋均差别。FlagOS 对于推理链路中的 GEMM、Attention、MoE 路由等要害计较节点一一适配了 BF16 路径。

精度对于齐验证：颠末尺度评测集验证，BF16 版本与 FP4 原生版本于焦点能力指标上连结对于齐，确保精度转换不引入营业层面的效果丧失。

本次，FlagOS推出了FP8及BF16两种适配版本，让DeepSeek-V4-Flash再也不是只有最新 NVIDIA 卡才能跑的模子，而是真正可以部署于 FP8 和 BF16 生态的主流国产芯片上。

FlagGems开源高机能新算子周全撑持 DeepSeek-V4-Flash

本次新发布的DeepSeek-V4-Flash共有约莫67个算子，FlagGems已经全量撑持。新撑持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子，实现了对于DeepSeek-V4-Flash的周全撑持，也为跨芯适配打下主要基础。

FlagGems 撑持 DeepSeek-V4-Flash 新算子的机能对于比

为了撑持更多AI芯片的利用，FlagOS对于DeepSeek-V4-Flash中利用的新算子利用Triton语言举行从头实现，基在FlagTree同一编译器，机能全数跨越原素性能。

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

C++Wrapper技能是FlagOS技能社区专门为晋升基在Triton语言的算子内核挪用效率而打造的技能。今朝已经经撑持了该技能的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、和英伟达等。利用了C++ Wrapper技能，于平凡的Transformers框架下，可以显著晋升利用了Triton算子的模子的端到端效率，实现跨芯普适、及高效推理的两重方针。经由过程端到端效果评测（NV H20，DeepSeek-V4-Flash FP8），C++ Wrapper + Triton 比 TileLang 快11%，比 Python Wrapper 版快 39%。

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

开发者极致体验：发布即多芯 + 极简部署

1. 焦点能力与原生版本对于齐

经 GPQA_Diamond、AIME等权势巨子评测集验证，FlagOS 适配后的 DeepSeek-V4-Flash，于语言理解、繁杂推理、代码天生、数学计较等焦点能力上，与 CUDA 原生版本对于齐，可安心运用在金融、教诲、政企办事、代码开发等场景，无需担忧适配致使营业效果折损。

评测数据：

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

注：本测试成果仅用在对于迁徙前（Nvidia-Origin）及迁徙后（-FlagOS）版本的互相对于齐验证，其实不代表 DeepSeek 模子的官方机能，DeepSeek 模子的官方机能以 DeepSeek 官方宣布数据为准。

2. 极简部署：开箱即用，底层优化无感知

FlagOS将焦点算子库、编译器等技能组件前置内置到 DeepSeek-V4-Flash代码框架中，开发者加载模子时，底层优化代码主动生效，无需手动添加任何 FlagOS 初始化代码。同时，基在 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模子版本，尺度化 Docker 镜像 + 一键加快号令，解决了开发者最头疼的情况配置、效果对于齐、机能优化等问题。

FlagOS 2.0 技能底座：从年夜模子到智能体时代的全栈进级

DeepSeek-V4-Flash的三重冲破，依托的是 FlagOS 2.0 同一多芯片体系软件栈的全链路能力。从算子层、编译层、框架层到东西层，全链路为年夜模子跨芯适配提供技能支撑，将原本数周的适配周期缩短至数天，真正实现极速落地。

智源：FlagOS完成DeepSeekV4八款芯片Day0 适配，实现三重技术突破

FlagOS：面向多种 AI 芯片的体系软件栈

1. 高机能算子库 FlagGems：焦点算子深度适配，开释硬件算力

FlagGems 作为 FlagOS焦点的高机能通用年夜模子算子库，基在 Triton 语言实现，针对于 DeepSeek-V4-Flash推理链路的焦点算子举行了深度适配与优化，包括 MoE 专家调理、Attention 计较、RMSNorm 等要害计较模块，同时原生撑持 NVIDIA、摩尔线程、沐曦、清微智能、天数等靠近 20 家 AI 芯片。

2. 同一 AI 编译器 FlagTree：一次编写，多芯编译

FlagTree 是 FlagOS 面向多 AI 芯片后真个同一编译器，基在 Triton 深度定制，可将 DeepSeek-V4-Flash的焦点算子编译为英伟达、摩尔线程等十多种差别 AI 芯片后端可辨认的指令，完全解决差别芯片编译器生态割裂的问题，年夜幅降低算子跨芯片适配的开发成本。

3. 模子跨芯迁徙发布东西 FlagRelease：半主动实现模子跨芯迁徙与版本发布

依托 FlagOS 全栈技能能力，FlagRelease 已经完成 DeepSeek-V4-Flash于多种芯片上的模子迁徙、精度对于齐与版本发布，笼罩 HuggingFace、魔搭等开源社区平台。开发者可直接下载利用，无需自行迁徙。截至本文发布，FlagRelease 已经发布笼罩 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模子实例的跨芯适配版本。

4. 同一多芯片接入插件 vLLM-plugin-FL：无缝兼容原生利用习气

vLLM-plugin-FL是 FlagOS 为 vLLM 推理办事框架打造的专属插件，基在 FlagOS 同一多芯片后端开发，于彻底不转变 vLLM 原生接口与用户利用习气的条件下，实现多芯片推理部署。今朝 vLLM-plugin-FL 已经经撑持了英伟达、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为等多家芯片。

开源共建：FlagOS连续做开发者的“跨芯适配后援”

当下，异构算力协同、年夜模子普惠落地已经成为全世界开源开发者社区的焦点热门，打破硬件生态断绝、让年夜模子于差别算力平台高效低成本运行，是无数开发者的焦点诉求。FlagOS 从降生之初就将开源开放、众智共建刻入技能基因，始终以开发者为中央，经由过程全栈开源的同一体系软件栈，把繁杂的 M×N 硬件适配问题降维为 M+N ，做每一一名开发者最靠得住的跨芯适配后援。

今朝，FlagOS 已经形成完备的开源技能系统，所有焦点组件均已经开源于 GitHub，同时开放了数十款最新的主流基础年夜模子、十多款 AI 芯片的适配方案与最好实践，开发者可自由获取、深度定制：

四年夜焦点技能库：FlagGems通用年夜模子算子库、FlagTree 同一 AI 编译器、FlagScale 练习推理并行框架、FlagCX 同一通讯库，笼罩算子开发、编译优化、并行计较、跨芯片通讯全链路；

三年夜开源东西平台：FlagRelease年夜模子主动迁徙发版平台、KernelGen 算子主动天生东西、FlagPerf 多芯片评测东西，提供从模子适配、机能评测到工程落地的一站式东西链；

全场景扩大生态：vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架加强组件，以和 FlagOS-Robo 具身智能东西包，笼罩年夜模子练习、推理、运用全场景。

雷峰网文章

雷峰网版权文章，未经授权禁止转载。详情见转载须知。

-完美(中国)体育官方网站-365WMSPORTS

产品

服务

关于365WM完美体育

信息公开

产品 +

服务 +

关于365WM完美体育 +

信息公开 +

投资者关系

加入365WM完美体育

客户留言