
导语:包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等。 雷峰网(公家号:雷峰网)讯 DeepSeek今日发布了DeepSeek-V4-Pro 1.6T 旗舰模子(1.86万亿参数)和DeepSeek-V4-Flash 284B 高效模子(2840亿)。由智源研究院牵头研发的众智FlagOS第一时间对于两个“巨无霸”模子举行全量适配,已经经完成 DeepSeek-V4-Flash于8款以上 AI 芯片上的全量适配与推理部署,包括海光、沐曦、华为昇腾、摩尔线程(FP8)、昆仑芯、平头哥真武、天数、英伟达(FP8)等芯片。FlagOS 同时正于推进 DeepSeek-V4-Pro 模子于多个芯片的迁徙适配,后续行将开源。 起首完成于八款芯片适配的DeepSeek-V4-Flash 是深度求索推出的 V4 系列两年夜模子之一,采用混淆专家(MoE)架构,总参数目 284B,激活参数仅 13B,撑持 100 万 token上下文长度。该模子于架构上引入了混淆留意力机制(联合压缩稀少留意力CSA与高度压缩留意力HCA,年夜幅晋升长上下文效率)、流形约束超毗连(mHC,加强跨层 旌旗灯号流传不变性)以和Muon优化器(加快收敛、晋升练习不变性)。预练习数据跨越32Ttoken,后练习采用两阶段范式——先经由过程SFT及GRPO强化进修自力造就范畴专家,再经由过程于线计谋蒸馏将多范畴能力同一整合到单一模子中。于最年夜推理力度模式(Flash-Max)下,赐与更年夜思索预算使其推理能力可靠近Pro版本程度;受限在参数范围,于纯常识类使命及最繁杂的Agent事情流上略逊在 Pro。 总体机能参考以下官方评测成果: 缭绕DeepSeek-V4-Flash多芯适配,这次FlagOS体系软件技能栈冲破了三年夜要害技能:FlagGems全算子替换(实现多芯片同一适配)、为o-group采用自力张量并行计谋解锁更多低显存场景、以和“FP4+FP8混淆精度”的原生权重到 FP8/BF16 的精度路径转换。当下海内出货的AI芯片,都没有FP4的撑持。英伟达也只有于Blackwell和以后的高端芯片才撑持FP4。这三项要害技能,使患上DeepSeekV4可以或许于当前各类厂商的主流AI芯片上不变运行,而非仅限在撑持 FP4 及年夜显存的少数高端AI加快卡。 三年夜技能冲破:为何对于撑持多种AI芯片十分主要 冲破一:FlagGems 提供撑持8种以上芯片的全算子替换——真正意义上的跨芯方案 本次DeepSeek-V4-Flash的适配,FlagGems 实现了模子推理链路中全数算子的替换。这象征着甚么? 完全离开 CUDA 算子依靠:DeepSeek-V4-Flash的 MoE 专家调理、Attention 计较、RMSNorm、TopK 路由等全数焦点计较模块,均由 FlagGems 基在 Triton/Triton-TLE语言从头实现,不挪用任何 cuDNN/cuBLAS 等NVIDIA私有库。 无需芯片厂商一一适配:传统模式下,每一款新模子上线,芯片厂商需要投入工程团队做算子适配。此刻经由过程FlagGems+FlagTree编译器的组合,新模子的算子可以直接编译到多款芯片后端,芯片厂商不需要做任何分外事情。 新算子即时可用:DeepSeek-V4-Flash引入的新计较模式(如 o-group 相干的分组路由机制),FlagGems 已经经实现了对于应的新算子,并经由过程 FlagTree 编译器同一编译到所有撑持的芯片后端。 FlagGems 作为全世界最年夜的 Triton 单一算子库,已经拥有跨越400 个年夜模子经常使用算子,并已经正式进入 PyTorch 基金会生态互助项目。于 40 个主流模子上,推理使命算子笼罩度到达 90%~100%,完备撑持 DeepSeek-V4-Flash的全数计较需求。 冲破二:为o-group采用自力并行计谋——排除张量并行至多单机8卡限定 DeepSeek-V4-Flash为了进一步降低计较开消采用了分组输出投影技能(Grouped Output Projection),配置为o-group=8,这致使于传统的张量并行时辰,至多切8份。而当前一些主流国产芯片的单卡显存为 32GB 或者 64GB,特别于BF16格局环境下,需要张量并行年夜在8份才能放的下。为相识除了这个限定,FlagOS专门针对于o-groups举行了零丁张量并行计谋设计及实现,确保o-groups切分不跨越8份的条件下,可以或许让模子其他部门还有采用经典的张量并行计谋,而且实现跨越8份的切分。经由过程差别的张量并行计谋组合,可以或许实现多在8台装备的张量并行运行。 FlagOS 团队对于o-group张量并行改动有: 自力的并行计谋:自力在已经有的张量并行通讯组以外,为o-group零丁构建所需要的张量并行通讯组,确保其他模子布局张量并行切分跨越8的环境下,o-group的张量并行于8之内。 参数转换调解:对于o-group相干的参数,也举行了对于应零丁的张量并行切分处置惩罚,以确保于新的自力张量并行计谋下,也可以被准确加载。 笼罩面扩大:这一优化可以或许将 DeepSeek-V4-Flash于零丁采用张量并行计谋下,将可运行芯片规模从 仅限单机80GB以上显存的个体高端卡 扩大到 多机64GB/32GB的更多主流国产芯片 ,包括海光、沐曦、天数智芯等厂商的主力产物线。 冲破三:从“FP4+FP8混淆精度” 到 BF16的精度转换——买通主流芯片的计较路径 DeepSeek-V4-Flash模子发布时初次采用 FP4+FP8混淆精度,该精度只有于Blackwell和以后的英伟达最新硬件上才有撑持,但当前所有海内非英伟达 AI 芯片都未能撑持,只有摩尔线程原生撑持了FP8,其余依然以BF16为主。 FlagOS 完成为了从 FP4 到 BF16 的完备精度转换: 权重反量化:将 FP4 量化权重转换为 BF16 格局。这不是简朴的类型转换,而是需要按照 DeepSeek 的量化方案举行逆量化计较,确保数值精度。 计较路径重修:FP4 及 BF16 于底层计较上有素质差异——FP4 的动态规模更窄,累加精度、溢来由理计谋均差别。FlagOS 对于推理链路中的 GEMM、Attention、MoE 路由等要害计较节点一一适配了 BF16 路径。 精度对于齐验证:颠末尺度评测集验证,BF16 版本与 FP4 原生版本于焦点能力指标上连结对于齐,确保精度转换不引入营业层面的效果丧失。 本次,FlagOS推出了FP8及BF16两种适配版本,让DeepSeek-V4-Flash再也不是 只有最新 NVIDIA 卡才能跑 的模子,而是真正可以部署于 FP8 和 BF16 生态的主流国产芯片上。 FlagGems开源高机能新算子 周全撑持 DeepSeek-V4-Flash 本次新发布的DeepSeek-V4-Flash共有约莫67个算子,FlagGems已经全量撑持。新撑持了Act Quant、hc_split_sinkhorn、FP8 MatMul、Sparse Attention、Hadamard Transform等5个新算子,实现了对于DeepSeek-V4-Flash的周全撑持,也为跨芯适配打下主要基础。 FlagGems 撑持 DeepSeek-V4-Flash 新算子的机能对于比 为了撑持更多AI芯片的利用,FlagOS对于DeepSeek-V4-Flash中利用的新算子利用Triton语言举行从头实现,基在FlagTree同一编译器,机能全数跨越原素性能。 C++Wrapper技能是FlagOS技能社区专门为晋升基在Triton语言的算子内核挪用效率而打造的技能。今朝已经经撑持了该技能的芯片包括华为昇腾、寒武纪、摩尔线程、平头哥真武、和英伟达等。利用了C++ Wrapper技能,于平凡的Transformers框架下,可以显著晋升利用了Triton算子的模子的端到端效率,实现跨芯普适、及高效推理的两重方针。经由过程端到端效果评测(NV H20,DeepSeek-V4-Flash FP8),C++ Wrapper + Triton 比 TileLang 快11%,比 Python Wrapper 版快 39%。 开发者极致体验: 发布即多芯 + 极简部署 1. 焦点能力与原生版本对于齐 经 GPQA_Diamond、AIME等权势巨子评测集验证,FlagOS 适配后的 DeepSeek-V4-Flash,于语言理解、繁杂推理、代码天生、数学计较等焦点能力上,与 CUDA 原生版本对于齐,可安心运用在金融、教诲、政企办事、代码开发等场景,无需担忧适配致使营业效果折损。 评测数据: 注:本测试成果仅用在对于迁徙前(Nvidia-Origin)及迁徙后(-FlagOS)版本的互相对于齐验证,其实不代表 DeepSeek 模子的官方机能,DeepSeek 模子的官方机能以 DeepSeek 官方宣布数据为准。 2. 极简部署:开箱即用,底层优化无感知 FlagOS将焦点算子库、编译器等技能组件前置内置到 DeepSeek-V4-Flash代码框架中,开发者加载模子时,底层优化代码主动生效,无需手动添加任何 FlagOS 初始化代码。同时,基在 FlagRelease 直接提供了多芯片版本的 DeepSeek-V4-Flash-FlagOS 模子版本,尺度化 Docker 镜像 + 一键加快号令,解决了开发者最头疼的情况配置、效果对于齐、机能优化等问题。 FlagOS 2.0 技能底座:从年夜模子到智能体时代的全栈进级 DeepSeek-V4-Flash的三重冲破,依托的是 FlagOS 2.0 同一多芯片体系软件栈的全链路能力。从算子层、编译层、框架层到东西层,全链路为年夜模子跨芯适配提供技能支撑,将原本数周的适配周期缩短至数天,真正实现极速落地。 FlagOS:面向多种 AI 芯片的体系软件栈 1. 高机能算子库 FlagGems:焦点算子深度适配,开释硬件算力 FlagGems 作为 FlagOS焦点的高机能通用年夜模子算子库,基在 Triton 语言实现,针对于 DeepSeek-V4-Flash推理链路的焦点算子举行了深度适配与优化,包括 MoE 专家调理、Attention 计较、RMSNorm 等要害计较模块,同时原生撑持 NVIDIA、摩尔线程、沐曦、清微智能、天数等靠近 20 家 AI 芯片。 2. 同一 AI 编译器 FlagTree:一次编写,多芯编译 FlagTree 是 FlagOS 面向多 AI 芯片后真个同一编译器,基在 Triton 深度定制,可将 DeepSeek-V4-Flash的焦点算子编译为英伟达、摩尔线程等十多种差别 AI 芯片后端可辨认的指令,完全解决差别芯片编译器生态割裂的问题,年夜幅降低算子跨芯片适配的开发成本。 3. 模子跨芯迁徙发布东西 FlagRelease:半主动实现模子跨芯迁徙与版本发布 依托 FlagOS 全栈技能能力,FlagRelease 已经完成 DeepSeek-V4-Flash于多种芯片上的模子迁徙、精度对于齐与版本发布,笼罩 HuggingFace、魔搭等开源社区平台。开发者可直接下载利用,无需自行迁徙。截至本文发布,FlagRelease 已经发布笼罩 10+ 家芯片厂商、12+ 款硬件、70+ 个开源模子实例的跨芯适配版本。 4. 同一多芯片接入插件 vLLM-plugin-FL:无缝兼容原生利用习气 vLLM-plugin-FL是 FlagOS 为 vLLM 推理办事框架打造的专属插件,基在 FlagOS 同一多芯片后端开发,于彻底不转变 vLLM 原生接口与用户利用习气的条件下,实现多芯片推理部署。今朝 vLLM-plugin-FL 已经经撑持了英伟达、摩尔线程、海光、沐曦、平头哥真武、天数智芯、昆仑芯、华为等多家芯片。 开源共建:FlagOS连续做开发者的“跨芯适配后援” 当下, 异构算力协同、年夜模子普惠落地 已经成为全世界开源开发者社区的焦点热门,打破硬件生态断绝、让年夜模子于差别算力平台高效低成本运行,是无数开发者的焦点诉求。FlagOS 从降生之初就将开源开放、众智共建刻入技能基因,始终以开发者为中央,经由过程全栈开源的同一体系软件栈,把繁杂的 M×N 硬件适配问题降维为 M+N ,做每一一名开发者最靠得住的跨芯适配后援。 今朝,FlagOS 已经形成完备的开源技能系统,所有焦点组件均已经开源于 GitHub,同时开放了数十款最新的主流基础年夜模子、十多款 AI 芯片的适配方案与最好实践,开发者可自由获取、深度定制: 四年夜焦点技能库:FlagGems通用年夜模子算子库、FlagTree 同一 AI 编译器、FlagScale 练习推理并行框架、FlagCX 同一通讯库,笼罩算子开发、编译优化、并行计较、跨芯片通讯全链路; 三年夜开源东西平台:FlagRelease年夜模子主动迁徙发版平台、KernelGen 算子主动天生东西、FlagPerf 多芯片评测东西,提供从模子适配、机能评测到工程落地的一站式东西链; 全场景扩大生态:vLLM-plugin-FL、Megatron-LM-FL、TransformerEngine-FL 等框架加强组件,以和 FlagOS-Robo 具身智能东西包,笼罩年夜模子练习、推理、运用全场景。 雷峰网文章 雷峰网版权文章,未经授权禁止转载。详情见转载须知。



