手机扫描下载
DeepEP通信库是一款MoE(Mixture of Experts)模型的训练和推理的通信库,专为分布式系统设计,支持多种通信协议帮助实现专家之间的高效通信和数据交换,提供低延迟、高吞吐量的数据传输,适用于实时数据处理、微服务架构等场景。
在H800(NVLink的最大带宽约为160 GB/s)上测试常规内核,每台设备都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),并且遵循DeepSeek-V3/R1预训练设置(每批次4096个Tokens,7168个隐藏层单元,前4个组,前8个专家(模型),使用FP8格式进行调度,使用BF16格式进行合并)。
在H800上测试低延迟内核,每台H800都连接到一块CX7 InfiniBand 400 Gb/s的RDMA网卡(最大带宽约为50 GB/s),遵循DeepSeek-V3/R1的典型生产环境设置(每批次128个Tokens,7168个隐藏层单元,前8个专家(模型),采用FP8格式进行调度,采用BF16格式进行合并)。
在上周DeepSeek宣布本周将是开源周(OpenSourceWeek),并将连续开源五个软件库后。DeepSeek今日向公众开源了DeepEP。据介绍,DeepEP是一个用于MoE(混合专家)模型训练和推理的EP(Expert Parallelism)通信库,可以实现高效且优化的全对全通信,支持包括FP8在内的低精度运算,适配现代高性能计算需求。
同时,DeepEP针对NVLink到RDMA的非对称带宽转发场景进行了深度优化,不仅提供了高吞吐量,还支持SM(Streaming Multiprocessors)数量控制,兼顾训练和推理任务的高吞吐量表现。
目前,在宣布开源20分钟左右,GitHub上DeepEP已获得超1000Star收藏。
deepep开源驱动fp8技术分享给大家!在这里是第一个用于MoE模型训练和推理的开源EP通信库,高效且优化的全对全通信,通过NVLink和RDMA支持节点内和节点间,用于训练和推理预填充的高量内核,用于推理解码的低延迟内核,原生FP8调度支持,灵活的GPU资源控制,用于计算通信重叠。
高效、优化的 all-to-all 通信
节点内和节点间(intranode and internode)均支持 NVLink 和 RDMA
用于训练和推理预填充的高吞吐量内核
用于推理解码的低延迟内核
原生 FP8 调度支持
灵活的 GPU 资源控制,实现计算-通信重叠
AI工具箱软件
三国咸话app最新版v6.6.1 安卓版
立即下载淘特app最新版v10.39.53 安卓版
立即下载viduai生成视频appv2.6.0 安卓版
立即下载万年历app最新版v7.2.6 安卓版
立即下载航旅纵横app最新版本v8.2.5 免费版
立即下载驾驶伴侣app安卓版v12.6 最新版
立即下载阿里巴巴appv11.65.1.0 安卓版
立即下载疯狂刷题app最新版v2.0.8 安卓版
立即下载猿编程app官方正版v5.5.0 安卓版
立即下载全国导游之家app最新版v3.0.13 安卓版
立即下载亚马逊购物app最新版v30.14.1.600 安卓版
立即下载司小宝货运平台官方版v5.10.3 安卓版
立即下载内蒙古人社厅官方版v6.1.4 手机版
立即下载新疆智慧人社养老认证v3.1.2 最新版
立即下载