DeepSeek开源周第二天开源项目:Deepep

昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

DeepSeek开源了第2个项目:Deepep.webp

什么是Deepep?

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化:

  • DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。

  • 支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。

高性能通信:

  • 提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

  • 针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。

低延迟通信:

  • 提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。

  • 引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。

硬件优化:

  • 利用未公开的PTX指令提升Hopper架构的性能。

  • 支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练:

  • 适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。

推理任务:

  • 特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。

高性能计算需求:

  • 完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。

Deepep的使用与集成

易用性:

  • 支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

  • 安装时需搭配团队修改版的NVSHMEM,安装指南详细。

集成方式:

  • 开源且易于集成,只需几行命令即可构建并运行测试。

  • 安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。

DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
在线DOS游戏
在线DOS游戏

一个能在浏览器直接玩DOS游戏的在线模拟器,适合怀旧玩家和游戏开...

HDLOGO
HDLOGO

HDLOGO 是一个专门整理矢量标志和图标的网站,提供各类品牌和...

Funes.world
Funes.world

一个在线博物馆项目,通过众包方式把世界各地的建筑做成3D模型,F...

PrettyScale
PrettyScale

一个在线面部分析及颜值打分网站,用户通过上传照片或直接用摄像头参...

圆周旅迹
圆周旅迹

一款旅游出行AI智能规划APP,它可以直接从小红书这些平台导入别...

Wonderplan AI
Wonderplan AI

一个免费的AI旅游规划工具,能根据你的喜好、需求生成专属行程,支...

智写流程
智写流程

一个能自动记录网页操作并生成操作指南的工具。它能捕捉鼠标点击、键...

ReactBits
ReactBits

一个免费开源的动画化、可交互React组件库,里面有好多动画化、...

电视眼
电视眼

也叫TV眼,是一个在线网络电视直播网站,提供全国5000+个电视...

Excel Dashboard Ai
Excel Dashboard Ai

一款能自动把 Excel 或 CSV 文件变成带交互功能的仪表盘...