DeepSeek开源周第二天开源项目:Deepep

昨天是DeepSeek ai开源周第一天,开源的项目是FlashMLA,不到半小时,Github已经已经300多Star了,短短1小时就超过10W阅读,非常的火爆,今天是DeepSeek开源周的第二天,DeepSeek开源了第2个项目:Deepep。

DeepSeek开源了第2个项目:Deepep.webp

什么是Deepep?

Deepep是一个用于MOE模型培训和推理的开源EP通信库。它基于先进的混合专家架构,充分利用了大规模数据集以提高其预训练和微调的有效性。DeepEP的设计导向是减少计算负担与内存使用,使得用户能够在常规硬件上有效运行大规模模型。

Deepep的功能特点

MoE架构优化:

  • DeepEP专为Mixture-of-Experts (MoE) 和专家并行 (EP) 设计,提供高效的all-to-all GPU内核,适用于训练和推理任务。

  • 支持低精度运算,包括FP8和BF16,提升计算效率,节省显存。

高性能通信:

  • 提供高吞吐量和低延迟的通信内核,支持NVLink和RDMA网络。在H800 GPU上测试,最大带宽可达153 GB/s (NVLink) 和46 GB/s (RDMA)。

  • 针对NVLink到RDMA的非对称带宽转发场景进行了优化,确保高吞吐量表现。

低延迟通信:

  • 提供纯RDMA的低延迟内核,特别适合推理解码阶段,延迟低至163微秒。

  • 引入基于hook的通信-计算重叠方法,不占用GPU SM资源,最大化计算效率。

硬件优化:

  • 利用未公开的PTX指令提升Hopper架构的性能。

  • 支持InfiniBand网络,并理论上兼容RoCE,提供灵活的网络配置选项。

Deepep的应用场景

大规模模型训练:

  • 适用于Mixture-of-Experts (MoE) 模型的训练,提供高效的并行通信支持,显著提升训练效率。

推理任务:

  • 特别适合延迟敏感的推理解码场景,显著提升效率,降低延迟,提高推理吞吐量。

高性能计算需求:

  • 完美适配现代高性能计算需求,支持多种硬件平台,包括Hopper GPU架构,未来可能扩展更多设备。

Deepep的使用与集成

易用性:

  • 支持Hopper GPU架构,需要Python 3.8+、CUDA 12.3+和PyTorch 2.1+环境。

  • 安装时需搭配团队修改版的NVSHMEM,安装指南详细。

集成方式:

  • 开源且易于集成,只需几行命令即可构建并运行测试。

  • 安装后导入deep_ep模块即可直接使用,提供示例代码和测试脚本。

DeepEP已在GitHub上开源,地址:https://github.com/deepseek-ai/DeepEP

1. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
DrFonts
DrFonts

一个AI字体生成工具,它能把手写的PNG图片,比如纸上的字稿,自...

Coding Adventure
Coding Adventure

一个面向小学三年级到初中学生的游戏化编程学习平台。学生用真实编程...

Vert.sh
Vert.sh

一款完全免费、开源的文件转换工具,支持图片、音频、文档的本地处理...

Windrecorder
Windrecorder

捕风记录仪,一款开源的屏幕录制与检索工具,它记录屏幕内容来实现记...

Custom Cursor
Custom Cursor

一个能让你拥有个性化光标的网站。Custom Cursor网站有...

橙子8设计
橙子8设计

一站式AI电商图片制作平台,专为电商和跨境卖家服务。不用专业设计...

Sandspiel
Sandspiel

一款基于细胞自动机和实时物理的开源像素沙盘游戏,玩家可以在虚拟沙...

印象地图
印象地图

这是个可以帮你记住全国省市位置的测试工具。打开网站就能用,选个模...

Sandtris
Sandtris

一款把经典俄罗斯方块和流沙物理效果结合的休闲游戏。玩家需要利用沙...

Maze Toys
Maze Toys

一个以迷宫游戏为主的网站,提供多种类型的迷宫玩法,包括Mini、...