DeepSeek开源周第三天开源项目:DeepGemm

DeepGemm是什么?

DeepGEMM是一个专为高效FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组GEMM。

DeepGemm.webp

DeepGemm的技术特点

  • CUDA编写:DeepGEMM使用CUDA编写,无需编译,采用轻量级即时(JIT)模块在运行时编译所有内核。

  • 细粒度缩放功能:支持普通和混合专家(MoE)分组GEMM,适用于不同的矩阵形状和计算需求。

  • 性能优化:采用CUDA核心两级累积(提升)解决不精确的FP8张量核心累积问题,利用Hopper TMA功能加速数据移动。

DeepGemm的主要优势

  • 性能优异:尽管设计轻量,但其性能匹敌甚至超过了各种矩阵形状的专家调整库。

  • 易于访问:作为一个干净且易于访问的资源,DeepGEMM是学习Hopper FP8矩阵乘法和优化技术的理想选择。

  • 灵活性:支持自动选择块大小、warpgroups数量、最佳流水线阶段和TMA集群大小,以适应不同的计算需求。

DeepGemm的应用场景

DeepGEMM适用于需要高效矩阵乘法操作的场景,特别是在深度学习ai模型训练和推理中,能够显著提高计算效率和性能。

github:https://github.com/deepseek-ai/DeepGEMM

其它相关链接

1. DeepSeek开源周第二天开源项目:Deepep

2. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
ChinaTextbook
ChinaTextbook

一个专门收集和分享中国大陆从小学到大学的教材资源的开源项目,特别...

暗壳AI
暗壳AI

家居AIGC营销与导购工具,它号称“一人即团队”,能够快速生成渲...

UntitledPen
UntitledPen

一个可以生成真实人声旁白的工具,也就是能够在一个平台上编写、编辑...

PageAI
PageAI

一款AI网站生成工具,就像一个小型创意工作室一样,能在短时间内根...

Seedance AI
Seedance AI

字节跳动推出的一款强大的视频生成工具,借助 Seedance 1...

ChatPs
ChatPs

ChatPs 是一款为 Photoshop 设计的插件,它背后是...

趣丸千音
趣丸千音

一个AI语音创作平台,专注提供一站式智能语音解决方案。集成文本转...

太极神器 TAICHI-flet
太极神器 TAICHI-flet

基于flet的一款多功能娱乐软件,实现了浏览图片、音乐、小说、各...

YIKM
YIKM

一个能在线玩小霸王、红白机、街机、FC 等经典游戏的地方,像《魂...

Bridgely
Bridgely

基于AI的实时通用翻译浏览器扩展,支持 60 多种语言,包括 W...