DeepSeek开源周第三天开源项目:DeepGemm

DeepGemm是什么?

DeepGEMM是一个专为高效FP8通用矩阵乘法(GEMM)设计的库,具有细粒度缩放功能,支持普通和混合专家(MoE)分组GEMM。

DeepGemm.webp

DeepGemm的技术特点

  • CUDA编写:DeepGEMM使用CUDA编写,无需编译,采用轻量级即时(JIT)模块在运行时编译所有内核。

  • 细粒度缩放功能:支持普通和混合专家(MoE)分组GEMM,适用于不同的矩阵形状和计算需求。

  • 性能优化:采用CUDA核心两级累积(提升)解决不精确的FP8张量核心累积问题,利用Hopper TMA功能加速数据移动。

DeepGemm的主要优势

  • 性能优异:尽管设计轻量,但其性能匹敌甚至超过了各种矩阵形状的专家调整库。

  • 易于访问:作为一个干净且易于访问的资源,DeepGEMM是学习Hopper FP8矩阵乘法和优化技术的理想选择。

  • 灵活性:支持自动选择块大小、warpgroups数量、最佳流水线阶段和TMA集群大小,以适应不同的计算需求。

DeepGemm的应用场景

DeepGEMM适用于需要高效矩阵乘法操作的场景,特别是在深度学习ai模型训练和推理中,能够显著提高计算效率和性能。

github:https://github.com/deepseek-ai/DeepGEMM

其它相关链接

1. DeepSeek开源周第二天开源项目:Deepep

2. DeepSeek开源周第一天开源项目:DeepSeek FlashMLA

收藏
最新工具
终身教育平台
终身教育平台

国家开放大学打造的免费在线学习平台,终身教育平台整合多领域优质资...

Radiocast
Radiocast

一个能听到全球广播的在线平台。界面像三维地球,点一下上面的城市或...

易纸
易纸

一个免费的在线稿纸打印工具,支持方格纸、竖线纸、毛笔字帖、作文纸...

装个机ZhuangIt
装个机ZhuangIt

一个手把手教你自己装系统、重装电脑的实用网站,提供从备份到激活的...

PinMe
PinMe

一款简单实用的去中心化部署工具,能降低个人网站和作品展示的技术门...

RoboNeo
RoboNeo

美图公司推出的 AI 视觉工具,能通过文字交流实现修图、设计、视...

JellyMario
JellyMario

一款改自经典的《超级马里奥》的网页游戏。游戏里的角色、敌人和场景...

MyAITeachers AI吾师
MyAITeachers AI吾师

一个面向 8 岁以上学习者的AI学习辅导工具,有多位 AI 老师...

Presenton
Presenton

一个可以本地运行的开源AI PPT生成器,使用OpenAI、Ge...

Eigent AI
Eigent AI

全球首个桌面端多智能体生产力平台,采用多智能体协作架构,通过拆分...