-   
您的当前位置:比特币平台-比特币今日价格-比特币交易平台排名 > > deepseek ai开源周3/5:开源deepgemm通用矩阵乘法库提高效率 正文

deepseek ai开源周3/5:开源deepgemm通用矩阵乘法库提高效率-比特币平台-比特币今日价格-比特币交易平台排名

来源:比特币平台-比特币今日价格-比特币交易平台排名 编辑:百科 时间:2025-03-16 19:56:09

deepseek ai 开源周目前进行到了第三天,今天 deepseek 开源名为 deepgemm 的通用矩阵乘法库 (gemm),专门为英伟达 hopper gpu 上的 ai 训练和推理任务设计。

deepgemm 是一个为清洁和高效的 fp8 gemm 设计的开源库,fp8 是一种低精度格式,提供比传统 fp32 或 fp16 更高的计算吞吐量和更低的内存使用,这对大型 ai 模型至关重要,尤其是设计矩阵乘法的任务。

这个开源库支持普通和混合专家 (moe) 分组 gemm,同时也适用于多种 ai 架构,deepseek 开源的这些基本都已经在自家模型中使用,属于经过测试和验证后再开源的产品。

deepseek ai开源周3/5:开源deepgemm通用矩阵乘法库提高效率

在 github 中 deepseek 也对 deepgemm 进行了详细说明:

deepgemm 的实现以简单性和效率而著称,使用 cuda 编写利用 nvidia 的 gpu 编程模型,通过轻量级即时编译模块在运行时编译所有内核,无需在安装旗舰进行编译,这个特点让 deepgemm 可以根据特定硬件和输入大小生成高度优化的代码从而提高性能。

这个开源库借鉴了开源项目 cutlass 和 cute 的概念,但避免了依赖于这些项目的复杂模板或代数,相反 deepgemm 设计简单,核心内核函数大约在 300 行左右,从而提高简洁和易用性。

支持多种不同的布局:

deepgemm 还支持密集布局和两种 moe 布局,适用于标准矩阵乘法和专门的 moe 架构,这些架构被用于大型语音模型中以高效处理稀疏数据。

deepgemm 的性能在各种矩阵形状上匹配或超过专家优化库,这对仅 300 行代码的开源库来说是个巨大成就,专家优化内核通常通过技术如循环展开和分块手工优化,针对特定硬件设计,而 deepgemm 使用双极累积解决 fp8 精度问题,确保计算的准确性从而提高模型性能。

有兴趣的开发者可以通过 github 获取代码:https://github.com/deepseek-ai/deepgemm

上一篇:
下一篇:

相关文章:

相关推荐:

栏目分类
最新文章
热门文章

2.6537s , 14263.6015625 kb

比特币交易平台排名 copyright © 2025 powered by deepseek ai开源周3/5:开源deepgemm通用矩阵乘法库提高效率,比特币平台-比特币今日价格-比特币交易平台排名  

sitemap

top
网站地图