新浪科技讯 2月26日上昼音书,DeepSeek开源周(OpenSourceWeek)第三日,在晓谕开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek本日再次晓谕绽开了DeepGEMM代码库。 据DeepSeek方面先容,DeepGEMM是专为任意高效的FP8通用矩阵乘法(GEMMs)而盘算,它同期撑握鄙俚的和巨匠搀杂(MoE)分组的GEMM运算。该库使用CUDA编写,在装配经过中无需编译,通过在运转时使用轻量级即时编译模块来编译统统内核。 现在,DeepGEMM仅...
新浪科技讯 2月26日上昼音书,DeepSeek开源周(OpenSourceWeek)第三日,在晓谕开源MLA解码核FlashMLA以及DeepEP两款代码库后,DeepSeek本日再次晓谕绽开了DeepGEMM代码库。
据DeepSeek方面先容,DeepGEMM是专为任意高效的FP8通用矩阵乘法(GEMMs)而盘算,它同期撑握鄙俚的和巨匠搀杂(MoE)分组的GEMM运算。该库使用CUDA编写,在装配经过中无需编译,通过在运转时使用轻量级即时编译模块来编译统统内核。
现在,DeepGEMM仅撑握英伟达Hopper架构运算,为处置FP8张量中枢累加不精确的问题,它汲取了CUDA中枢的两级累加(普及)规范。该代码库盘算特出任意,唯有一个中枢内核函数,代码量约为300行。
海量资讯、精确解读,尽在新浪财经APP
拖累裁剪:尉旖涵 开云体育