DeepSeek vừa đưa DeepGEMM, thư viện phép toán ma trận mã nguồn mở, vào một merge request mới với các tính năng như Mega MoE và FP4 Indexer, theo nội dung ghi chú phát hành công khai 26/04.
Bản cập nhật gộp các bước dispatch, linear1/SwiGLU/linear2 và combine trong MoE thành một mega-kernel, đồng thời tối ưu chồng lấp giữa truyền thông NVLink và tính toán tensor core.
DeepGEMM hiện chỉ hỗ trợ FP8 x FP4 MoE, EP≤8 và yêu cầu PyTorch≥2.9. Bản này cũng bổ sung FP4 Indexer cho MQA logits, FP8 x FP4 GEMM, PDL và bố cục DeepEPv2 MoE GEMM.
Nhóm phát triển cho biết họ còn tối ưu heuristic và kernel của GEMM, tăng tốc biên dịch JIT, đồng thời sửa các lỗi như JIT crash và treo một phần kernel khi chạy trên hệ thống tệp phân tán. Bản phát hành này chỉ liên quan đến phát triển DeepGEMM, không phải bản phát hành mô hình nội bộ.


