Nvidia声称新的软件库使H100 GPU上的LLM推理速度提高一倍

近日有关消息得知Nvidia英伟达公司正在推进发布名为 TensorRT-LLM 的开源软件库的计划,据称该库将使 H100 GPU 上的大规模语言模型 (LLM) 的推理速度提高一倍。TensorRT-LLM将在下个月初集成到 Nvidia 的 NeMo LLM 框架中,作为Nvidia AI Enterprise 软件套件的一部分。目前该版本为早期访问版本。Nvidia 超大规模和 HPC 副总裁 Ian Buck 表示:“通过使用最新的技术、最新的调度程序,并结合最新的优化和内核,我们将性能提高了一倍。”

“这些技术不仅提高了效率,还通过端到端优化算法来提高性能。”TensorRT-LLM 还将支持其他 Nvidia GPU,包括 A100、L4、L40、L40S 以及即将推出的 Grace Hopper Superchip(结合了 Grace CPU 和 H100)。

 

该软件库包括一个新的“飞行中批处理”调度程序,它允许任务独立于其他任务进入和退出 GPU。该库还提供自动 FP8 转换、用于内核融合的 DL 编译器、混合精度优化器等。

THE END