打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
NVIDIA推出TensorRT-LLM运算框架,可带来8倍大型语言模型推论性能
userphoto

2023.09.10 陕西

关注

TensorRT-LLM能够支持多种大型语言模型,并在新一代软硬件整合的助力下,可带来8倍AI推论性能。

软硬件双管齐下

NVIDIA预测大型语言模型(Large Language Model,以下简称LLM)的应用将沿伸至各行各业,其技术发展也相当快速,不过随着模型的体量持续扩大,AI模型的部署也变的更加复杂,且需花费更多运算资源进行推论。

为了改善这个状况,NVIDIA推出TensorRT-LLM运算框架,它具有高度优化与开源等特性,并支持GPT-3、Llama、Flacon 180B、BLOOM等LLM,以及SmoothQuant、FlashAttention、fMHA等AI核心(AI Kernel)。

此外TensorRT-LLM也支持多GPU、多节点运算,并导入能够优化工作排程的In-Flight Batching技术,还能通过Transformer引擎自动将模型转换为FP8文件格式,都对性能表现有所帮助。

NVIDIA 预测金融、医疗、零售、电商、媒体、娱乐、制造、能源等产业都会导入大型语言模型(Large Language Model,LLM)。

大型语言模型的发展相当快速,然而也面临部署更复杂、运算更吃资源等问题。

TensorRT-LLM是款高度优化的开源运算框架。

它支持多种LLM,并可支持多GPU、多节点运算,以及工作排程、文件格式优化。

根据NVIDIA提供的数据,H100 GPU搭配TensorRT-LLM能带来8倍于A100 GPU的GPT-J 6B推论性能表现。至于Llama 2部分,H100 GPU搭配TensorRT-LLM则能带来4.6倍于A100 GPU的推论性能。

虽然说上述性能数据所使用的GPU属于不同迭代产品,但看到。H100 GPU搭配TensorRT-LLM与单纯使用H100,也能带来大概1倍的性能提升,可见其软件优化还是能带来不错的性能进步。

本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
H100推理飙升8倍!英伟达官宣开源TensorRT-LLM,支持10 模型
英伟达开源TensorRT-LLM,可优化类ChatGPT开源模型!
教主黄仁勋亮相GTC China:英伟达已售出15亿块GPU!重磅发布TensorRT 7
医学AI部署探索,“推理效率”将成为下一个角斗场?
英伟达系列芯片如何应用于智能汽车开发看这两篇文章就够了(一)
全球AI大爆发,Nvidia赢麻了,3个月涨了2万亿
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服