vLLM:用于LLM的高吞吐量和内存高效的推理引擎

vLLM

3.5 | 294 | 0
类型:
开源项目
最后更新:
2025/10/04
资源描述:
vLLM是一个用于LLM的高吞吐量和内存效率的推理和服务引擎,具有PagedAttention和连续批处理功能,可优化性能。
分享:
LLM推理引擎
PagedAttention
CUDA加速
模型服务
高吞吐量

vLLM 概述

vLLM: 快速且易于使用的大型语言模型服务

vLLM 是一个用于大型语言模型 (LLM) 的高吞吐量和内存效率的推理和服务引擎。最初由加州大学伯克利分校的天空计算实验室开发,现已发展成为一个由学术界和工业界共同支持的社区驱动项目。

什么是 vLLM?

vLLM 代表通用、低延迟和内存高效的大型语言模型服务。它旨在使 LLM 推理和服务更快、更易于访问。

vLLM 的主要特点

vLLM 专为速度、灵活性和易用性而设计。以下是其功能的详细介绍:

  • 最先进的服务吞吐量: vLLM 旨在最大限度地提高 LLM 服务的吞吐量,使您能够使用更少的硬件处理更多的请求。
  • 使用 PagedAttention 实现高效的内存管理: 这种创新技术有效地管理了 attention key 和 value 内存,这是 LLM 性能的关键组成部分。
  • 持续批量处理传入请求: vLLM 持续批量处理传入请求,以优化计算资源的利用率。
  • 使用 CUDA/HIP 图快速执行模型: 通过利用 CUDA/HIP 图,vLLM 确保快速执行模型。
  • 量化支持: vLLM 支持各种量化技术,如 GPTQ、AWQ、AutoRound、INT4、INT8 和 FP8,以减少内存占用并加速推理。
  • 优化的 CUDA 内核: 包括与 FlashAttention 和 FlashInfer 的集成,以增强性能。
  • 推测解码: 通过预测和预计算未来的 token 来提高 LLM 服务的速度。
  • 与 Hugging Face 模型无缝集成: vLLM 可以轻松地与 Hugging Face 的流行模型配合使用。
  • 通过各种解码算法实现高吞吐量服务: 支持并行采样、束搜索等。
  • 张量、管道、数据和专家并行: 提供各种用于分布式推理的并行策略。
  • 流式输出: 提供流式输出,以获得更具交互性的用户体验。
  • OpenAI 兼容的 API 服务器: 简化与现有系统的集成。
  • 广泛的硬件支持: 兼容 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU 和 TPU。 还支持硬件插件,如 Intel Gaudi、IBM Spyre 和 Huawei Ascend。
  • 前缀缓存支持: 通过缓存输入序列的前缀来提高性能。
  • Multi-LoRA 支持: 允许使用多个 LoRA(低秩自适应)模块。

vLLM 如何工作?

vLLM 利用几种关键技术来实现高性能:

  1. PagedAttention: 通过将 attention key 和 value 内存划分为页面来有效地管理它们,类似于操作系统中的虚拟内存管理。
  2. 持续批量处理: 将传入的请求分组为批次,以最大限度地提高 GPU 利用率。
  3. CUDA/HIP 图: 编译模型执行图以减少开销并提高性能。
  4. 量化: 通过使用较低精度的数据类型来减少模型的内存占用。
  5. 优化的 CUDA 内核: 利用高度优化的 CUDA 内核进行关键操作,如 attention 和矩阵乘法。
  6. 推测解码: 预测和预计算未来的 token 以加速解码。

如何使用 vLLM?

  1. 安装

    pip install vllm
    
  2. 快速入门

    请参阅官方文档以获取快速入门指南。

为什么选择 vLLM?

vLLM 具有几个引人注目的优势:

  • 速度: 实现最先进的服务吞吐量。
  • 效率: 使用 PagedAttention 优化内存使用。
  • 灵活性: 与 Hugging Face 模型和各种硬件平台无缝集成。
  • 易于使用: 简单的安装和设置。

vLLM 适合哪些人?

vLLM 非常适合:

  • 使用大型语言模型的研究人员和开发人员。
  • 在生产环境中部署 LLM 的组织。
  • 任何希望优化 LLM 推理的性能和效率的人。

支持的模型

vLLM 支持 Hugging Face 上最流行的开源模型,包括:

  • 类 Transformer 的 LLM(例如,Llama)
  • 混合专家 LLM(例如,Mixtral、Deepseek-V2 和 V3)
  • 嵌入模型(例如,E5-Mistral)
  • 多模态 LLM(例如,LLaVA)

在此处查找支持的模型的完整列表 here

实际价值

vLLM 通过以下方式提供重要的实际价值:

  • 降低 LLM 推理的成本。
  • 支持由 LLM 提供支持的实时应用程序。
  • 普及 LLM 技术。

结论

vLLM 是任何使用大型语言模型的人的强大工具。它的速度、效率和灵活性使其成为研究和生产部署的绝佳选择。无论您是试验新模型的研究人员,还是大规模部署 LLM 的组织,vLLM 都可以帮助您实现目标。

通过使用 vLLM,您可以实现:

  • 更快的推理: 以更低的延迟服务更多请求。
  • 更低的成本: 减少硬件需求和能源消耗。
  • 更高的可扩展性: 轻松扩展您的 LLM 部署以满足不断增长的需求。

凭借其创新功能和广泛的兼容性,vLLM 有望成为 LLM 推理和服务的领先平台。如果您正在寻找高吞吐量 LLM 服务内存效率高的 LLM 推理,请考虑 vLLM。

"vLLM"的最佳替代工具

Botpress
暂无图片
204 0

Botpress 是一个由最新 LLM 提供支持的完整 AI 代理平台。 它使您能够构建、部署和管理用于客户支持、内部自动化等的 AI 代理,并具有无缝集成功能。

AI 代理
聊天机器人
LLM
HUMAIN
暂无图片
293 0

HUMAIN 提供全栈 AI 解决方案,涵盖基础设施、数据、模型和应用。借助 HUMAIN 的 AI 原生平台,加速进步并大规模释放现实世界的影响。

全栈 AI
AI 基础设施
AI Runner
暂无图片
258 0

AI Runner是一个离线AI推理引擎,用于艺术创作、实时语音对话、LLM驱动的聊天机器人和自动化工作流程。在本地运行图像生成、语音聊天等!

离线AI
图像生成
语音聊天
Moveworks
暂无图片
234 0

Moveworks是一款自主AI助手,旨在加速企业系统的工作流程,自动化任务,提高生产力,并支持创建AI代理以提供全面的支持。

AI助手
企业自动化
AI代理
Friendli Inference
暂无图片
226 0

Friendli Inference 是最快的 LLM 推理引擎,针对速度和成本效益进行了优化,可在提供高吞吐量和低延迟的同时,将 GPU 成本降低 50-90%。

LLM 服务
GPU 优化
推理引擎
SiliconFlow
暂无图片
356 0

为开发者提供闪电般快速的AI平台。通过简单API部署、微调并运行200多个优化的LLM和大语言模型 - SiliconFlow。

LLM推理
多模态AI
模型微调
Agent TARS
暂无图片
294 0

Agent TARS 是一个开源多模态 AI 代理,无缝集成浏览器操作、命令行和文件系统,实现增强的工作流自动化。体验先进的视觉解释和复杂的推理,以高效处理任务。

浏览器自动化
多模态代理
工作流编排
SmartGPT
暂无图片
285 0

SmartGPT是一款AI工具,可将基本提示瞬间转化为ChatGPT和其他模型的专家级提示。通过自动化提示工程、归档功能和高级AI集成,提升营销、写作等领域的生产力。

提示工程
AI代理
mistral.rs
暂无图片
317 0

mistral.rs 是一个用 Rust 编写的极速 LLM 推理引擎,支持多模态工作流程和量化。提供 Rust、Python 和 OpenAI 兼容的 HTTP 服务器 API。

LLM 推理引擎
Rust
Devika AI
暂无图片
397 0

Devika AI是一个开源AI软件工程师,它可以理解高级指令,将其分解为步骤,研究相关信息,并使用Claude 3、GPT-4、GPT-3.5和本地LLM生成代码。

AI编码助手
代码生成
开源AI
Jina AI
暂无图片
333 0

Jina AI 提供一流的嵌入、重排序器、网页阅读器、深度搜索和小语言模型。适用于多语言和多模态数据的搜索 AI 解决方案。

多语言嵌入
多模态搜索
深度搜索
Spice.ai
暂无图片
347 0

Spice.ai 是一个开源数据和 AI 推理引擎,用于构建 AI 应用程序,通过 SQL 查询联合、加速、搜索和检索,扎根于企业数据。

AI 推理
数据加速
SQL 联合
Findly
暂无图片
359 0

Findly 是一款 AI 驱动的数据分析工具,利用机器学习进行数据管理、报告和可操作的商业洞察。 受到超过 8,000 名用户的信任。

数据分析
机器学习
商业智能
Fireworks AI
暂无图片
429 0

Fireworks AI 使用最先进的开源模型为生成式人工智能提供极快的推理。 免费微调和部署您自己的模型。 在全球范围内扩展 AI 工作负载。

推理引擎
开源LLM
AI 扩展