vLLM:用于LLM的高吞吐量和内存高效的推理引擎

vLLM

3.5 | 18 | 0
类型:
开源项目
最后更新:
2025/10/04
资源描述:
vLLM是一个用于LLM的高吞吐量和内存效率的推理和服务引擎,具有PagedAttention和连续批处理功能,可优化性能。
分享:
LLM推理引擎
PagedAttention
CUDA加速
模型服务
高吞吐量

vLLM 概述

vLLM: 快速且易于使用的大型语言模型服务

vLLM 是一个用于大型语言模型 (LLM) 的高吞吐量和内存效率的推理和服务引擎。最初由加州大学伯克利分校的天空计算实验室开发,现已发展成为一个由学术界和工业界共同支持的社区驱动项目。

什么是 vLLM?

vLLM 代表通用、低延迟和内存高效的大型语言模型服务。它旨在使 LLM 推理和服务更快、更易于访问。

vLLM 的主要特点

vLLM 专为速度、灵活性和易用性而设计。以下是其功能的详细介绍:

  • 最先进的服务吞吐量: vLLM 旨在最大限度地提高 LLM 服务的吞吐量,使您能够使用更少的硬件处理更多的请求。
  • 使用 PagedAttention 实现高效的内存管理: 这种创新技术有效地管理了 attention key 和 value 内存,这是 LLM 性能的关键组成部分。
  • 持续批量处理传入请求: vLLM 持续批量处理传入请求,以优化计算资源的利用率。
  • 使用 CUDA/HIP 图快速执行模型: 通过利用 CUDA/HIP 图,vLLM 确保快速执行模型。
  • 量化支持: vLLM 支持各种量化技术,如 GPTQ、AWQ、AutoRound、INT4、INT8 和 FP8,以减少内存占用并加速推理。
  • 优化的 CUDA 内核: 包括与 FlashAttention 和 FlashInfer 的集成,以增强性能。
  • 推测解码: 通过预测和预计算未来的 token 来提高 LLM 服务的速度。
  • 与 Hugging Face 模型无缝集成: vLLM 可以轻松地与 Hugging Face 的流行模型配合使用。
  • 通过各种解码算法实现高吞吐量服务: 支持并行采样、束搜索等。
  • 张量、管道、数据和专家并行: 提供各种用于分布式推理的并行策略。
  • 流式输出: 提供流式输出,以获得更具交互性的用户体验。
  • OpenAI 兼容的 API 服务器: 简化与现有系统的集成。
  • 广泛的硬件支持: 兼容 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU 和 TPU。 还支持硬件插件,如 Intel Gaudi、IBM Spyre 和 Huawei Ascend。
  • 前缀缓存支持: 通过缓存输入序列的前缀来提高性能。
  • Multi-LoRA 支持: 允许使用多个 LoRA(低秩自适应)模块。

vLLM 如何工作?

vLLM 利用几种关键技术来实现高性能:

  1. PagedAttention: 通过将 attention key 和 value 内存划分为页面来有效地管理它们,类似于操作系统中的虚拟内存管理。
  2. 持续批量处理: 将传入的请求分组为批次,以最大限度地提高 GPU 利用率。
  3. CUDA/HIP 图: 编译模型执行图以减少开销并提高性能。
  4. 量化: 通过使用较低精度的数据类型来减少模型的内存占用。
  5. 优化的 CUDA 内核: 利用高度优化的 CUDA 内核进行关键操作,如 attention 和矩阵乘法。
  6. 推测解码: 预测和预计算未来的 token 以加速解码。

如何使用 vLLM?

  1. 安装

    pip install vllm
    
  2. 快速入门

    请参阅官方文档以获取快速入门指南。

为什么选择 vLLM?

vLLM 具有几个引人注目的优势:

  • 速度: 实现最先进的服务吞吐量。
  • 效率: 使用 PagedAttention 优化内存使用。
  • 灵活性: 与 Hugging Face 模型和各种硬件平台无缝集成。
  • 易于使用: 简单的安装和设置。

vLLM 适合哪些人?

vLLM 非常适合:

  • 使用大型语言模型的研究人员和开发人员。
  • 在生产环境中部署 LLM 的组织。
  • 任何希望优化 LLM 推理的性能和效率的人。

支持的模型

vLLM 支持 Hugging Face 上最流行的开源模型,包括:

  • 类 Transformer 的 LLM(例如,Llama)
  • 混合专家 LLM(例如,Mixtral、Deepseek-V2 和 V3)
  • 嵌入模型(例如,E5-Mistral)
  • 多模态 LLM(例如,LLaVA)

在此处查找支持的模型的完整列表 here

实际价值

vLLM 通过以下方式提供重要的实际价值:

  • 降低 LLM 推理的成本。
  • 支持由 LLM 提供支持的实时应用程序。
  • 普及 LLM 技术。

结论

vLLM 是任何使用大型语言模型的人的强大工具。它的速度、效率和灵活性使其成为研究和生产部署的绝佳选择。无论您是试验新模型的研究人员,还是大规模部署 LLM 的组织,vLLM 都可以帮助您实现目标。

通过使用 vLLM,您可以实现:

  • 更快的推理: 以更低的延迟服务更多请求。
  • 更低的成本: 减少硬件需求和能源消耗。
  • 更高的可扩展性: 轻松扩展您的 LLM 部署以满足不断增长的需求。

凭借其创新功能和广泛的兼容性,vLLM 有望成为 LLM 推理和服务的领先平台。如果您正在寻找高吞吐量 LLM 服务内存效率高的 LLM 推理,请考虑 vLLM。

"vLLM"的最佳替代工具

Groq
暂无图片
222 0

Groq 提供硬件和软件平台(LPU 推理引擎),用于快速、高质量且节能的 AI 推理。 GroqCloud 为 AI 应用提供云端和本地解决方案。

AI 推理
LPU
Old Norse Translator
暂无图片
465 0

古诺斯语翻译器是一款AI驱动的工具,用于在古诺斯语和现代北欧语言(如瑞典语、丹麦语、挪威语、冰岛语和法罗语)之间进行翻译。 非常适合研究、学习和创意项目。

古诺斯语
北欧语言
AI翻译
Predibase
暂无图片
201 0

Predibase 是一个开发者平台,用于微调和部署开源 LLM。通过端到端训练和服务基础设施,实现无与伦比的准确性和速度,并具有强化微调功能。

LLM
微调
模型服务
Deployo
暂无图片
252 0

Deployo 简化了 AI 模型部署,可在几分钟内将模型转化为可用于生产的应用程序。与云无关、安全且可扩展的 AI 基础设施,可实现轻松的机器学习工作流程。

AI部署
MLOps
模型服务
mistral.rs
暂无图片
38 0

mistral.rs 是一个用 Rust 编写的极速 LLM 推理引擎,支持多模态工作流程和量化。提供 Rust、Python 和 OpenAI 兼容的 HTTP 服务器 API。

LLM 推理引擎
Rust
MindPal
暂无图片
262 0

使用 MindPal 构建您的 AI 劳动力。通过 AI 代理和多代理工作流自动化数千个任务,以提高内部生产力、潜在客户开发或盈利。

AI自动化
工作流自动化
AI代理
Chattysun
暂无图片
136 0

Chattysun 为电子商务和在线业务提供易于实施的 AI 聊天机器人,提供定制 AI、完全可见性和 24/7 客户服务。

AI 聊天机器人
客户支持