vLLM 概述
vLLM: 快速且易于使用的大型语言模型服务
vLLM 是一个用于大型语言模型 (LLM) 的高吞吐量和内存效率的推理和服务引擎。最初由加州大学伯克利分校的天空计算实验室开发,现已发展成为一个由学术界和工业界共同支持的社区驱动项目。
什么是 vLLM?
vLLM 代表通用、低延迟和内存高效的大型语言模型服务。它旨在使 LLM 推理和服务更快、更易于访问。
vLLM 的主要特点
vLLM 专为速度、灵活性和易用性而设计。以下是其功能的详细介绍:
- 最先进的服务吞吐量: vLLM 旨在最大限度地提高 LLM 服务的吞吐量,使您能够使用更少的硬件处理更多的请求。
- 使用 PagedAttention 实现高效的内存管理: 这种创新技术有效地管理了 attention key 和 value 内存,这是 LLM 性能的关键组成部分。
- 持续批量处理传入请求: vLLM 持续批量处理传入请求,以优化计算资源的利用率。
- 使用 CUDA/HIP 图快速执行模型: 通过利用 CUDA/HIP 图,vLLM 确保快速执行模型。
- 量化支持: vLLM 支持各种量化技术,如 GPTQ、AWQ、AutoRound、INT4、INT8 和 FP8,以减少内存占用并加速推理。
- 优化的 CUDA 内核: 包括与 FlashAttention 和 FlashInfer 的集成,以增强性能。
- 推测解码: 通过预测和预计算未来的 token 来提高 LLM 服务的速度。
- 与 Hugging Face 模型无缝集成: vLLM 可以轻松地与 Hugging Face 的流行模型配合使用。
- 通过各种解码算法实现高吞吐量服务: 支持并行采样、束搜索等。
- 张量、管道、数据和专家并行: 提供各种用于分布式推理的并行策略。
- 流式输出: 提供流式输出,以获得更具交互性的用户体验。
- OpenAI 兼容的 API 服务器: 简化与现有系统的集成。
- 广泛的硬件支持: 兼容 NVIDIA GPU、AMD CPU 和 GPU、Intel CPU 和 GPU、PowerPC CPU 和 TPU。 还支持硬件插件,如 Intel Gaudi、IBM Spyre 和 Huawei Ascend。
- 前缀缓存支持: 通过缓存输入序列的前缀来提高性能。
- Multi-LoRA 支持: 允许使用多个 LoRA(低秩自适应)模块。
vLLM 如何工作?
vLLM 利用几种关键技术来实现高性能:
- PagedAttention: 通过将 attention key 和 value 内存划分为页面来有效地管理它们,类似于操作系统中的虚拟内存管理。
- 持续批量处理: 将传入的请求分组为批次,以最大限度地提高 GPU 利用率。
- CUDA/HIP 图: 编译模型执行图以减少开销并提高性能。
- 量化: 通过使用较低精度的数据类型来减少模型的内存占用。
- 优化的 CUDA 内核: 利用高度优化的 CUDA 内核进行关键操作,如 attention 和矩阵乘法。
- 推测解码: 预测和预计算未来的 token 以加速解码。
如何使用 vLLM?
安装:
pip install vllm
快速入门:
请参阅官方文档以获取快速入门指南。
为什么选择 vLLM?
vLLM 具有几个引人注目的优势:
- 速度: 实现最先进的服务吞吐量。
- 效率: 使用 PagedAttention 优化内存使用。
- 灵活性: 与 Hugging Face 模型和各种硬件平台无缝集成。
- 易于使用: 简单的安装和设置。
vLLM 适合哪些人?
vLLM 非常适合:
- 使用大型语言模型的研究人员和开发人员。
- 在生产环境中部署 LLM 的组织。
- 任何希望优化 LLM 推理的性能和效率的人。
支持的模型
vLLM 支持 Hugging Face 上最流行的开源模型,包括:
- 类 Transformer 的 LLM(例如,Llama)
- 混合专家 LLM(例如,Mixtral、Deepseek-V2 和 V3)
- 嵌入模型(例如,E5-Mistral)
- 多模态 LLM(例如,LLaVA)
在此处查找支持的模型的完整列表 here。
实际价值
vLLM 通过以下方式提供重要的实际价值:
- 降低 LLM 推理的成本。
- 支持由 LLM 提供支持的实时应用程序。
- 普及 LLM 技术。
结论
vLLM 是任何使用大型语言模型的人的强大工具。它的速度、效率和灵活性使其成为研究和生产部署的绝佳选择。无论您是试验新模型的研究人员,还是大规模部署 LLM 的组织,vLLM 都可以帮助您实现目标。
通过使用 vLLM,您可以实现:
- 更快的推理: 以更低的延迟服务更多请求。
- 更低的成本: 减少硬件需求和能源消耗。
- 更高的可扩展性: 轻松扩展您的 LLM 部署以满足不断增长的需求。
凭借其创新功能和广泛的兼容性,vLLM 有望成为 LLM 推理和服务的领先平台。如果您正在寻找高吞吐量 LLM 服务或内存效率高的 LLM 推理,请考虑 vLLM。
"vLLM"的最佳替代工具


古诺斯语翻译器是一款AI驱动的工具,用于在古诺斯语和现代北欧语言(如瑞典语、丹麦语、挪威语、冰岛语和法罗语)之间进行翻译。 非常适合研究、学习和创意项目。


Deployo 简化了 AI 模型部署,可在几分钟内将模型转化为可用于生产的应用程序。与云无关、安全且可扩展的 AI 基础设施,可实现轻松的机器学习工作流程。

mistral.rs 是一个用 Rust 编写的极速 LLM 推理引擎,支持多模态工作流程和量化。提供 Rust、Python 和 OpenAI 兼容的 HTTP 服务器 API。

