Friendli Inference:最快的 LLM 推理引擎,节省 90% GPU 成本

Friendli Inference

3.5 | 310 | 0
类型:
网站
最后更新:
2025/10/13
资源描述:
Friendli Inference 是最快的 LLM 推理引擎,针对速度和成本效益进行了优化,可在提供高吞吐量和低延迟的同时,将 GPU 成本降低 50-90%。
分享:
LLM 服务
GPU 优化
推理引擎
AI 加速
模型部署

Friendli Inference 概述

Friendli Inference: 最快的 LLM 推理引擎

什么是 Friendli Inference?

Friendli Inference 是一款高度优化的引擎,旨在加速大型语言模型 (LLM) 的服务,从而显著降低 50-90% 的成本。它以市场上最快的 LLM 推理引擎著称,在性能测试中优于 vLLM 和 TensorRT-LLM。

Friendli Inference 如何工作?

Friendli Inference 通过以下几项关键技术实现了其卓越的性能:

  • 迭代批处理 (Iteration Batching): 这种创新的批处理技术有效地处理并发生成请求,与传统的批处理相比,LLM 推理吞吐量提高了多达数十倍,同时保持了相同的延迟要求。它受到美国、韩国和中国的专利保护。
  • DNN 库: Friendli DNN 库包含一组专门为生成式 AI 设计的优化 GPU 内核。该库支持各种张量形状和数据类型的更快的 LLM 推理,并支持量化、专家混合 (MoE) 和 LoRA 适配器。
  • Friendli TCache: 这种智能缓存系统识别并存储常用的计算结果,通过利用缓存的结果来减少 GPU 上的工作负载。
  • 推测解码 (Speculative Decoding): Friendli Inference 原生支持推测解码,这是一种优化技术,通过在生成当前 token 的同时并行地对未来的 token 进行有根据的猜测,从而加速 LLM/LMM 推理。这确保了以一小部分推理时间获得相同的模型输出。

主要特性和优势

  • 显著的成本节省: 降低 50-90% 的 LLM 服务成本。
  • 多 LoRA 服务: 在更少的 GPU 上(甚至单个 GPU 上)同时支持多个 LoRA 模型。
  • 广泛的模型支持: 支持各种生成式 AI 模型,包括量化模型和 MoE。
  • 突破性的性能
    • 所需的 GPU 数量最多减少 6 倍。
    • 吞吐量最多提高 10.7 倍。
    • 延迟最多降低 6.2 倍。

亮点

  • 在单个 GPU 上运行量化的 Mixtral 8x7B: Friendli Inference 可以在单个 NVIDIA A100 80GB GPU 上运行量化的 Mixtral-7x8B-instruct v0.1 模型,与基线 vLLM 系统相比,响应时间至少快 4.1 倍,token 吞吐量高 3.8 倍 ~ 23.8 倍。
  • 在单个 GPU 上量化 Llama 2 70B: 在单个 A100 80 GB GPU 上无缝运行 AWQ-ed LLM,例如 Llama 2 70B 4-bit,从而实现高效的 LLM 部署和卓越的效率提升,而不会牺牲准确性。
  • 使用 Friendli TCache 实现更快的 TTFT: Friendli TCache 通过重用重复计算来优化首次 token 时间 (TTFT),与 vLLM 相比,TTFT 速度提高了 11.3 倍到 23 倍。

如何使用 Friendli Inference

Friendli Inference 提供三种运行生成式 AI 模型的方式:

  1. Friendli 专用端点: 在自动驾驶仪上构建和运行生成式 AI 模型。
  2. Friendli 容器: 在您的私有环境中通过 Friendli Inference 提供 LLM 和 LMM 推理服务。
  3. Friendli Serverless 端点: 调用快速且经济实惠的 API 来获取开源生成式 AI 模型。

为什么选择 Friendli Inference?

对于希望优化其 LLM 推理工作负载的性能和成本效益的组织而言,Friendli Inference 是理想的解决方案。其创新技术和广泛的功能使其成为部署和扩展生成式 AI 模型的强大工具。

Friendli Inference 适合哪些人?

Friendli Inference 适用于:

  • 部署大型语言模型的企业。
  • 从事生成式 AI 研究的研究人员。
  • 构建 AI 驱动应用程序的开发人员。

优化 LLM 推理的最佳方法?

优化 LLM 推理的最佳方法是使用 Friendli Inference,与其他解决方案相比,它可以显著节省成本、提高吞吐量并降低延迟。

"Friendli Inference"的最佳替代工具

SiliconFlow
暂无图片
469 0

为开发者提供闪电般快速的AI平台。通过简单API部署、微调并运行200多个优化的LLM和大语言模型 - SiliconFlow。

LLM推理
多模态AI
模型微调
Xander
暂无图片
350 0

Xander是一个开源桌面平台,支持无代码AI模型训练。只需用自然语言描述任务,即可自动化文本分类、图像分析和LLM微调流程,在本地机器上确保隐私和性能。

无代码ML
模型训练
LLM微调
HUMAIN
暂无图片
396 0

HUMAIN 提供全栈 AI 解决方案,涵盖基础设施、数据、模型和应用。借助 HUMAIN 的 AI 原生平台,加速进步并大规模释放现实世界的影响。

全栈 AI
AI 基础设施
mistral.rs
暂无图片
461 0

mistral.rs 是一个用 Rust 编写的极速 LLM 推理引擎,支持多模态工作流程和量化。提供 Rust、Python 和 OpenAI 兼容的 HTTP 服务器 API。

LLM 推理引擎
Rust
Fireworks AI
暂无图片
510 0

Fireworks AI 使用最先进的开源模型为生成式人工智能提供极快的推理。 免费微调和部署您自己的模型。 在全球范围内扩展 AI 工作负载。

推理引擎
开源LLM
AI 扩展
vLLM
暂无图片
414 0

vLLM是一个用于LLM的高吞吐量和内存效率的推理和服务引擎,具有PagedAttention和连续批处理功能,可优化性能。

LLM推理引擎
Nebius
暂无图片
268 0

Nebius 是一个旨在普及 AI 基础设施的 AI 云平台,提供灵活的架构、经过测试的性能和长期价值,配备 NVIDIA GPU 和优化的集群,用于训练和推理。

AI云平台
GPU计算
Float16.Cloud
暂无图片
318 0

Float16.Cloud提供无服务器GPU,以实现快速AI开发。无需设置即可立即运行、训练和扩展AI模型。具有H100 GPU、按秒计费和Python执行功能。

无服务器GPU
AI模型部署
Deep Infra
暂无图片
21 0

Deep Infra 是一个低成本、可扩展的 AI 推理平台,支持 100 多个 ML 模型,如 DeepSeek-V3.2、Qwen 和 OCR 工具。提供开发者友好 API、GPU 租赁、零数据保留和美国安全基础设施,用于生产 AI 工作负载。

AI推理API
模型托管
GPU租赁
Baseten
暂无图片
189 0

Baseten 是一个用于在生产环境中部署和扩展 AI 模型的平台。它提供高性能的模型运行时、跨云高可用性和无缝的开发者工作流程,由 Baseten 推理堆栈提供支持。

AI模型部署
推理
无服务器AI
CHAI AI
暂无图片
195 0

CHAI AI是一个领先的对话式AI平台,专注于生成式AI模型的研究和开发。它为构建和部署社交AI应用程序提供工具和基础设施,强调用户反馈和激励。

对话式AI平台
LLM部署
社交AI
ThirdAI
暂无图片
329 0

ThirdAI 是一个在 CPU 上运行的 GenAI 平台,提供具有增强的安全性、可扩展性和性能的企业级 AI 解决方案。它简化了 AI 应用程序的开发,减少了对专用硬件和技能的需求。

CPU上的GenAI
企业AI
Mercury
暂无图片
279 0

Inception 公司的 Mercury,适用于 AI 应用的最快 diffusion LLM。以极快的推理速度和前沿的质量为尖端的编码、语音、搜索和代理提供动力。

扩散 LLM
AI 编码
低延迟
QSC Cloud
暂无图片
410 0

QSC Cloud提供顶级的NVIDIA GPU云集群,用于AI、深度学习和HPC工作负载,具有全球GPU连接。

GPU云
AI基础设施
深度学习