AutoArena : Évaluation automatisée de l'IA générative

AutoArena

3 | 82 | 0
Type:
Projets Open Source
Dernière mise à jour:
2025/07/08
Description:
AutoArena automatise l'évaluation des LLM et des applications GenAI à l'aide d'un jugement direct, offrant des tests rapides, précis et rentables.
Partager:

Présentation de l’outil

AutoArena est un outil open source conçu pour automatiser l'évaluation des grands modèles de langage (LLM), des systèmes de génération augmentée par récupération (RAG) et d'autres applications d'IA générative. Il exploite le jugement direct à l'aide de modèles de juge pour fournir des résultats fiables. Évaluez votre système d'IA générative en CI. Configurez des automatisations dans votre référentiel de code source pour bloquer les mauvaises modifications d'invite, les mises à jour de prétraitement ou de post-traitement ou les mises à jour du système RAG. Découvrez comment la dernière version de votre système se compare aux versions précédentes de votre système. Intégrez-le via un bot GitHub qui commente vos demandes d'extraction. Il prend en charge l'intégration avec divers modèles de juge d'OpenAI, Anthropic, Cohere, Google et autres, ainsi que des modèles open-weight exécutés localement via Ollama. Avec AutoArena, vous pouvez réduire les biais d'évaluation, gagner du temps et de l'argent sur les évaluations et affiner les modèles de juge pour des évaluations plus précises et spécifiques au domaine. Installez localement avec pip install autoarena.

Liens Similaires

昇思MindSpore
Image non disponible
184 0

Le cadre d'IA open source MindSpore de Huawei. Différenciation automatique et parallélisation, une formation, déploiement multi-scénarios. Cadre d'entraînement et d'inférence d'apprentissage profond prenant en charge tous les scénarios du cloud côté terminal, principalement utilisé dans la vision par ordinateur, le traitement du langage naturel et d'autres domaines de l'IA, pour les scientifiques des données, les ingénieurs en algorithmes et autres personnes.

Cadre d'IA
Apprentissage profond
AmberESG
Image non disponible
105 0

Tirez le meilleur parti de vos activités liées à l'ESG avec l'abonnement AmberESG GenAI SaaS. Apprenez-en davantage sur les informations relatives à l'ESG provenant de sources publiques, créez du contenu et des campagnes liés à l'ESG.

ESG
IA
GenAI
SMSGenius
Image non disponible
130 0

SMSGenius : logiciel de marketing SMS n° 1 pour dynamiser votre entreprise, obtenir plus de clics, de prospects et de ventes grâce à l’optimisation des envois par l’IA et au suivi des conversions sans cookie. Essai gratuit disponible.

Marketing SMS
automatisation
Amanu
Image non disponible
158 0

Créez rapidement des applications Telegram pour les startups IA. Chatbots, Mini Apps et infrastructure d'IA. De l'idée au MVP en 4 semaines.

IA
Telegram
Chatbots
LlamaIndex
Image non disponible
120 0

LlamaIndex est un cadre flexible pour construire des assistants de connaissances utilisant des LLM connectés aux données d'entreprise, permettant un déploiement rapide de solutions alimentées par l'IA.

LLM
gestion des connaissances
Form2Agent AI
Image non disponible
126 0

Améliorez votre application avec Form2Agent AI, une solution d'IA assistée par la voix qui améliore l'expérience utilisateur et garantit une saisie de données précise et une manipulation de contenu avec support pour le texte, la voix et les fichiers, s'intégrant facilement dans votre application web ou mobile existante.

IA
Assistance vocale
Helio.AI
Image non disponible
97 0

Helio.AI est une plateforme de recrutement basée sur l'IA qui automatise le filtrage des CV et le profilage des candidats pour aider les entreprises à embaucher les meilleurs talents efficacement.

Recrutement IA
Tech RH
Quick Snack
Image non disponible
188 1

Quick Snack vous permet de créer des applications React Native en parlant à un assistant LLM/IA. Il est construit sur Expo Snack.

IA
React Native
RecurseChat
Image non disponible
122 0

RecurseChat : Une application d'IA personnelle pour discuter avec l'IA locale, compatible hors ligne, et discuter avec PDF/markdown.

Chat IA
LLM local
IA hors ligne