AutoArena : Évaluation automatisée de l'IA générative

AutoArena

3 | 150 | 0
Type:
Projets Open Source
Dernière mise à jour:
2025/07/08
Description:
AutoArena automatise l'évaluation des LLM et des applications GenAI à l'aide d'un jugement direct, offrant des tests rapides, précis et rentables.
Partager:

Vue d'ensemble de AutoArena

AutoArena est un outil open source conçu pour automatiser l'évaluation des grands modèles de langage (LLM), des systèmes de génération augmentée par récupération (RAG) et d'autres applications d'IA générative. Il exploite le jugement direct à l'aide de modèles de juge pour fournir des résultats fiables. Évaluez votre système d'IA générative en CI. Configurez des automatisations dans votre référentiel de code source pour bloquer les mauvaises modifications d'invite, les mises à jour de prétraitement ou de post-traitement ou les mises à jour du système RAG. Découvrez comment la dernière version de votre système se compare aux versions précédentes de votre système. Intégrez-le via un bot GitHub qui commente vos demandes d'extraction. Il prend en charge l'intégration avec divers modèles de juge d'OpenAI, Anthropic, Cohere, Google et autres, ainsi que des modèles open-weight exécutés localement via Ollama. Avec AutoArena, vous pouvez réduire les biais d'évaluation, gagner du temps et de l'argent sur les évaluations et affiner les modèles de juge pour des évaluations plus précises et spécifiques au domaine. Installez localement avec pip install autoarena.

Meilleurs outils alternatifs à "AutoArena"

PerfAgents
Image non disponible
220 0

PerfAgents est une plateforme de surveillance synthétique alimentée par l'IA qui simplifie la surveillance des applications web à l'aide de scripts d'automatisation existants. Il prend en charge Playwright, Selenium, Puppeteer et Cypress, garantissant des tests continus et des performances fiables.

surveillance synthétique
昇思MindSpore
Image non disponible
380 0

Le cadre d'IA open source MindSpore de Huawei. Différenciation automatique et parallélisation, une formation, déploiement multi-scénarios. Cadre d'entraînement et d'inférence d'apprentissage profond prenant en charge tous les scénarios du cloud côté terminal, principalement utilisé dans la vision par ordinateur, le traitement du langage naturel et d'autres domaines de l'IA, pour les scientifiques des données, les ingénieurs en algorithmes et autres personnes.

Cadre d'IA
Apprentissage profond
AmberESG
Image non disponible
275 0

Tirez le meilleur parti de vos activités liées à l'ESG avec l'abonnement AmberESG GenAI SaaS. Apprenez-en davantage sur les informations relatives à l'ESG provenant de sources publiques, créez du contenu et des campagnes liés à l'ESG.

ESG
IA
GenAI
SMSGenius
Image non disponible
320 0

SMSGenius : logiciel de marketing SMS n° 1 pour dynamiser votre entreprise, obtenir plus de clics, de prospects et de ventes grâce à l’optimisation des envois par l’IA et au suivi des conversions sans cookie. Essai gratuit disponible.

Marketing SMS
automatisation
Amanu
Image non disponible
463 0

Créez rapidement des applications Telegram pour les startups IA. Chatbots, Mini Apps et infrastructure d'IA. De l'idée au MVP en 4 semaines.

IA
Telegram
Chatbots
Helio.AI
Image non disponible
297 0

Helio.AI est une plateforme de recrutement basée sur l'IA qui automatise le filtrage des CV et le profilage des candidats pour aider les entreprises à embaucher les meilleurs talents efficacement.

Recrutement IA
Tech RH
Tradepost.ai
Image non disponible
324 0

Tradepost.ai : Intelligence de marché basée sur l'IA pour un trading plus intelligent. Analyse en temps réel de l'actualité, des newsletters et des documents SEC.

Trading IA
analyse de marché
Kapture CX
Image non disponible
395 0

Kapture CX : une plateforme d'expérience client basée sur l'IA qui transforme l'expérience client dans divers secteurs grâce au libre-service, aux chatbots d'IA et à l'assistance omnicanale.

Plateforme CX
chatbot IA
CodeSquire
Image non disponible
244 0

CodeSquire est un assistant de rédaction de code IA pour les data scientists, les ingénieurs et les analystes. Générez des complétions de code et des fonctions complètes adaptées à votre cas d'utilisation de la science des données dans Jupyter, VS Code, PyCharm et Google Colab.

complétion de code