AutoArena это автоматизированная платформа оценки голова к голове для генеративных приложений ИИ. Он позволяет проводить бенчмаркинг LLM, RAG-систем и других моделей ИИ, организуя ответы моделей судей в попарных сравнениях, производя надежные сигналы, таблицы лидеров и готовые к CI идеи. Он поддерживает многомодельное судейство от основных поставщиков, а также модели судей с открытым весом, локальные пробежки и масштабируемую параллельную оценку. Инструмент фокусируется на снижении предвзятости оценки, повышении точности согласования предпочтений человека и оптимизации интеграции в рабочие процессы развития.
Как работает AutoArena
- Проводите оценки между парами моделей с использованием моделей судей (от OpenAI, Anthropic, Cohere, Google, Together AI и т. Д.) или судей с открытым весом, работающих на местном уровне (через Ollama).
- Собирайте голоса или предпочтения из моделей судей и человеческих ресурсов для получения надежных сигналов.
- Вычислите баллы Эло и доверительные интервалы для формирования рейтинга в таблице лидеров.
- Используйте параллелизацию, рандомизацию, коррекцию смещения, логику повторения и ограничение скорости для обеспечения надежных результатов.
- Интегрируйте выходы в рабочие процессы и панели инструментов CI для сравнения версий системы с течением времени.
Случаи использования
- Сравните несколько поколений системы, чтобы определить лучшую версию.
- Улучшить согласование человеческих предпочтений с конкретными настроенными судьями.
- Проведение непрерывных оценок в CI для защиты от регрессий.
- Сохраняйте таблицу лидеров вариантов моделей для быстрого принятия решений.
Как использовать AutoArena
- Установите локально:
pip install autoarenaначните тестирование в считанные секунды. - Используйте AutoArena Cloud на сайте autoarena.app для совместной работы.
- Соедините модели судей из разных семей или управляйте судьями с открытым весом на местном уровне через Ollama.
- Настройте автоматизацию CI для тестирования подсказок, предварительной обработки, постобработки и обновлений RAG.
- Кормовые входы (подсказки) и сбор выходов для оценки, а затем обзор результатов и рейтингов.
Цены
- Apache-2.0 лицензировал приложение AutoArena для студентов, исследователей, любителей и некоммерческих организаций. Самостоятельный вариант через
pip install autoarena. - Профессионал: 60 долларов на пользователя в месяц. Облачный доступ к настроенным моделям судей с более высокой точностью голосования, двухнедельный бесплатный судебный процесс, выделенная поддержка Slack.
- Enterprise: локальное развертывание (AWS/GCP/Azure или частное), SSO, приоритетные функции, выделенная поддержка и выставление счетов предприятиям.
Начало работы
- Установите локально:
pip install autoarenaи беги. - Зарегистрируйтесь в AutoArena Cloud на сайте autoarena.app.
- Выберите модели судей для разных поставщиков или разместите судей с открытым весом на местном уровне.
- Начните оценку головы к голове и просмотрите таблицы лидеров на основе Elo.
Безопасность и лучшие практики
- Используйте различные семьи судейской модели, чтобы уменьшить предвзятость.
- Объедините автоматические голоса с человеческими предпочтениями для надежных сигналов.
- Интегрируйтесь в CI, чтобы рано поймать регрессию.
Основные характеристики
- Оценка голова к голове в нескольких моделях судей (закрытый и открытый вес) для сравнения систем ИИ
- Эло-доска лидеров с доверительными интервалами для надежного ранжирования
- Параллелизация, рандомизация, коррекция смещений, повторная обработка и ограничение скорости, управляемые AutoArena
- Поддержка интеграции CI и автоматизации рабочих процессов
- Варианты локального и облачного развертывания (самостоятельно размещенные через pip и облако на сайте autoarena.app)
- Модели судей тонкой настройки для оценки конкретных областей для улучшения качества сигнала