LAION — крупномасштабная открытая сеть искусственного интеллекта
LAION является 100% некоммерческой, 100% свободной организацией, которая предоставляет наборы данных, инструменты и модели для освобождения исследований машинного обучения. Содействуя открытому государственному образованию и поощряя экологически чистое использование ресурсов путем повторного использования существующих наборов данных и моделей, LAION стремится снизить барьеры для высококачественных исследований и разработок ИИ.
Основные наборы данных и модели включают:
- LAION-400M — открытый набор данных, содержащий 400 миллионов пар изображений и текста на английском языке.
- LAION-5B: набор данных, содержащий 5,85 млрд многоязычных пар изображения и текста, предназначенный для широкой многоязычной поддержки.
- Clip H/14: одна из крупнейших моделей трансформатора зрения CLIP (Contrastive Language-Image Pre-training).
- LAION-Aesthetics: подмножество LAION-5B, отфильтрованное моделью, обученной набирать эстетически приятные изображения.
- Релиз Re-LAION 5B (30.08.2024): обновленный выпуск набора данных LAION-5B с обновленным курированием.
Как это работает
LAION предоставляет открытый доступ к крупномасштабным наборам данных изображений и моделей искусственного интеллекта, чтобы позволить исследователям обучать и оценивать мультимодальные модели. Ресурсы предназначены для многоразового использования, совместимости и свободного доступа для обеспечения прозрачности и воспроизводимости в исследованиях.
Безопасность и этические соображения
- Как и в случае с большими общедоступными наборами данных, пользователи должны учитывать лицензирование, согласие, конфиденциальность и потенциальные предубеждения в данных при использовании ресурсов LAION для исследований или развертывания.
Основные характеристики
- 100% некоммерческий и бесплатный доступ к наборам данных и моделям
- Масштабные многоязычные наборы данных изображения-текста (LAION-400M, LAION-5B и др.)
- Модели языка зрения на основе CLIP (например, Clip H/14)
- Aesthetic-filtered data subset (лайон-эстетика)
- Повторное использование существующих наборов данных и моделей для сохранения ресурсов
- Открытый доступ к наборам данных и инструментам для поддержки исследований и образования
- Прозрачное управление и лицензирование для содействия воспроизводимости