DataChain & DVC (контроль версий данных)
DataChain — это экосистема с открытым исходным кодом вокруг DVC (Data Version Control), предназначенная для управления неструктурированными данными и рабочими процессами ИИ в масштабе. Он предоставляет данные на основе GitOps и управление экспериментами в наборах данных, коде, моделях и конвейерах. Инструментарий подчеркивает воспроизводимость, масштабируемую обработку данных и сотрудничество для проектов ML от открытого исходного кода до развертывания предприятий.
Что позволяет:
- Версирование и управление большими неструктурированными данными (изображения, аудио, видео, текст) вместе с кодом и моделями.
- Создание воспроизводимых сквозных трубопроводов, которые соединяют наборы данных, код и модели.
- Отслеживание экспериментов, запрос набора данных и захват метаданных без дублирования данных.
- Сотрудничество между командами с Git-подобными рабочими процессами и интеграцией облачных хранилищ.
Как работает DataChain и DVC
- Данные версий без копирования. Создание и версия наборов данных без дублирования данных; метаданные и ссылки отслеживаются вместо исходных данных.
- Подключите хранилище к РЕПО. Свяжите облачное хранилище с хранилищем кода, чтобы данные, модели и результаты были доступны в одном рабочем процессе.
- Объявляйте шаги и зависимости. Определите этапы трубопровода с входами / выходами для создания воспроизводимых сквозных рабочих процессов.
- Отслеживание экспериментов в Git. Сохраняйте полные состояния эксперимента, сравнивайте результаты и воспроизводите результаты в разных командах.
- Управление большими наборами данных в масштабе. Предназначен для миллиардов образцов с эффективным управлением метаданными и данными, обеспеченными хранилищем.
Основные концепции
- Git-подобная версия для данных и экспериментов
- Потоки данных, которые соединяют наборы данных, код и модели (стиль GitOps)
- Подходы, основанные на метаданных, а не на копировании данных, чтобы поддерживать масштабируемость управления данными
- Интеграция облачного хранилища для совместного использования и совместной работы
Как начать работу
- Установите DVC и его расширение VS Code для интеграции версий данных в рабочий процесс разработчика.
- Подключите ваши бэкэнды (S3, GCS, Azure и т. Д.) к вашему РЕПО.
- Создавайте наборы данных из запросов или источников данных и редактируйте их без копирования данных.
- Определите трубопроводы и проведите эксперименты, затем сравните результаты и откажитесь, если это необходимо.
- Используйте DVC Studio и связанные с ней инструменты для визуализации экспериментов и управления сотрудничеством в масштабе.
Случаи использования
- Версия миллионов файлов в облачном хранилище с принципами GitOps
- Создание воспроизводимых конвейеров ML от приема данных до обучения модели
- Экспериментальное отслеживание по командам и средам
- Обогащение наборов данных и построение семантических слоев для неструктурированных данных
Безопасность и правовые соображения
- Обеспечить конфиденциальность и соответствие данных при редактировании и совместном использовании наборов данных.
- Используйте метаданные и происхождение ответственно; избегайте раскрытия конфиденциальной информации в экспериментальных записях.
Основные характеристики
- Открытый исходный код, бесплатный и навсегда доступный
- DataVersion Control для неструктурированных данных (изображения, аудио, видео, текст) и рабочих процессов ML
- Наборы данных версий без копирования данных; вместо этого отслеживайте метаданные
- Основанные на GitOps данные, код и управление моделями
- Сквозные трубопроводы, связывающие данные, код и эксперименты
- Расширение кода VS для комплексной разработки и отслеживания экспериментов
- Интеграция облачного хранилища для хранения данных вместе с кодом
- Отслеживание экспериментов с помощью простого сравнения и воспроизводимости
- DVC Studio для понимания уровня проекта и совместной работы