Определенный ИИ: распределенная платформа глубокого обучения и настройки гиперпараметров это платформа с открытым исходным кодом, предназначенная для ускорения исследований и производства в области глубокого обучения путем обеспечения распределенного обучения модели, масштабируемой оптимизации гиперпараметров и комплексного отслеживания экспериментов. Он абстрагирует сложность инфраструктуры, позволяя командам тренироваться в масштабе без изменения их модельного кода, обеспечивая при этом надежное управление ресурсами, отказоустойчивость и воспроизводимость.
Обзор
- Обеспечивает распределенное обучение без необходимости изменения кода. Автоматически обеспечивает машины, обрабатывает сети, загрузку данных и отказоустойчивость.
- Встроенная масштабируемая настройка гиперпараметров с современными алгоритмами поиска и визуализациями для эффективного изучения результатов.
- Сквозное отслеживание экспериментов и управление артефактами для воспроизведения результатов и эффективного сотрудничества.
- Управление ресурсами и кластерное планирование, которое поддерживает локальные и облачные графические процессоры, включая бесшовную поддержку спотовых экземпляров.
- Реестр моделей для развертывания обученных моделей и обмена ими между командами.
- Совместимость с ведущими DL-фреймворками (PyTorch, TensorFlow, Keras) и различными системами хранения данных; легкий экспорт в сервисные системы.
- Панель инструментов для экспериментов в реальном времени и расширенная контрольная точка, чтобы максимизировать производительность и минимизировать время простоя.
- Сосредоточьтесь на исследователях и инженерах: сокращает время, затрачиваемое на инфраструктурные задачи, позволяя проводить быстрые эксперименты и итерации.
Как это работает
- Установка и настройка Определяется по выбранной вами инфраструктуре (облако или on-prem).
- Подключите существующий код глубокого обучения (PyTorch, TensorFlow или Keras) к API Determined; никаких изменений в сценарии обучения не требуется.
- Запуск распределенных рабочих мест для обучения, которые автоматически предоставляются, планируются и контролируются.
- Используйте встроенный поиск по гиперпараметрам для изучения конфигураций; визуализируйте результаты в определенном пользовательском интерфейсе или панели TensorBoard.
- Отслеживание экспериментов, управление артефактами и развертывание проверенных моделей через встроенный реестр.
- Делитесь ресурсами кластера безопасно с вашей командой и масштабируйте по мере необходимости.
Случаи использования
- Масштабное распределенное обучение без изменения кода
- Эффективная оптимизация гиперпараметров для более быстрой конвергенции
- Воспроизводимые рабочие процессы ML с отслеживанием артефактов
- Разработка совместной модели с общими ресурсами и реестрами
Начало работы
- Смотрите репозиторий Determined GitHub для установки и руководства по быстрому запуску.
- Используйте Core API для интеграции с существующими моделями и рабочими процессами.
- Изучите примеры развертывания и учебные пособия для ускорения принятия.
Безопасность и лучшие практики
- Обеспечить надлежащий контроль доступа при совместном использовании кластеров и данных.
- Следуйте организационным политикам конфиденциальности данных и развертывания моделей.
Основные характеристики
- Распределенное обучение без изменений кода
- Масштабируемая настройка гиперпараметров с визуализацией
- Встроенное отслеживание экспериментов и управление артефактами
- Панели мониторинга в реальном времени и расширенные контрольные точки
- Совместное использование ресурсов и кластерное планирование для графических процессоров on-prem / Cloud
- Поддержка Seamless spot instance
- Широкая совместимость с фреймворком: PyTorch, TensorFlow, Keras
- Поддержка нескольких систем хранения данных и простой экспорт моделей в обслуживающие системы
- Типовой реестр для развертывания и сотрудничества