Moondream: Open Source Vision-Language Model (VLM) Playground and Lineup
Moondream — это мультимодальная модель языка видения с открытым исходным кодом (VLM), предназначенная для работы в различных средах, включая серверы, ПК и мобильные устройства. Проект подчеркивает небольшие, быстрые модели с возможностями практического видения, возможностями квантования и доступностью для экспериментов и развертывания. Ключевые варианты включают модели параметров 2B и 0,5B с поддержкой квантования FP16, int8 и int4, а также обучение с учетом квантования. Модели лицензированы под Apache 2.0, а Moondream способствует широкой совместимости и легкой интеграции для вывода CPU и GPU.
Как использовать Moondream
- Установите или получите загруженный файл модели (примеры показывают Moondream-2b-int8.mf).
- Инициализируйте модель в своей среде (примеры Python используют пакет Moondream).
- Загрузите изображение и запустите задачу запроса или подписи, такую как задание вопросов об изображении или создание подробных описаний сцены.
- Получите результаты (например, ответы, подписи или обнаружения) и используйте их в своем приложении.
Примеры, представленные в проекте, включают:
- Визуальный ответ на вопрос (например, это хот-дог?)
- Создание подписей к сценам (подводная сцена с клоунами и т.д.)
- Обнаружение и локализация объектов (связанные поля и координаты X/Y)
Moondream Lineup и возможности
- Moondream 2B: Мощный и быстрый, 1,9B параметры, FP16, INT8, INT4 квантованный; 2 GiB память; GPU / CPU-оптимизированный вывод; подходит для более широких возможностей с меньшим размером.
- Moondream 0.5B: Крошечные и быстрые, 0,5B параметры, INT8/INT4 квантованный; 1 память GiB; мобильные / передовые целевые устройства; GPU / CPU-оптимизированный вывод.
- Квантизация и количественное обучение по моделям, чтобы сбалансировать точность и эффективность.
- Целевые устройства включают серверы, ПК и мобильные устройства; акцент на производительности выводов CPU и GPU во всех средах.
- Лицензирование: Apache 2.0 для всех показанных вариантов и компонентов.
Как это работает (обзор)
- Moondream предоставляет возможности языка видения через мультимодальный LLM-фреймворк с открытым исходным кодом.
- Модели разработаны, чтобы быть легкими, но способными понимать визуальный ввод и генерировать человеческие ответы, подписи и обнаружения.
- Пользователи могут выполнять подсказки, которые сочетают понимание изображений с задачами на естественном языке (например, вопросы и ответы, подпись, описание, процедурные подсказки).
- Проект подчеркивает сильный прием сообщества с положительной обратной связью о скорости, размере и производительности по сравнению с более крупными моделями.
Безопасность и этические соображения
- Как и в любой мультимодальной модели, использование должно уважать конфиденциальность и согласие при анализе изображений, содержащих людей или конфиденциальный контент.
- Обеспечить соблюдение условий лицензирования и атрибуции, если это требуется лицензией Apache 2.0.
Основные характеристики
- Мультимодальная LLM с открытым исходным кодом (модель языка зрения), которая работает на серверах, ПК и мобильных устройствах
- Множественные размеры моделей: 2В и 0,5В параметры с квантованием (FP16, INT8, INT4)
- Поддержка обучения с учетом количественных показателей для повышения эффективности
- CPU- и GPU-оптимизированный вывод на целевых устройствах
- Легкий след, подходящий для краевого/мобильного развертывания
- Лицензированные компоненты Apache 2.0
- Простые примеры рабочих процессов для запросов изображений, подписей и локализации объектов
- Быстрое руководство и код образца для загрузки моделей и запроса изображений
Пример рабочих процессов
- Загрузите загруженную модель (например, Moondream-2b-int8.mf)
- Откройте изображение и запустите подсказки, такие как:
- Вопрос: «Это хот-дог?»
- Подпись: Создайте подробное описание сцены
- Обнаружение объектов: получение ограничивающих ячеек и точек координат
- Интеграция результатов в приложения, требующие визуального понимания и вывода естественного языка
Целевая аудитория
- Разработчики ищут небольшой, быстрый VLM с открытым исходным кодом для задач на языке видения
- Исследователи прототипируют мультимодальные возможности в легкой среде
- Edge и мобильные приложения, требующие эффективного вывода без больших ресурсов GPU
Лицензирование
- Лицензия Apache 2.0 на компоненты Moondream
Быстрый старт Snippet (концептуальный)
- скачать игру moondream
- обсуждение moondream import
- модель = vl (модель =./moondream-2b-int8.mf)
- изображение из PIL Import
- изображение = Image.open(./image.jpg)
- результат = model.query (изображение: «Это хот-дог?»)
- print(«Ответ:», result[«Ответ»))