Pongo

Уменьшить LLM галлюцинации на 80%

Перейти на сайт

Описание Pongo

Moondream: Open Source Vision-Language Model (VLM) Playground and Lineup

Moondream — это мультимодальная модель языка видения с открытым исходным кодом (VLM), предназначенная для работы в различных средах, включая серверы, ПК и мобильные устройства. Проект подчеркивает небольшие, быстрые модели с возможностями практического видения, возможностями квантования и доступностью для экспериментов и развертывания. Ключевые варианты включают модели параметров 2B и 0,5B с поддержкой квантования FP16, int8 и int4, а также обучение с учетом квантования. Модели лицензированы под Apache 2.0, а Moondream способствует широкой совместимости и легкой интеграции для вывода CPU и GPU.

Как использовать Moondream

  1. Установите или получите загруженный файл модели (примеры показывают Moondream-2b-int8.mf).
  2. Инициализируйте модель в своей среде (примеры Python используют пакет Moondream).
  3. Загрузите изображение и запустите задачу запроса или подписи, такую как задание вопросов об изображении или создание подробных описаний сцены.
  4. Получите результаты (например, ответы, подписи или обнаружения) и используйте их в своем приложении.

Примеры, представленные в проекте, включают:

  • Визуальный ответ на вопрос (например, это хот-дог?)
  • Создание подписей к сценам (подводная сцена с клоунами и т.д.)
  • Обнаружение и локализация объектов (связанные поля и координаты X/Y)

Moondream Lineup и возможности

  • Moondream 2B: Мощный и быстрый, 1,9B параметры, FP16, INT8, INT4 квантованный; 2 GiB память; GPU / CPU-оптимизированный вывод; подходит для более широких возможностей с меньшим размером.
  • Moondream 0.5B: Крошечные и быстрые, 0,5B параметры, INT8/INT4 квантованный; 1 память GiB; мобильные / передовые целевые устройства; GPU / CPU-оптимизированный вывод.
  • Квантизация и количественное обучение по моделям, чтобы сбалансировать точность и эффективность.
  • Целевые устройства включают серверы, ПК и мобильные устройства; акцент на производительности выводов CPU и GPU во всех средах.
  • Лицензирование: Apache 2.0 для всех показанных вариантов и компонентов.

Как это работает (обзор)

  • Moondream предоставляет возможности языка видения через мультимодальный LLM-фреймворк с открытым исходным кодом.
  • Модели разработаны, чтобы быть легкими, но способными понимать визуальный ввод и генерировать человеческие ответы, подписи и обнаружения.
  • Пользователи могут выполнять подсказки, которые сочетают понимание изображений с задачами на естественном языке (например, вопросы и ответы, подпись, описание, процедурные подсказки).
  • Проект подчеркивает сильный прием сообщества с положительной обратной связью о скорости, размере и производительности по сравнению с более крупными моделями.

Безопасность и этические соображения

  • Как и в любой мультимодальной модели, использование должно уважать конфиденциальность и согласие при анализе изображений, содержащих людей или конфиденциальный контент.
  • Обеспечить соблюдение условий лицензирования и атрибуции, если это требуется лицензией Apache 2.0.

Основные характеристики

  • Мультимодальная LLM с открытым исходным кодом (модель языка зрения), которая работает на серверах, ПК и мобильных устройствах
  • Множественные размеры моделей: 2В и 0,5В параметры с квантованием (FP16, INT8, INT4)
  • Поддержка обучения с учетом количественных показателей для повышения эффективности
  • CPU- и GPU-оптимизированный вывод на целевых устройствах
  • Легкий след, подходящий для краевого/мобильного развертывания
  • Лицензированные компоненты Apache 2.0
  • Простые примеры рабочих процессов для запросов изображений, подписей и локализации объектов
  • Быстрое руководство и код образца для загрузки моделей и запроса изображений

Пример рабочих процессов

  • Загрузите загруженную модель (например, Moondream-2b-int8.mf)
  • Откройте изображение и запустите подсказки, такие как:
  • Вопрос: «Это хот-дог?»
  • Подпись: Создайте подробное описание сцены
  • Обнаружение объектов: получение ограничивающих ячеек и точек координат
  • Интеграция результатов в приложения, требующие визуального понимания и вывода естественного языка

Целевая аудитория

  • Разработчики ищут небольшой, быстрый VLM с открытым исходным кодом для задач на языке видения
  • Исследователи прототипируют мультимодальные возможности в легкой среде
  • Edge и мобильные приложения, требующие эффективного вывода без больших ресурсов GPU

Лицензирование

  • Лицензия Apache 2.0 на компоненты Moondream

Быстрый старт Snippet (концептуальный)

  • скачать игру moondream
  • обсуждение moondream import
  • модель = vl (модель =./moondream-2b-int8.mf)
  • изображение из PIL Import
  • изображение = Image.open(./image.jpg)
  • результат = model.query (изображение: «Это хот-дог?»)
  • print(«Ответ:», result[«Ответ»))

Ещё из категории

Программное обеспечение предиктивной аналитики ИИ для...
Censius - это платформа ИИ, которая...
Визуализируйте, редактируйте и исследуйте свои данные....
Пользовательские идеи на основе ИИ для...
Преобразуйте данные Google Analytics в практические...
Инструмент искусственного интеллекта для быстрой проверки...

Добавить AI-сервис

Предложите нейросеть для каталога — мы проверим данные и опубликуем после модерации

E-mail
Название инструмента
Полное описание
Короткое описание
Ссылка на сайт
Изображение
Размер: 1200x720
Категория