Meta Segment Anything Model 2 (SAM 2) — унифицированная сегментация видео и изображений
SAM 2 — это унифицированная модель следующего поколения Meta для сегментации объектов по изображениям и видео. Он расширяет оригинальную модель SAM (Segment Anything Model) с помощью модуля памяти для каждой сессии, который обеспечивает надежную интерактивную сегментацию в видео в режиме реального времени, сохраняя при этом простой и удобный дизайн, который работает как для изображений, так и для видео.
Ключевые возможности
- Сегментируйте любой объект в изображениях или видеокадрах, используя щелчок, коробку или маску в качестве входа. Вы можете выбрать один или несколько объектов в кадре и уточнить прогнозы с помощью дополнительных подсказок.
- Сильная нулевая производительность на объектах, изображениях и видео, не замеченных во время обучения, что обеспечивает широкую применимость в реальном мире.
- Взаимодействие в реальном времени с потоковым выводом для интерактивных приложений, включая отслеживание объектов через кадры по мере воспроизведения видео.
- Современная производительность для сегментации изображений и видео, превосходя существующие модели в литературе и тестах, особенно для отслеживания частей объектов в кадрах.
Как это работает
- Подсказки ввода (click/box/mask) выбирают цели на изображении или видеокадре.
- Для видео SAM 2 использует модуль памяти на сеанс, который захватывает информацию о целевом объекте, позволяя отслеживать последующие кадры, даже если объект временно исчезает.
- Поправки могут быть сделаны путем предоставления дополнительных подсказок на любом кадре для уточнения маски.
- Потоковая архитектура обрабатывает видеокадры по одному за раз, обеспечивая результаты в реальном времени.
Модельная архитектура подчеркивает
- Расширяет оперативную возможность SAM на видеодомен с модулем памяти, который поддерживает контекст объекта в кадрах.
- При нанесении на изображения модуль памяти пуст и SAM 2 ведет себя как оригинальный SAM.
- Сегментация видео использует сессионную память для отслеживания, а также механизм внимания с поддержкой памяти для надежных прогнозов.
Данные, обучение и открытость
- Тренировался на большом и разнообразном видеонаборе данных (SA-V), созданном при интерактивном использовании SAM 2 в настройке «модель в цикле».
- Детали набора данных: ~ 600k + маски в ~ 51k видео, в 47 странах, с аннотациями для целых объектов, частей и сложных окклюзий.
- Открытый доступ: предварительно обученная модель SAM 2, набор данных SA-V, демо-версия и код публикуются для проведения исследований и разработок.
- Наборы данных и выпуски моделей подчеркивают прозрачность и географическое разнообразие, а также соображения справедливости.
Приложения и потенциальные варианты использования
- Отличное редактирование видео, отслеживание объектов и создание контента.
- Сегментация объектов в реальном времени для AR/VR, видеокомпозитинга и инструментов пост-продакшна.
- Используйте в качестве компонента сегментации ввода для систем ИИ, таких как генерация видео или модели редактирования.
Безопасность, этика и заметки об использовании
- Модель представляет собой научно-ориентированный инструмент, предназначенный для задач сегментации. Пользователи должны учитывать конфиденциальность, согласие и лицензирование при применении результатов сегментации к средствам массовой информации с реальными людьми или проприетарным контентом.
Как попробовать
- Попробуйте интерактивную сегментацию, выбрав объект в видеокадре и отслеживая его по кадрам, с возможностью уточнения масок с помощью дополнительных подсказок.
Особенности Highlights
- Унифицированная сегментация изображений и видео в одной модели
- Вывод потоковой передачи в реальном времени, позволяющий сегментировать интерактивное видео
- Персессионная память для отслеживания объектов через видеокадры
- Надежное нулевое представление на незнакомых объектах и сценах
- Интерактивные исправления с помощью кадровых подсказок
- Открытые релизы: предварительно обученная модель SAM 2, набор данных SA-V, демо и код
- Обширные учебные данные с широким географическим разнообразием