Классификация изображений с помощью модели SAM3 — Data+ International

Некоторое время назад на сайте Living Atlas выложили модель SAM 3 адаптированную для применения в ArcGIS. Я протестировал ее возможности и хочу поделиться результатами с нашими пользователями.

SAM — это семейство универсальных (foundational) моделей, которые разрабатываются компанией Meta. Название расшифровывается как Segment Anything Model, первая версия модели разбивала изображения или кадры видео на отдельные сегменты, но не присваивала этим сегментам класс.

Модель SAM 3 не только сегментирует изображение, но и фильтрует найденные объекты по текстовому промпту.

Давайте посмотрим как эта модель работает в ГИС задачах? Я попробовал классифицировать снимок высокого разрешения, который используется в этом упражнении.

Результат классификации в векторном виде без подложки.

Модель не требует обучения, достаточно указать в параметрах инструмента список классов через запятую. В данном случае использовался промпт: «roofs, grass, road, vegetation (trees)».

Как запустить модель с помощью ArcGIS Pro?

Скачайте модель с сайта Living Atlas
Откройте инструмент Detect Objects Using Deep Learning (Выявить объекты при помощи глубокого обучения)
В качестве параметра Model Definition укажите путь к файлу модели (SAM3.dlpk)
В параметре Text Prompt задайте классы через запятую (только английский язык)
Опционально укажите экстент и размер пикселя выходного изображения.

Экспериментальным путем установлено, что модель хорошо работает изображениями высокого разрешения (от 2 см до примерно 50 см на пиксель). В зависимости от того, какие изображения вы хотите классифицировать, нужно подобрать оптимальное значение параметра Cell Size в свойствах среды инструмента, которое будет давать с одной стороны требуемую точность границ, с другой обеспечивать оптимальную производительность (чем выше разрешение, тем больше времени потребуется для обработки растров).

Результаты классифкации также можно посмотреть в приложении. В зависимости от задачи для постобработки можно применить инструменты генерализации, Pairwise Dissolve, Regularize Buildings Footprints, Union.

Другой пример — классификация аэрофотоснимков на территорию Казахстана.
Модель достаточно хорошо находит контура крыш (зданий) на снимках высокого разерешения. С классификацией крон деревьев есть некоторые проблемы. Отдельные деревья более менее распознаются, плотная лесная растительность уже не всегда. Пример на скриншоте ниже:Выводы:

Очень интересная модель, которую можно использовать для распознавания объектов на снимках без предварительного обучения. В ряде случаев (строения) дает очень хорошие результаты. Работает прежде всего с качественными снимками высокого разрешения.
Если вас не устраивает точность классификации и хочется повысить ее до почти 100%, можно использовать модель как основу для создания обучающей выборки. Модель найдет 70-80% объектов, далее можно оцифровать недостающие, исправить ошибки и обучить собственную модель на основе этих данных. Таким образом вы сэкономите где-то 80% времени, которое обычно требуется на подготовку обучающей выборки.
Как подготовить собственную обучающую выборку и обучить модель, вы можете узнать, выполнив это упражнение.

Коллеги из Esri попробовали дешифрировать контура водных объектов с помощью модели SAM 3. Водоемы это достаточно простой объект, но в данном примере решается производственная задача и модель позволяет получить более качественные границы в автоматическом режиме.