Классификация изображений в ArcGIS с помощью LLM — Data+ International

Еще несколько лет назад классификация объектов на снимках и аэрофотоснимках требовала значительных временных затрат: специалистам приходилось вручную размечать данные, подбирать классы объектов и многократно проверять результаты. Сегодня возможности ArcGIS Pro, усиленные современными нейросетевыми технологиями и визуально-языковыми моделями, позволяют существенно ускорить этот процесс и снизить объем рутинной работы.

Одним из наиболее интересных направлений развития GeoAI стала интеграция Vision Language Models (VLM) — моделей, способных одновременно анализировать изображения и понимать текстовые описания. Благодаря этому пользователь может не только работать с готовыми классами объектов, но и задавать собственные категории на естественном языке. В связке с инструментами глубокого обучения ArcGIS Pro это открывает новые возможности для автоматической классификации объектов на спутниковых снимках, ортофотопланах и других растровых данных.

Модель Vision Language Context-Based Classification, доступная в ArcGIS Living Atlas, позволяет выполнять классификацию без предварительного обучения под конкретную задачу. Это особенно полезно в случаях, когда необходимо быстро проанализировать новые типы объектов или оперативно обработать большие объемы изображений. Вместо создания и обучения отдельной модели пользователь может просто указать интересующие классы и добавить текстовый контекст для повышения точности распознавания.

В этой статье мы пошагово рассмотрим, как использовать Vision Language Context-Based Classification в ArcGIS Pro для классификации изображений.

*Данная инструкция актуальна для версии ArcGIS Pro 3.6.1.

**Перед началом работы убедитесь, что у вас установлены библиотеки глубокого обучения ArcGIS. Их можно загрузить по ссылке.

Получение API ключа визуально-языковой модели

Важно отметить, что на текущий момент модель Vision Language Context-Based Classification поддерживает работу только с VLM от OpenAI и Meta. Именно эти модели используются для анализа изображений и сопоставления визуальной информации с текстовыми описаниями классов объектов.

Для работы инструмента требуется подключение к соответствующему API выбранной VLM. Рассмотрим получение ключа на примере модели OpenAI — gpt4-o.

1. Перейдите на сайт API от OpenAI и создайте учетную запись удобным способом.

2. После регистрации в личном кабинете пользователя кликните по кнопке Create API key (Создать ключ API) в верхнем правом углу.

3. В появившемся окне введите необходимое имя ключа и нажмите на кнопку Create secret key (Создать секретный ключ).

4. Перед вами появится уникальный ключ API. Пожалуйста, скопируйте и сохраните его в надежном месте, потому что больше у вас не будет возможности просмотреть его на сайте OpenAI. Нажмите кнопку Done (Закончить).

5. Использование API ключа OpenAI является платной услугой. Чтобы использовать API необходимо пополнить баланс учетной записи. Для этого кликните по соответствующей кнопке в верхнем правом углу страницы.

6. Добавьте новый способ оплаты и пополните баланс учетной записи. Каждая модель OpenAI использует определенное количество кредитов за 1 миллион токенов, каждый из которых равен примерно 4 символам текста на английском языке. Подробнее о стоимости 1 миллиона токенов той или иной модели можно узнать на странице цен моделей OpenAI. Рекомендую начать с минимальной суммы в 5 USD, ее более чем достаточно для тестирования возможностей инструмента и выполнения небольших задач.

Обратите внимание, что вы можете отключить автоматические пополнение кредитов с карты.

Настройка автоматического списания суммы

Ваш ключ API готов к дальнейшей работе!

Создание файла подключения сервиса ИИ

Для классификации изображений с использованием VLM, нам необходимо создать файл подключения к модели, который реализуется при помощи полученного на предыдущем шаге секретного API ключа.

Откройте удобный текстовый редактор (например Блокнот) и скопируйте в новый документ следующий скрипт:

{«service_provider»: «OpenAI», «api_key»: «ваш секретный API ключ», «deployment_name»: «gpt-4o»}

Этот скрипт установит для подключения к модели следующие параметры: провайдер сервиса ИИ (service_provider), ключ API (api_key) и наименование используемой модели (deployment_name). В нашем случае провайдером сервиса выступит OpenAI, а моделью — gpt-4o. Для параметра api_key вставьте ваш уникальный ключ API, полученный ранее.

Сохраните документ как файл с расширением .ais, указав его в названии.

Подготовка файла подключения к сервису ИИ

Загрузка модели с ArcGIS Living Atlas

Переместимся в ArcGIS Pro.

Следующий компонент, необходимый для классификации изображений при помощи VLM, это модель Vision Language Context-Based Classification, доступная в ArcGIS Living Atlas.

Для того чтобы загрузить ее напрямую из интерфейса ArcGIS Pro, необходимо перейти на панель каталог (Catalog Pane), затем на вкладку Портал (Portal), оттуда в раздел Living Atlas и в окне поиска ввести Vision Language Model. В появившихся результатах поиска найдите модель Vision Language Context-Based Classification, кликните по ней правой кнопкой мыши и загрузите в удобную для вас папку.

Классификация изображений с использованием ИИ

Теперь мы можем приступить к классификации изображений.

Запустите инструмент Классифицировать объекты при помощи глубокого обучения (Classify Objects Using Deep Learning) набора инструментов Image Analyst. Вам необходимо указать следующие параметры:

Входной растр, по которому будет осуществляться классификация (Input Raster);
Входные объекты, которые нужно будет классифицировать на основе растра (Input Features);
Название и местоположение выходного класса объектов (Output Classified Objects Feature Class);
Используемую модель (Model Definition). В нашем случае это Vision Language Context-Based Classification, которую мы загрузили ранее;
Имя поля классификации (Class Label Field);
Классы (Classes) можно задать в виде диапазона или уникальных значений, отделяя каждый класс нажатием клавиши Enter;
Дополнительный контекст (Additional Context) в виде пояснения задачи для VLM;
Строгость классификации (Strict Classification) определяет возможность модели отходить от обозначенных классов;
Файл подключения к ИИ (AI Connection File), созданный ранее.

Настройка инструмента классификации изображений

Установив приведенные выше параметры, можно запускать инструмент.

Выходные данные

В результате работы инструмента вы получите классифицированный класс объектов, представляющий из себя копию входных объектов с дополнительными полями:

Reason — обоснование причин присвоения того или иного класса;
Confidence — уверенность в присвоении класса;
Ваше поле классификации с установленными классами.

Для демонстрации возможностей инструмента я исследовал стадии строительства объектов по Астане. Задачей модели было классифицировать объекты в соответствии с процентом завершенности строительства от 0 до 100%. С результатами классификации можете ознакомиться на скриншоте ниже.

Результат классификации объектов с использованием VLM

На подготовку демонстрационного проекта мне потребовалось 5 208 токенов, что составило 0,09 USD.

Использование VLM позволяет значительно ускорить анализ изображений, сократить объем ручной классификации и упростить работу с новыми типами объектов. Особенно ценно то, что специалист может взаимодействовать с моделью через текстовые описания, не погружаясь глубоко в разработку собственных нейросетевых решений.

Esri продолжает активно интегрировать технологии искусственного интеллекта в привычные рабочие процессы, и Vision Language Context-Based Classification — один из ярких примеров того, как AI уже сегодня помогает GIS-специалистам решать прикладные задачи значительно быстрее и удобнее.