Spatial Data Science – наука о пространственных данных. Зачем про неё нужно знать.

Наука о пространственных данных (НПД) — достаточно новая синтетическая область знаний. Так же, как и у data science, главная задача здесь — извлекать ценную информацию из разнообразных массивов сырых данных. С её помощью вы можете решать, как локальные аналитические и картографические задачи, так и запускать цифровую трансформацию целого бизнеса.

Вот одна очень интересная статья (от Harvard Business Review), где показывается, как наука о данных, специалисты в этой области и всевозможная количественная аналитика — уже стали основным драйвером конкурентоспособности для успешных компаний.

Этот пост рассказывает про функциональную связь между пространственно-аналитическими потребностями вашей деятельности и конфигурацией ГИС-решений, которые вам понадобятся для удовлетворения этих потребностей.

На практике так или иначе все проблемы, решаемые с НПД, объединяются поиском ответа на вопрос «где». Вы можете искать на него ответ либо в исходных рядах геоданных, либо в результатах обработки этих рядов, либо и там, и там параллельно.

Главные кирпичи, из которых на данный момент складывается НПД:

  • ГИС. Обеспечивают общую работу с геоданными и геовизуализацию;
  • Пространственная СУБД. Обеспечивает упорядоченное, безопасное хранение геоданных, их оптимизацию и обмен. Запросы к данным — сюда же;
  • Аналитика геоданных. Обеспечивает продвинутые способы извлечения ценной информации из рядов сырых данных. Доступно множество инструментов, в т.ч. отраслевых;
  • Системы больших геоданных. Обеспечивают переход от традиционного вероятностного (стохастического) моделирования к алгоритмическому, когда механизмы, стоящие за генерацией данных, не очень понятны.

ОБЩИЙ ФРЕЙМ РЕШЕНИЙ

Конфигурация нужных под конкретный проект решений будет зависеть от:

  • Размер данных;
  • Количество пользователей;
  • Требуемый уровень анализа;
  • Основной фокус проблемы (геовизуализация, управление данными, моделирование и т.д.).

Исходя из этого, выделяются 6 основных конфигураций решений при выполнении задач с помощью НПД:

  • Настольная ГИС;
  • Серверная ГИС;
  • Веб-ГИС;
  • Пространственная аналитика;
  • Управление геоданными и геоаналитика;
  • Управление большими геоданными и геоаналитика.

НАСТОЛЬНАЯ ГИС

Один пользователь. Объём данных < 100 мб. Автономные приложения. Средние возможности для анализа данных. Фокус на геовизуализации и картах.

Про настольное решение от Esri можно подробно почитать здесь.

СЕРВЕРНАЯ ГИС

Многопользовательская конфигурация. Объем данных 100 мб – 100 гб. Базовый анализ. Фокус на управлении данными и их визуализации.

Про ArcGIS Server читайте здесь.

ВЕБ-ГИС

Сервер-клиентная конфигурация. Объем данных 100 мб – 100 гб. Базовый уровень анализа. Фокус на обмене данными через веб. Веб-приложения – важный компонент.

Почитайте подробнее про веб-платформу ArcGIS Online и корпоративные веб-ГИС ArcGIS Enterprise. Здесь подробная информация о доступном вам конструкторе веб-приложений.

ПРОСТРАНСТВЕННАЯ АНАЛИТИКА

Объём данных < 100 мб. Автономные приложения. Продвинутый и гибкий анализ. Фокус на геовизуализации и инфографике.

Подружить ArcGIS с R или ggplot2 можно с помощью R-ArcGIS bridge, научиться этому можно быстро с помощью этих бесплатных онлайн-уроков.

УПРАВЛЕНИЕ ГЕОДАННЫМИ И ГЕОАНАЛИТИКА

Серверная ГИС с аналитическим модулем и веб. Объем данных 100 мб – 100 гб. Серверные многопользовательские приложения. Продвинутый и гибкий анализ. Фокус на управлении данными, геовизуализации и инфографике.

О том, как развернуть R на вашей корпоративной ГИС, читайте тут.

УПРАВЛЕНИЕ БОЛЬШИМИ ДАННЫМИ И ГЕОАНАЛИТИКА

Объем данных >100 гб. Серверные многопользовательские приложения. Фокус на полном обслуживании жизненного цикла данных (обработка, управление, анализ) и геовизуализации.

Про работу с большими данными в среде ArcGIS подробнее можете узнать здесь и здесь. О том, как подружить ArcGIS и Hadoop тут.

ОЧЕНЬ БОЛЬШИЕ ДАННЫЕ

Когда объем данных особенно велик, имеет смысл планировать конфигурации, минующие СУБД.

Все рассмотренные конфигурации решений для пространственно-научных задач могут быть реализованы в виде разношёрстного конструктора из открытого ПО. Чем сложнее конфигурация, тем более продвинутые ГИС-спецы и программисты вам понадобятся. А еще много времени и терпения.

Технологическая линейка ArcGIS уникальна тем, что предлагает вам бесшовную экосистему из сервисов и приложений, из которых вы можете выстраивать практически любые конфигурации геоинформационных решений. Вы можете их масштабировать, выстраивать высокодоступную архитектуру, усложнять узкоспециализированными приложениями по мере эволюции проекта и прочее. Что еще важно — в рамках ArcGIS Enterprise вы можете взять под полный контроль самое ценное, что есть у вас вне зависимости от выбранной конфигурации – ваши данные на всех этапах их жизненного цикла.

При написании поста использовались материалы курса Spatial Data Science and Applications от южнокорейского Yonsei University. Курс можно пройти бесплатно и онлайн по указанной ссылке.

Happy spatial data science вам, друзья и коллеги.