Постановка задачи: Для выбора наилучшего места для старта нового бизнеса необходимо проанализировать геотегированные данные из интернета и определить наиболее популярные районы Москвы. Данные включают местоположения, отмеченные пользователями, а также время отметок. На основе этой информации попробуем проанализировать тренды популярности определенных локаций города как в пространстве, так и во времени.
В этой заметке мы попробуем выявить пространственные и временные кластеры в данных, построим куб пространства-времени для анализа активности пользователей в течение недели, а также выполним поиск горячих точек, а в итоге определим наиболее подходящие местоположения для запуска нового бизнеса, что является одной из задач геомаркетинга.
Исходными данными являются геотегированные данные с датой, перенесенные на карту. В таком виде выявить какие-либо закономерности не представляется возможным.
Агрегация данных. Первый и самый простой шаг, который позволит нам увидеть разность в концентрации данных, это их агрегация внутри сетки. Мы выберем вариант шестиугольников или гексагональной сетки. При использовании гексагональной сетки все соседние полигоны находятся на одинаковом расстоянии. Позже мы будем определять пространственно-временные связи по расстоянию, поэтому шестиугольники будут иметь преимущество перед регулярной (квадратной) сеткой, при использовании которой часть соседей находятся дальше других.
Воспользуемся инструментом Агрегировать точки внутри ArcGIS Pro. Также можно использовать комбинацию из нескольких инструментов ArcGIS для выполнения этой операции. Теперь более тёмные символы на скриншоте указывают на наибольшее число точек, попавших в шестиугольник.
Обратите внимание на несколько мест с высокой плотностью точек: это рынок «Садовод», ТЦ Columbus и Крокус. В слое агрегированных отметок можно проследить некоторые закономерности. Но важно понимать, насколько эти закономерности статистически значимы, или же они являются результатом случайного распределения.
Для оценки статистической значимости данных воспользуемся расчётом пространственной автокорреляции (Глобальный индекс Морана I), чтобы определить, какой тип распределения доминирует – кластеризация, дисперсное распределение (соседство высоких и низких значений) или случайное распределение. Инструмент создаёт отчёт. В отчете указано значение индекса Морана, z-оценка и p-значение. Для определения статистической значимости нас больше всего интересует z-оценка. В нашем случае это значение измеряет выраженность пространственной автокорреляции. Диаграмма подтверждает наличие статистически значимой кластеризации в распределении данных. Подробнее про пространственную автокорреляцию можно прочитать здесь.
Определение пространственных кластеров.
Выполнив агрегацию данных и определив статистическую значимость, можно утверждать, что данные распределены не случайно, а демонстрируют выраженную кластеризацию. Далее выполним пространственный кластерный анализ для определения районов с высоким уровнем популярности. Используем инструмент Кластеризация на основе плотности. В этот инструмент входят три метода расчета пространственной кластеризации: DBSCAN, HDBSCAN, OPTICS. Подробнее о каждом можно прочитать в справке.
Минимальное число объектов на кластер зависит от данных и от решаемой проблемы. Мы укажем это число равным 500, а расстояние поиска 500 метров. Используем метод OPTICS, в котором зададим высокую чувствительность кластеров. Высокий уровень чувствительности приводит к созданию более компактных кластеров меньшего размера, что актуально для решения нашей задачи. В результате были выделены кластеры, некоторые из них являются вполне логичными, например в районе Кремля, Арбата, Крокуса, а некоторые требуют дополнительного изучения.
Расширим область и выделим кластеры с помощью метода HDBSCAN.
Используя агрегацию и пространственную кластеризацию, мы определили местоположения с наиболее высокой плотностью отметок, но в наших данных присутствует еще один компонент, который пока не был проанализирован: время.
Временной анализ данных
Популярные местоположения могут меняться со временем, особенно в городе. С точки зрения перспективы развития лучше открывать бизнес в месте, которое набирает популярность, а не там, где популярность снижается. Для анализа пространственных и временных закономерностей совместно необходимо построить пространственно-временную структуру (структуру данных, учитывающую как пространственный, так и временной компонент). В этой структуре будут просуммированы точки отметок в определенной области и в определенные временные промежутки.
Воспользуемся инструментом Создать куб Пространство-Время. Данный инструмент по сути создаёт трёхмерную структуру из данных, используя третье измерение — время.
Шаг бина должен соответствовать временному масштабу анализа.
Запустим инструмент с шагом 2 дня, чтобы посмотреть на распределение активности в течение недели. После завершения работы инструмента результат можно проанализировать на двумерной и трёхмерной карте. Последний вариант является наиболее наглядным. После построения куба применим инструмент Визуализация куба Пространство-Время в 2D и далее в 3D
Двумерная визуализация показываем тренд во времени.
Зеленым цветом обозначены шестиугольники, в которых выявлен нисходящий тренд. Шестиугольники белого цвета – области, в которых не выявлено ни восходящих, ни нисходящих трендов. Эти шестиугольники могут содержать постоянное число отметок в течение заданных временных интервалов.
Проанализируем подробнее локации с нарастающим трендом. В нашем примере район нового ЖК, пик числа геотегированных данных приходится обычно на выходные дни, на графике замечен тренд к нарастанию.
Теперь посмотрим на созданный куб в 3D.
Каждый шестиугольный бин здесь располагается на определенной высоте, определяемой числом вертикальных сегментов, где каждый сегмент соответствует двум дням (данный шаг был задан на этапе создания куба). Цвет каждого сегмента указывает число отметок в этой области, зафиксированных в течение двух дней.
В отличие от визуализации в 2D, символы каждому сегменту присваиваются по общему числу геотегированных данных, без учета восходящих и нисходящих трендов.
Если проанализировать отдельные окрестности, то можем заметить некоторые закономерности во времени, например территория Крокуса как бы пульсирует, что связано с мероприятиями, проходящими там. В зависимости от временной детальности ваших данных можно анализировать изменения в течение дня, недели или других временных интервалов.
Дополнительно можно построить временные кластеры с помощью инструмента Кластеризация временных рядов.
Выявление горячих точек в пространстве и во времени
Последний этап анализа – оценка закономерностей в данных одновременно в пространстве и во времени. Используя анализ возникновения горячих точек, мы классифицируем закономерности в созданном кубе пространства-времени по принадлежности к одной из 17 категорий.
В наших данных присутствует 4 категории, наибольший интерес вызывают новые горячие точки, что говорит о тренде к увеличению популярности местоположения во времени.
Если отобразить эту картину в 3D, то можно заметить, что спорадические точки связаны с колебаниями активности в течение недели, т.е. горячая точка то появляется, то исчезает.
Определение оптимального местоположения для открытия бизнеса.
На финальном этапе нашего анализа обобщим данные о пространственной кластеризации , а также результаты анализа возникновения горячих точек.
На ленте на вкладке Карта в группе Выборка используем Выбрать по атрибуту, чтобы выбрать получившиеся кластеры пространственные кластеры, используем кластеры по методу HDBSCAN.
Далее выберем новые и последовательные горячие точки.
Теперь создадим слой, который удовлетворяет двум критериям выше. Используем инструмент Пересечение. В результате было получено несколько локаций, одна из которых сосредоточена в районе Савеловского вокзала, включает новую горячую точку и пространственный кластер.
Таким образом мы смогли проанализировать наши данные статистическими методами с применением пространственного анализа с целью выделения потенциальных локаций для их дальнейшего более глубоко изучения и принятия решения о важности этих локаций для нашего бизнеса.