«Современные организации буквально затоплены большими объемами данных и уже не могут их обрабатывать с помощью лишь традиционных технологий хранения. И что же они делают? Они просто переносят свои данные на USB-накопители, чтобы освободить место для новых данных, а затем откладывают эти USB диски в сторону, надеясь, что в один прекрасный день данные вновь будут восстановлены на базе традиционных систем хранения. Но этого никогда не происходит» – Мансур Раад, эксперт Esri по BigData, рассказывает о том, как геопространственные большие данные могут решить эту проблему… |
В чем состоит специфика геопространственных больших данных?
Практически все имеет явный или неявный геопространственной контекст. Явный – это когда указана широта и долгота; неявный – если имеется адрес, например, «Нью-Йорк-стрит, 380» или, мой любимый пример, подразумеваемый, как в твите “Я ем пиццу “Чикаго” в центре Манхэттена”, отправленном через мобильное приложение. Даже если функция определения местоположения на телефоне отключена, анализатор естественного языка может определить, что Чикаго в данном случае не является местоположением отправителя, а правильное местоположение – это центр Манхэттена, и оно может быть представлено через широту и долготу.
Все, что происходит, случается где-то. Именно это «где» и задает географический контекст. Как сказал Ричард Сол Вурман (основатель конференции TED – прим. перев.): «Большие данные – это хлам, если вы не можете их понять, карты же – эта образ, делающих их понятными». Это становится совершенно очевидным, когда происходит что-либо подобное массовому расстрелу в Париже в ноябре 2015 года. Чтобы помочь людям разобраться в происходящем, по телевидению была показана карта, где точно было указано время и место событий.
Как компании могут воспользоваться большими данными?
Наши возможности моделировать и прогнозировать культурное, физическое и биологическое будущее растут. Это происходит благодаря данным, получаемым в реальном времени. У нас есть датчики, передающие информацию о дорожном движении, шуме, загрязнении воздуха, качестве воды, получающие информацию даже из общения в Twitter’е. Геоинформационные системы всегда имели дело с данными, а сейчас ГИС наполняются потоками данных в реальном времени. Мы можем интегрировать данные из разных источников и анализировать их, используя различные модели, чтобы делать прогнозы.
Вместо того, чтобы просто констатировать текущую загруженность дорог, мы можем рассчитать, каков будет трафик через час и подсказать лучший способ добраться до места назначения. Это, конечно, полезно и для вас лично, но если вы профессионально занимаетесь перевозками, это поможет вам кардинально изменить бизнес, своевременно перестраивая маршруты ваших грузовиков.
Big Data могут легко стать неуправляемыми и бесполезным без соответствующих инструментов быстрого анализа. Как этим можно управлять?
В большинстве организаций данные отправляются «умирать» на USB-накопителях. Современные организации буквально затоплены большими объемами данных и уже не могут их обрабатывать с помощью лишь традиционных технологий хранения. И что же они делают? Они просто переносят свои данные на USB-накопители, чтобы освободить место для новых данных, а затем откладывают эти USB диски в сторону, надеясь, что в один прекрасный день данные вновь будут восстановлены на базе традиционных систем хранения. Но этого никогда не происходит. Главное слово здесь «традиционный», и это очень важно.
Для меня использование Big Data выходит за рамки принятой триады «объем, скорость, разнообразие»; я понимаю, что иногда эта триада просто неприменима. Например, представьте себе (не дай бог), что произошла еще одна Фукусима: разрозненные данные с датчиков в отдаленной деревне доходят не быстро, их объем не так велик и они достаточно хорошо структурированы. Тем не менее, окно возможностей для правильной реакции на такое событие настолько мало, что нужны новые методы, чтобы определить необходимо ли провести эвакуацию этой деревни, т.е. нужна определенность и уверенность в принятии решений. И здесь наиболее актуальной является геопространственная аналитика в виде регрессионного байесовского кригинга, выполненная очень быстрыми, нетрадиционными методами.
Приведу еще один пример нетрадиционного управления данными. Представим себе организацию, которая должна обеспечить выполнение соглашения об оказании услуг онлайн-хранения данных за определенный промежуток времени, которое предполагает, что любые геопространственные данные, собранные в течение этого времени, по запросу должны быть сразу визуализированы на карте. Традиционные хранилище данных поставщика таких услуг могли бы помочь этой организации выполнить требования соглашения, однако по непомерной стоимости! И организация решает сделать смелый шаг и попробовать для хранения и обработки информации что-то новое – Big Data (т.е. Hadoop). Опять же, это не про объем, скорость и разнообразие – это просто стоимость ведения бизнеса. Hadoop предоставляет способ решения проблем с большими данными. В последнее время, чтобы превзойти традиционные средства, я сочетаю его с другими инструментами, такими как Cassandra, Elasticsearch и Apache Spark.
Какое программное обеспечение и инструменты сейчас включены Esri в «дорожную карту» Big Data?
Платформа ArcGIS продолжает развиваться по целом ряду направлений. Вот некоторые основные моменты:
Во-первых, мы работаем над Big Data for GeoAnalytics – расширением для ArcGIS for Server, которое использует новый класс технологий для анализа и визуализации очень больших массивов данных, в том числе распределенные вычисления и хранение. Примеры включают анализ и визуализацию больших объемов потоковых данных в реальном времени (например, данные, поступающие от движущихся транспортных средств и датчиков GPS, подключенных устройств, а также события в социальных сетях), пакетную аналитику больших объемов пространственно-временных данных, а также растровую аналитику очень больших коллекций изображений.
В ближайшие 6-12 месяцев мы представим новые возможности платформы ArcGIS, которые облегчат нашим пользователям адаптацию нового подхода под свои потребности и помогут получить преимущества от его использования. Комбинация ArcGIS GeoEvent Extension for Server и функциональных возможностей GeoAnalytics обеспечит «переваривание» данных с высокой скоростью в реальном времени, хранение больших объемов, а также пакетную и real-time аналитику на одних и тех же массивах данных. Сочетание методов обработки изображений и функциональности GeoAnalytics будет способствовать распространению данных, обеспечит как анализ «на лету», так и периодический анализ больших коллекций изображений, получаемых от БЛА, аэро- и спутниковых датчиков.
В модуль GeoEvent Extention была добавлена поддержка высокоскоростной загрузки и потоковой передачи данных, обеспечивающая обработку сотен тысяч событий в секунду на все той же инфраструктуре. Также, для поддержки пространственно-временного архивирования, анализа и визуализации мы добавили в комплект ArcGIS for Server пространственно-временное хранилище больших объемов данных, основанное на технологии распределенного хранения. Оно обеспечит масштабирование емкости и пропускной способности при использовании дополнительной инфраструктуры. В области визуализации больших данных мы работаем над рядом инициатив, в том числе смарт-картами и визуализацией больших данных со встроенным агрегированием и квантованием.
Для наших пользователей важна поддержка привычных способов работы с системой. Поэтому, мы делаем установку модулей для больших данных очень простой, а вызов инструментов будет по-прежнему предоставляться через формы геообработки, знакомые пользователям ArcGIS Pro и ArcGIS for Server. Кроме того, задачи пакетной аналитики могут быть запрограммированы с использованием ArcPy. В случае GeoEvent Extension, источники, потребители и промежуточные геообработчики могут быть визуально созданы и переданы на исполнение.
В заключение отмечу, что теперь мы можем хранить массивные геопространственные данные, используя менее дорогое оборудование и масштабировать его по горизонтали для увеличения объема. Мы находимся в процессе преобразования еще большего числа задач геообработки от последовательной обработки на модели одного узла – к параллельной обработке на многих узлах. И, наконец, мы воспользуемся расширенными возможностями браузера, такими как 3D и обработка на локальном GPU, чтобы отображать большие массивы данных наиболее динамичным и выразительным образом.
Опубликовано на портале Geospatial World.