Большие возможности больших данных

№38(788) 23 — 29 сентября 2016 г. 21 Сентября 2016 4.7

По прогнозу IDC, планируемый рост доходов рынка «больших данных» (Big Data) и бизнеса, связанного с аналитическим программным обеспечением, в пятилетнем периоде составит более чем 50%, с почти 122 млрд. долл. в 2015 г. до более чем 187 млрд. к 2019-му (www.idc.com).

Что же представляют собой технологии Big Data, и какие новые горизонты они открывают для общества, политики, экономики и даже спортивных достижений?

Вот одно из определений концепции: обработка любого количества структурированных, частично структурированных и неструктурированных данных для получения потенциально полезной информации.

Таким образом, результатом применения технологий Big Data становится получение информации, которая может эффективно использоваться в различных областях жизнедеятельности, из обрывочных несистематизированных данных.

Немного истории

Хотя термин Big Data был предложен рыночным аналитиком Роджером Мугласом в 2005 г., проблема обработки и применения имеющихся данных, решалась на протяжении веков. Так, первые ранние записи об анализе и использовании данных для оптимизации бизнес-процессов имеют возраст порядка 7000 лет. Впервые сбором информации для учета произрастания сельхозкультур занялись в Месопотамии.

Принципы сбора и обработки различных величин непрерывно совершенствовались. Это позволило ученому Джону Граунту в 1663 г. собрать и проанализировать данные о смертности в Лондоне, что привело к зарождению такой науки, как демография.

Отправной точкой современных методов обработки информации считается 1889 г., когда Германом Холлеритом была изобретена вычислительная система, использующая перфокарты, для систематизации данных переписи.

Следующим огромным скачком стало принятие в США в 1937 г. администрацией президента Рузвельта закона о социальном обеспечении. После принятия этого акта правительству Соединенных Штатов потребовалось обрабатывать данные о миллионах американцев. С этой целью был заключен контракт с IBM на разработку информационной системы на перфокартах, которая смогла бы обрабатывать огромные объемы данных.

Однако первой по-настоящему серьезной вычислительной машиной, обрабатывающей большие массивы данных, стала разработанная в 1943 г. в Великобритании система «Колосс», применявшаяся для расшифровки нацистских шифровочных кодов. Скорость обработки данных 5000 символов в секунду позволила ускорить работу по расшифровке с нескольких недель до нескольких часов. Принцип работы этой машины состоял в поиске повторяющихся последовательностей, с определенной периодичностью появлявшихся в перехватываемых сообщениях.

Во времена «холодной войны» АНБ для расшифровки кодов начало разрабатывать вычислительные системы, которые смогли бы работать полностью автономно, самостоятельно собирая и обрабатывая информацию.

Первый настоящий дата-центр был построен правительством США в 1965 г. для хранения миллионов налоговых деклараций и наборов отпечатков пальцев. Эта база данных стала отправной точкой в повсеместном распространении крупных хранилищ информации.

Одним из первых современных проектов, реализующих концепцию Big Data, стал открытый проект Hadoop, созданный инженерами компании Yahoo для индексации World Wide Web-страниц с целью организации поисковой системы.

Структура рынка

Сообщество Wikibon подразделяет рынок на следующие направления:

— сегмент профессиональных сервисов, он составляет около 40% рынка (по состоянию на конец 2015 г.);

— сегмент аппаратных решений, около 31%;

— сегмент программного обеспечения для Big Data, 29%.

Однако согласно данным Wikibon, структура должна значительно измениться к 2026 г. с долями 29% для профессиональных сервисов, 25% для Hardware-сегмента и 46% для программного обеспечения Big Data.

Из каких компаний состоит топ-лист трех ведущих компаний, предлагающих программные решения для бизнес-аналитики и больших данных согласно IDC?

На первом месте располагается компания Oracle, захватившая, по итогам 2015-го финансового года, 16,4% рынка c доходом от продажи аналитического программного обеспечения порядка 7 млрд. долл. Второе место — у немецкой SAP c долей в 13,1% и доходом около 5,5 млрд. долл. На третьем месте — IBM с 10,3 % и 4,3 млрд. долл.

Концепция работает

Чем же замечательны технологии Big Date и какое применение они нашли в обществе?

Отраслевые эксперты соглашаются с тем, что большие данные изменили правила игры всех современных отраслей промышленности в последние пару лет. В то же время внимание сместилось с попыток понять, как можно применять концепцию, к возможности получить максимальную выгоду. Для большинства людей термин Big Data скорее всего связан с образом огромных серверов — хранилищ данных. Однако концепция распространяется намного дальше простого хранения информации.

Наиболее активно технологии больших данных применяются в потребительском секторе для оценки спроса и более точного воздействия на целевые группы клиентов. С помощью электронного анализа информации создается целенаправленная реклама, позволяющая намного эффективнее воздействовать на аудиторию потребителей.

В свою очередь бизнесу Big Data дают возможность через анализ медиасреды находить более точное позиционирование на рынке, а также проанализировать предполагаемые направления роста.

Применение концепции возможно по отношению не только к бизнесу, но и к отдельному человеку. Широкое распространение носимой электроники, такой как смарт-часы, GPS-трекеры и даже умные кроссовки и др. позволяет собирать огромное количество данных. Правильный анализ и систематизация такой информации позволит человеку как решить проблемы, связанные со здоровьем (в т. ч. избыточного веса, недосыпания, снижение активности), так и повысить качество жизни (за счет анализа циклов сна, потребляемых калорий, воды). При этом рекомендации индивидуальны. Кроме того, данные, получаемые ежедневно, позволяют человеку стать эффективнее за счет более точного распределения времени, затрачиваемого на те или иные дела.

Оцените свое здоровье

Здравоохранение — область, в которой большие данные нашли очень широкое применение. Так, использование Big Data позволяет выявлять проблемы со здоровьем благодаря быстрому анализу ДНК.

Большие данные позволяют прогнозировать развитие болезней, распространение эпидемий, таким образом, давая возможность поставщикам лекарств подготовиться заранее, а региональным властям — принять упредительные меры, в т. ч. провести вакцинацию.

Например, Apple выпустила приложение ResearchKit, в котором пользователям предлагается оценить свое здоровье по нескольким направлениям. Используя датчики смартфона, можно определить развитие болезни Паркинсона, а сохраняя на своем устройстве данные измерений глюкометра, — проследить состояние организма при сахарном диабете. Если пользователь выражает согласие, его данные отправляются в ведущие медицинские учреждения мира с целью анализа и статистики, а также улучшения качества медобслуживания.

Уже имеются приложения, которые помогут распознать рак груди, сердечно-сосудистые заболевания, астму и диабет. Большое преимущество этой платформы — что она является открытой и может развиваться силами сообщества разработчиков, что позволит максимально быстро расширить количество направлений и повысить качество работы сервисов.

Кроме того, большие данные используются в медицине для мониторинга состояния младенцев — больных или после преждевременных родов. Запись и анализ сердечного ритма, дыхания и иных параметров посредством сопоставления с другими случаями позволяют выявлять различные заболевания на самых ранних стадиях. Возможность обнаружить патологии как можно раньше помогает спасать жизнь большему числу новорожденных за счет своевременного и точного лечения.

Компьютер укажет преступника

Big Data активно применяются в сфере безопасности и улучшения правопорядка. Правительственные учреждения, например АНБ в США, используют такую информацию для раннего выявления потенциальной террористической активности.

В бизнесе аналитические данные могут помочь в предотвращении кибератак и несанкционированного доступа.

В полиции применение инструментов Big Data дает возможность выявлять и пресекать преступную деятельность. Например, в 2014 г. департамент полиции Чикаго в штате Иллинойс, США, разослал предписание сотрудникам посетить граждан, которые были определены как такие, что наиболее склонны к совершению преступлений.

Эта группа людей была сгенерирована компьютером путем анализа больших объемов данных.

Офицеры провели встречи с указанным кругом лиц из списка, но не в виде допроса или задержания, а с предложением для них информации о рабочих местах и доступных учебных программах. Далее проводился анализ статистики преступлений и возможной вовлеченности этих людей в криминальную деятельность.

Количество преступлений среди данного круга лиц было значительно ниже по сравнению с группами, не вовлеченными в эксперимент. Однако инициатива была свернута под влиянием общественности как порочащая достоинство людей, которые в действительности могли не быть связанными с преступной деятельностью.

Политики и избиратели

Технологии Big Data активно применяются в предвыборной кампании в США. Команды кандидатов — как республиканцев, так и демократов — берут уроки по использованию больших объемов данных от предприятий розничной торговли. Методы сбора информации о физлицах и использование ее для составления персонализированных посланий потенциальным избирателям набирают все большую популярность. Подобная тактика называется «микротаргетированием» и впервые была применена в избирательной кампании Барака Обамы как один из ее ключевых элементов.

Маркетологи уже давно используют тесты, чтобы определить, какие методы наиболее эффективно работают в рекламе. Объявления, получаемые по почте, часто результат тщательного исследования различных элементов, начиная от цвета конверта и заканчивая оформлением цены продукта.

Онлайновые рекламодатели имеют даже большую возможность для персонализации, чем работающие посредством традиционной почты. Люди замечают, как элементы, просмотренные на одной веб-странице, начинают следовать за ними при переходе на другие. Реклама продукции онлайн также персонализируется на вашей истории покупок и просмотров.

Политические кандидаты активно применяют такие процессы, чтобы эффективно рекламировать себя. Микротаргетирование в политике работает следующим образом. Сначала создается база данных избирателей. Хотя выбор является приватным, регистрационные данные — публичны. Это отправная точка в создании соответствующих баз данных. Республиканская и Демократическая партии, выдвигая кандидатов, создают для них информационные системы, включающие как публичные данные голосующих, так и дополнительные сведения, полученные из коммерческих и других источников. Они дают информацию о составе семьи, роде занятий, раскрывают историю политической и благотворительной деятельности, членство в партиях, данные о владении автомобилями или яхтами, наличии различных разрешений и лицензий, подписке на журналы, волонтерстве и другие показатели политических взглядов.

Далее каждая из избирательных команд работает своими методами. Возможно дополнительно собрать другую информацию, необходимую для анализа. Сбор информации — сложная работа, поэтому полученная информация переходит с этапа праймериз, когда кандидаты соревнуются между собой, к кандидатам, участвующим во всеобщем голосовании. Таким образом, выигравший праймериз имеет данные, собранные не только его командой, но и от всей партии.

Большое количество персонализированной информации получают опросчики. Первоначально вопросы имеют общий характер, например: «Какой кандидат, по вашему мнению, имеет наибольшие шансы на успех?». Далее, согласно данным предварительных исследований, происходит разделение на целевые группы. Затем группы постоянно сужаются, а вопросы становятся более детальными и конкретными.

Микротаргетирование имеет большие преимущества, можно изучить, какие сообщения больше всего подходят определенным избирателям.

Скажем, кандидату важно узнать, как латиноамериканцы со взрослыми детьми отреагируют на послания о возможности трудоустройства молодежи, а избиратели с маленькими детьми — о создании большего числа мест в государственных школах; не исключено, что владельцам пистолетов не понравится позиция по контролю за оборотом оружия, но они могут одобрить план кандидата по экономическому развитию.

Собранная информация помогает кандидату общаться с каждой категорией избирателей более целена-правленно, обсуждая те проблемы, которые интересуют целевую группу, и избегая «неудобных тем». Направленность информации означает, что каждое сообщение, появится ли оно на веб-сайте, в речи, по электронной почте или через агитацию, может быть более эффективным, чем одно подходящее всем.

Волонтеры, отправляясь в определенные районы, будут знать, какого рода людей они встретят и что ответить на вопросы, которые те, скорее всего, зададут.

Агитирующие по телефону могут обратиться к избирателям, используя сценарий, предусматривающий обращение к личности в соответствии с информацией из базы данных.

Это позволяет более эффективно использовать бюджет, выделенный на агитацию, что является огромным преимуществом.

В 2012 г. кампания Обамы не только собрала больше денег, чем кампания Ромни. Она также использовала дополнительные данные о просмотрах на ТВ, полученные от рейтинговых агентств, чтобы размещать рекламу в наиболее подходящее время, для максимально возможного сокращения издержек. Аналитическая работа правой партии позволила не только собрать большее количество денег, но и получить максимальную пользу от каждого потраченного доллара.

Во время сегодняшней предвыборной кампании технологии Big Data анализа данных используются еще более интенсивно, агитация становится все в большей мере персонализированной, воздействующей непосредственно на определенного избирателя.

И хотя эпоха Big Data началась совсем недавно, можно уверенно говорить, что эти технологии уже нашли свое применение во многих сферах. Анализ данных используется не только бизнесом, но и исследователями различных областей науки, медицины, правительственными организациями и силовиками. Число областей жизнедеятельности, где применяются большие данные, непрерывно растет.

Следует, однако, заметить, что у Big Data имеются и отрицательные примеры использования, когда персональные данные могут стать источником злоупотребления, как в случае с полицией Чикаго. Но вместе с тем анализ позволяет выявлять и подавлять террористическую активность на раннем этапе.

Имея тысячелетнюю историю, обработка данных сегодня вышла на новые рубежи, что может радикально изменить жизнь каждого человека. Это технологии, которые перевернут мир.

Уважаемые читатели, PDF-версию статьи можно скачать здесь...

Обманывать вкладчиков запрещено

Верховная Рада приняла два закона, которые напрямую касаются защиты прав вкладчиков

Полонина в огне

С начала 2016 г. в Ивано-Франковской области возникло шесть чрезвычайных ситуаций...

Стратегические издержки пыток: как Америка...

Страх способен подвигнуть политиков к готовности задействовать порой даже самые...

Швейцарская тюрьма установит защиту от дронов

Тюрьма швейцарского города Ленцбург (кантон Аргау) намерена потратить 200 000 франков на...

Комментарии 0
Войдите, чтобы оставить комментарий
Пока пусто
Блоги

Авторские колонки

Ошибка