Что там, на вершине Data Science?


Специалист по Data Science (науке о данных) – это универсальный сотрудник, охватывающий аналитику и обработку информации. Основные требования к специалисту по Data Science: умение извлекать необходимую информацию из разнообразных источников; использовать информационные потоки в режиме реального времени; устанавливать скрытые закономерности в массивах данных и анализировать их для принятия грамотных бизнес-решений. Редкое сочетание компетенций определяет зарплату специалиста по изучению данных - в США она составляет от $110 тыс. до $140 тыс. в год. "Эта вакансия становится все более востребованной",- отмечает на страницах IT World Лора Келли (Laura Kelley), вице-президент агентства по ИТ-консалтингу и подбору персонала Modis (США).

Составная часть Data Science - Data Mining. Это процесс, цель которого - обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образцов плюс применение статистических и математических методов (определение Gartner Group).

Предполагается, что достаточно запустить такой инструмент на терабайтной базе данных, и моментально появится полезная информация. Но на практике процесс реализации Data Mining оказывается более сложным, чем ожидается. В основу технологии Data Mining положена концепция шаблонов (patterns), которые представляют собой закономерности, свойственные подвыборкам данных, и могут быть выражены в форме, понятной человеку. Это означает, что около 75% работы над Data Mining состоит в анализе сырых данных, который совершается еще до того, как запускаются сами инструменты.

Известный эксперт в области Data Mining, Херб Эдельштайн (Herb Edelstein) считает, что успешный Data Mining проект требует понимания сути анализируемой деятельности, знания данных и инструментов, а также процесса анализа данных. Поэтому, результаты Data Mining в большой мере зависят от уровня подготовки данных, а не от "чудесных возможностей" некоего алгоритма или набора алгоритмов.

Странно, что многие думают, что Data Mining и Data Science - это только про цифры, про математику.

Что нужно для получения максимума полезной информации от применения Data Science?

Во-первых, качественный анализ ситуации (события, явления) и выдвижение гипотез ее развития до применения математики, а после обнаружения корреляций – установление причинно-следственных связей между параметрами. Формулировка гипотез является самой сложной задачей, поскольку требует не только глубоких знаний предмета исследований, но и знаний в смежных областях науки. Установление причинно-следственных связей необходимо для адекватного отражения событий (процессов, действий) и требуется потребителю. «Скрытые» зависимости далеко не всегда отражают причинно-следственные связи.

Во-вторых, формирование понятных пользователю критериев анализа. При этом необходимо учитывать, что данные устаревают очень быстро. Подумайте, насколько эффективны старые данные, когда дело доходит до реального практического использования результатов.

В-третьих, самое интересное в анализе больших данных – это нахождение универсальных эвристических правил, жизненных цикл которых значительно больше, чем конкретных данных. Если по определенным признакам уловить эти правила, то можно предсказать поведение человека во многих ситуациях и понять, чем они завершатся. Непредвиденное изменение внешних факторов не может отменить реализацию прогноза, основанного на эвристиках, но в состоянии сдвинуть его временные рамки.

Ведь смысл применения Data Science – это помощь в принятии решений, и если решение неверное, то какой смысл в том, что его можно принять быстро. Специалисты по Data Science, ориентированные на математику, с этим не справляются.

#искусственныйинтеллект #кибернетика

Избранные посты
Недавние посты
Архив
Поиск по тегам
Тегов пока нет.
Мы в соцсетях
  • Facebook Basic Square
  • Twitter Basic Square
  • Google+ Basic Square