...

понедельник, 28 сентября 2015 г.

[Из песочницы] Big Data vs Data Mining

В последнее время очень часто, как внутри команды, так и снаружи ее, я часто встречаю разное толкование понятий “Big Data” и “Data Mining”. Из-за этого растет непонимание между Исполнителем и Заказчиком относительно предлагаемых технологий и желаемого результата для обеих сторон.
Положение усугубляет отсутствие четких определений от какого-то общепринятого стандартизатора, а также разный порядок стоимости работ в глазах потенциального покупателя.

На рынке сложилось мнение, что “Data mining” — это когда Исполнителю отгрузили дамп, он там нашел пару трендов, сгенерил отчет и получил свой миллион рублей. С “Big Data” все гораздо интереснее. Люди думают, что это нечто из черной магии, а магия стоит дорого.

Целями данной статьи являются доказательство отсутствия существенных различий между толкованием данных понятий, а также разъяснение основных темных пятен в понимании предмета.

Что такое Big Data


Вот что дает нам википедия на http://ift.tt/1MA0gxk:

Большие данные (англ. big data) в информационных технологиях — серия подходов, инструментов и методов обработки структурированных и неструктурированных данных огромных объёмов и значительного многообразия для получения воспринимаемых человеком результатов, эффективных в условиях непрерывного прироста, распределения по многочисленным узлам вычислительной сети, сформировавшихся в конце 2000-х годов, альтернативных традиционным системам управления базами данных и решениям класса Business Intelligence.

Что мы видим? Определение, которое должно определять по виду некий предмет (большой велосипед, маленькое дерево, самокат и т.д.), определяет на самом деле некое множество методов и целей, фактически определяя некий спектр процессов. Можно ли согласиться с таким определением, с допущением того, что бег трусцой (процесс) можно обозвать чайником (предмет)? Сложно сказать, попытаемся декомпозировать определение.

Big Data — это:

  • некие технологии, инструменты и методы;
  • данные могут быть структурированные и неструктурированные;
  • данные должны быть огромных размеров;
  • в итоге обработки данных мы должны получить некий профит.

В данных компонентах определения не ясно что такое:
  • неструктурированные данные;
  • огромный размер.

К задачам, решаемым методами Big Data относят:
  • сбор данных (парсеры, гейты и т.д.);
  • хранение данных (построение сложных ХД);
  • работа с данными (агрегация, анализ, описание);
  • выявление взамосвязей и построение трендов (возможно, с конечной целью предсказания).

Неструктурированные данные

Вот что дает нам википедия на http://ift.tt/KUjoDe:

Unstructured Data (or unstructured information) refers to information that either does not have a pre-defined data model or is not organized in a pre-defined manner. Unstructured information is typically text-heavy, but may contain data such as dates, numbers, and facts as well.

Другими словами, нам пытаются сказать, что существуют данные без структуры… Причем приводят самый убийственный пример таких данных — текст. Интересно, что сказала бы моя учительница по русскому языку и литературе, если бы узнала, что русский язык\текст не имеет четкой структуры и как следствие — годы его изучения бессмысленны, так как мы учим правила, которых, как утверждают некоторые, не существует.

Для понимания моей точки зрения приведу пример — поле text в Postgres. Допустим я положу туда JSON. Для 8 версии — это будет просто text (неструктурированные данные), для 9 — это уже будет JSON (структурированные данные). То есть одни и те же данные одновременно являются и структурированными и неструктурированными? Опять невообразимый дуализм с лекций по физике? Ответ прост — неструктурированных данных не существует, просто для некоторых видов данных пока нет общепринятых и одновременно с этим широкораспространенных методов работы с этими данными.

Грамотный читатель, конечно же, воскликнет — а как же видеоданные? Любое видео — это набор кадров. Любой кадр — это изображение. Изображения бывают двух видов:

  • векторные;
  • растровые.

Назвать векторные изображения неструктурированными крайне сложно. Здесь можно почитать хотя бы про SVG формат, который по сути является XML. Растровые изображения — это по факту массив точек, каждая из которых описывается вполне себе четкой структурой данных.

Итогонеструктурированных данных не существует.

Огромный размер

Здесь разночтений с общественным мнением у меня нет. Как только с объемом данных начинаются проблемы (сложно принимать, сложно хранить, сложно обрабатывать и т.д.) — у вас огромный размер (данных). Понятие довольно субъективное, для меня огромный размер измеряется в штуках. Для меня нижняя граница Big Data — миллион записей. Обоснование — запросы к СУБД со сложностью типа Θ( n2 ) на таком объеме выполняются несколько минут, что для меня долго.

Для других людей обоснование\критерий может быть другой, следовательно и нижняя граница огромного размера будет иной.

Что такое Data Mining


Вот что дает нам википедия на http://ift.tt/1GMTAHq:

Data Mining (рус. добыча данных, интеллектуальный анализ данных, глубинный анализ данных) — собирательное название, используемое для обозначения совокупности методов обнаружения в данных ранее неизвестных, нетривиальных, практически полезных и доступных интерпретации знаний, необходимых для принятия решений в различных сферах человеческой деятельности. Термин введён Григорием Пятецким-Шапиро в 1989 году.

Переведя на простой язык — у вас уже есть некий массив данных, который был уже ранее как-то обработан, а теперь вы этот массив данных обрабатываете снова, возможно как-то иначе чем прежде, и получаете некие полезные выводы, которые далее используете для получения профита.
Получается, что согласно определения википедии, декомпозиция “Data Mining” включает:

  • некие технологии, инструменты и методы;
  • данные уже структурированы, так как уже как-то хранятся и с ними уже как-то работают;
  • данные могут быть любых размеров;
  • в итоге обработки данных мы должны получить некий профит.

К задачам, решаемым методами Data Mining относят:
  • работа с данными (агрегация, анализ, описание);
  • выявление взамосвязей и построение трендов (возможно, с конечной целью предсказания).

Выводы


Согласно проведенным выше декмопозициям определений — Data mining как бы “выигрывает” у Big Data за счет демократичного подхода к объему данных.

Согласно списку задач, решаемым при помощи методов Big Data и Data Mining, “выигрывает” уже Big Data, так как решает задачи сбора и хранения данных.

Таким образом, если учесть, что исследовать малые объемы данных в принципе не целесообразно, то значение понятия Data Mining полностью включено в значение понятия Big Data. Следовательно, те кто говорят, что эта задача является всего лишь “Data Mining”, а не волшебная “Big Data”, говорят примерно следующее — “Это не птица, это всего лишь голубь”, что является не верным с точки зрения формальной логики, которую мы все так уважаем.

Что касается цены, то в обоих областях знаний относительно пересекающихся задач используется идентичный стек технологий, инструментов и методов. Как следствие, цена на работы тоже должна быть одного порядка.

В заключение имеет смысл добавить, что многие пытаются сравнивать эти понятия между собой и другими понятиями (например, с задачей highload, как это сделал автор здесь: http://ift.tt/1MA0gxn) по стеку программных средств. Например, если мы используем RDBMS, то это уже 100% не Big Data.

Не могу согласиться с такой точкой зрения, потому что современные RDBMS оперируют внушительными объемами данных и позволяют внутри себя хранить данные практически любых типов, которые при правильном индексировании довольно быстро агрегируются и выдаются на уровень приложения, причем есть возможность написать собственный механизм индексирования.

Вообще, неверно классифицировать класс задач по стеку програмно-технических средств, так как любая уникальная задача требует уникального подхода, который включает те инструменты, которые максимально эффективны для решения этой конкретной задачи.

This entry passed through the Full-Text RSS service - if this is your content and you're reading it on someone else's site, please read the FAQ at http://ift.tt/jcXqJW.

Комментариев нет:

Отправить комментарий