Фрагмент для ознакомления
2
Задание 1. Технологии интеллектуального анализа данных
Введение
Результатом развития информационных технологий и сети Internet является количество информации, накопленной человечеством в электронном виде: тексты, изображения, аудио, видео, гипертекстовые документы, базы данных и т.д.
Современные системы извлечения информации используют основанные на методах искусственного интеллекта средства представления и интерпретации для поиска в терабайтных хранилищах весьма ценной информации. Большинство современных программ контент-анализа ограничены обработкой текста, однако их возможности гораздо шире. Примером технологии этого поколения является технология «добычи» данных или Text Mining. Вообще результатом естественной эволюции информационных технологий стали облачные технологии и методы (классификация, кластеризация, прогнозирование) и технологии (Data Mining, Text Mining, Web Mining, OLAP) интеллектуального анализа данных
Причинами их популярности стали следующие: стремительное накопление данных; общая компьютеризация; проникновение Интернет во все сферы деятельности; прогресс в области информационных технологий (совершенствование СУБД и хранилищ данных); прогресс в области производственных технологий (рост производительности компьютеров, объемов накопителей, внедрение Grid-систем).
Несмотря на количество методов Data Mining, приоритет все больше смещается в сторону логических алгоритмов поиска данных if-then алгоритмов, с помощью которых решаются задачи прогнозирования, классификации, распознавания образов, сегментации БД, извлечения из данных скрытых знаний, интерпретации данных, установления ассоциаций в БД и прочее. Результаты таких алгоритмов эффективны и легко интерпретируются. Но главной проблемой логических методов выявления закономерностей является проблема перебора вариантов за ограниченное время. Эти методы искусственно ограничивают такой перебор и строят деревья решений с принципиальными ограничениями эффективности поиска if-then правил.
Основная особенность Data Mining - это сочетание широкого математического инструментария (от классического статистического анализа к новым кибернетических методов) и последних достижений в сфере информационных технологий.
В технологии Data Mining гармонично объединились строго формализованные методы и методы неформального анализа, т.е. количественный и качественный анализы данных. Большинство аналитических методов, используемых в технологии Data Mining - это известные математические алгоритмы и методы. Новым является то, что их можно применять при решении тех или иных конкретных проблем. это обусловлено новыми свойствами технических и программных средств.
Интеллектуальный анализ данных (Data Mining) это современная концепция анализа данных, предполагает, что данные могут быть неточными, неполными (содержать пробелы), противоречивыми, разнородными, косвенными, и при этом иметь гигантские объемы. Поэтому понимание данных в конкретных программах требует значительных интеллектуальных усилий. В интеллектуальном анализе данных применяется математический аппарат для выявления закономерностей и тенденций, существующих в данных. Как правило, такие закономерности нельзя обнаружить при традиционном просмотре данных, поскольку связи слишком сложные, или из-за чрезмерных объемы данных. Построение модели интеллектуального анализа данных является частью более масштабного процесса, в который входят все задачи, от формулировки вопросов данных и создание модели для ответов на эти вопросы развертывания модели в рабочей среде. Интеллектуальный анализ данных - это обработка информации и выявления в ней моделей и тенденций, которые помогают принимать решения. Необходимость интеллектуального анализа данных возникла в конце XX века в результате повсеместного распространения информационных технологий, позволяющих детально протоколировать процессы бизнеса и производства. Большие объемы данных, широту и разнообразие информации привели к взрывному росту популярности методов интеллектуального анализа данных.
Методы интеллектуального анализа данных
Технологии анализа данных, основанные на применении классических статистических подходов, имеют ряд недостатков. Соответствующие методы основаны на использовании усредненных показателей, на основании которых трудно выяснить истинное положение дел в исследуемой сфере (например, средняя зарплата по стране не отражает ее размера в больших городах и в селах). Методы математической статистики оказались полезными прежде всего для проверки заранее сформулированных гипотез и «грубого» разведочного анализа, составляет основу оперативной аналитической обработки данных (OLAP).
Например, исследования специалистов Гарвардского института показывают, что на основе имеющейся информации с помощью стандартных статистических методов нельзя было предусмотреть великой депрессии конца 1920-х годов.
Кроме того, стандартные статистические методы отвергают (пренебрегают) нетипичные наблюдения - так называемые пики и всплески. Однако отдельные нетипичные значения могут составлять самостоятельный интерес для исследования, характеризуя некоторые исключительные, но важные явления. Даже сама идентификация этих наблюдений, не говоря об их последующий анализ и подробное рассмотрение, может быть полезной для понимания сущности изучаемых объектов или явлений. Как показывают современные исследования, именно такие события могут стать решающими относительно будущего поведения и развития сложных систем.
Эти недостатки статистических методов побудили к развитию новых методов исследования сложных систем, основанных на нелинейной динамике, теории катастроф, фрактальной геометрии и т.п. (см. Разд. 5).
В то же время возникла насущная необходимость в такой технологии, которая автоматически добывала бы с данных новые нетривиальные знания в форме моделей, зависимостей, законов и т.д., гарантируя при этом их статистическую значимость. Новейшие подходы, направленные на решение этих проблем, получили название технологий интеллектуального анализа данных.
В основу этих технологий положена концепция шаблонов (паттернов), отражающих определенные фрагменты многоаспектных связей в множестве данных, характеризуя закономерности, присущие подвыборки данных, которые можно компактно представить в понятной человеку форме. Шаблоны ищут методами, выходящими за пределы априорных предположений относительно структуры выборки и вида разделений значений анализируемых показателей. Важная особенность этой технологии заключается в нетривиальности отыскиваемых шаблонов. Это означает, что они должны отражать неочевидные, неожиданные регулярности в множестве данных, составляющие так называемое скрытое знание. Ведь совокупность первичных («сырых») данных может содержать и глубинные слои знаний.
Knowledge Discovery in Databases (дословно: «выявление знаний в базах данных» - KDD) - аналитический процесс исследования больших объемов информации с привлечением средств автоматизации, имеет целью выявить скрытые в множестве данных структуры, зависимости и взаимосвязи. При этом предполагается полная или частичная отсутствие априорных представлений о характере скрытых структур и зависимостей. KDD предполагает, что человек предварительно осмысливает задачу и подает неполную (в терминах целевых переменных) ее формулировку, преобразует данные в формат пригодного для их автоматизированного анализа и предварительной обработки, проявляет средствами автоматического исследования данных скрытые структуры и зависимости, апробирует обнаружены модели на новых данных, неиспользуемых для построения моделей, и интерпретирует обнаружены модели и результаты.
Итак, KDD - это синтетическая технология, сочетающая в себе последние достижения искусственного интеллекта, многочисленных математических методов, статистики и эвристических подходов. Методы KDD особенно стремительно развиваются в течение последних 20 лет, а ранее задачи компьютерного анализа баз данных выполнялись преимущественно с помощью разного рода стандартных статистических методов.
Data Mining (дословно: «Разработка, добыча данных» - DM) - исследование «сырых» данных и выявления в них с помощью «машины» (алгоритмов, средств искусственного интеллекта) скрытых нетривиальных структур и зависимостей, которые ранее не были известны и имеют практическую ценность и пригодны для того, чтобы их интерпретировала человек.
Рассмотрим различия между средствами Data Mining и OLAP. Технология OLAP направлена на поддержание процесса принятия управленческих решений и используется для поиска ответа на вопрос: почему некоторые вещи такими, какие они есть на самом деле? При этом пользователь сам формирует модель-гипотезу о данных или отношение между данными, а дальше, применяя серию запросов к базе данных, подтверждает или отклоняет выдвинутые гипотезы. Средства Data Mining отличаются от средств OLAP тем, что вместо проверки предполагаемых пользователем взаимозависимостей они на основе имеющихся данных сами могут строить модели, которые позволяют количественно и качественно оценивать степень влияния различных исследуемых факторов на заданную свойство объекта. Кроме того, средства DM позволяют формулировать новые гипотезы о характере неизвестных, но, реально существующих, зависимостей между данными.
Средства OLAP применяются на ранних стадиях процесса KDD, поскольку они позволяют лучше понять данные, что, в свою очередь, обеспечивает эффективный результат процесса KDD.
Главная цель технологии KDD - построение моделей и отношений, скрытых в базе данных, то есть таких, которые нельзя найти обычными методами. Стоит отметить, что на компьютеры переводятся не только рутинные операции (скажем, проверка статистической значимости гипотез), но и операции, до недавнего времени были отнюдь не рутинными (выработка новых гипотез). KDD позволяет увидеть такие отношения между данными, оставались вне поля зрения исследователей.
Строя модели, мы устанавливаем количественные связи между характеристиками изучаемого явления.
Можно выделить модели двух типов: прогнозные и описательные (дескриптивные). Модели первого типа используют наборы данных с известными результатами для построения моделей, явно прогнозируют результаты для других наборов данных, а модели второго типа описывают зависимости в имеющихся данных. Оба типа моделей используются для принятия управленческих решений.
Технология KDD позволяет не только подтверждать (отбрасывать) эмпирические выводы, но и строить новые, неизвестные ранее модели. Найдена модель не сможет основном претендовать на абсолютное знание, но она предоставляет аналитику некоторые преимущества уже благодаря самому факту обнаружения альтернативной статистически значимой модели, а также, возможно, становится поводом для поиска ответа на вопрос: действительно ли существует выявлена взаимосвязь и является ли он причинным? А это, в свою очередь, стимулирует углубленные исследования, способствуя более глубокому пониманию изучаемого явления.
Итак, важнейшая цель применения технологии KDD к исследованию реальных систем - это улучшение понимания сути их функционирования.
Отметим, что процесс выявления знаний не вполне автоматизированным - он требует участия пользователя (эксперта, лица, принимающего решение). Пользователь должен четко осознавать, что он ищет, основываясь на собственных догадках. В конце концов вместо того, чтобы подтверждать имеющуюся гипотезу, процесс поиска часто способствует появлению ряда новых гипотез. Все это обозначается термином «discovery-driven data mining» (DDDM), и сроки Data Mining, Knowledge Discovery в общем случае относятся к технологии DDDM.
Интеллектуальный анализ данных
В связи с совершенствованием технологий записи и хранения данных человечество получило колоссальные потоки информационной «руды» во всевозможных областях. Деятельность любого предприятия (коммерческого, производственного, медицинского, научного и т.д.) теперь сопровождается регистрацией и записью всех подробностей его деятельности. Стал очевидным тот факт, что без продуктивной переработки, потоки сырых данных никому не нужны. Специфика современных требований к такой переработке такова:
• данные имеют неограниченный объем;
• данные являются разнородными (количественными, качественными, текстовыми)
• результаты должны быть конкретные и понятные;
• инструменты для сырых данных должны быть просты в использовании.
Алгоритмы традиционной математической статистики длительное время, как основные, поддерживали концепцию усреднения выборки, которая сводится к операциям над фиктивными величинами (типа средней температуры аудиторий во всех помещениях университета, средней высоты здания города, состоящий из дворцов и лачуг и т.п.).
Методы математической статистики оказались полезными преимущественно для проверки заранее сформулированных гипотез (verification-driven data mining) и для «грубого» разведочного анализа, составляет основу оперативной аналитической обработки данных (online analytical processing, OLAP).
Фрагмент для ознакомления
3
1. Барсегян Ф. Методы и модели анализа данных OLAP и DataMining / Ф. Барсегян, М. Куприянов, В. Степанеенко, И. Холод. – СПб.: БХВ-Петербург, 2008. – 354 с.
2. Барсегян А. А. Технологии анализа данных: Data Mining, Visual Mining, OLAP / А. А. Барсегян, М. С. Куприянов, В. В. Степаненко, И. И. Холод. – СПб.: БХВ-Петербург, 2007 .− 384 с.
3. Башмаков А. И. Интеллектуальные информационные технологии / Башмаков А. И., Башмаков И. А. − М.: МГТУ им. Н. Э. Баумана, 2015. − 304 с.
4. Дюк В. Data Mining: учеб. курс (+CD)/.Дюк В., Самойленко А. – СПб.: Изд-во Питер, 2001. – 368 с.
5. Кречетов Н. Продукты для интеллектуального анализа данных // Рынок программных средств, N14-15_97. – 1997. – C. 32–39.
6. Киселев М. Средства добычи знаний в бизнесе и финансах / М. Киселев, Е. Соломатин // Открытые системы. – 1997. – № 4. – С. 41–44.
7. Степанов Р. Г. Технология Data Mining: Интеллектуальный Анализ Данных / Р. Г. Степанов. – Казань: КГУ, 2008. – 57с.
8. Чубукова И.А. Data Mining: учебн. пособ. – М.: Интернет-университет информационных технологий БИНОМ: Лаборатория знаний, 2006. – 382 с.
9. Шумейко А. А. Интеллектуальный анализ данных (Введение в Data Mining) / А. А. Шумейко, С. Л. Сотник. – Днепропетровск: Белая Е. А., 2015. – 212 с.
10. Шипунов А. Б., Балдин Е. М. Наглядная статистика. Используем R!/ А. Б Шипунов. – 2016. – 296. Режим доступу: https://cran.r-project.org/doc/contrib/ Shipunov-rbook.pdf
11. Шипунов А. Б., Анализ данных с R (II). / А. Б. Шипунов, А. И. Коробейников, Е. М. Балдин. – 2016. – 60. Режим доступу: http://www.inp.nsk.su /~baldin/DataAnalysis/R/R06- gui.pdf
12. Венэбльз У. W. Н.. Введение в R Заметки по R: среда программирования для анализа данных и графики. /У. W. Н. Венэбльз, Д. М. Смит – Москва, 2018. 109 с. Режим доступу: http://www.ievbras.ru/ecostat/Kiril/R/Biblio_N/R_Rus /Venables.pdf 5.
13. Нагорный Олег Курс “Введение в анализ данных” [Електронний ресурс]. – Режим доступу до ресурсу: https://amueller.github.io/COMS4995-s19/slides/.
14. Data Mining and Image Processing Toolkits. – [Електронний ресурс]. – Режим доступу http://datamining.itsc.uah.edu/adam/.
15. 3. Knowledge Discovery Through Data Mining: What Is Knowledge Discovery? – Tandem Computers Inc., 1996 – 253 s.
16. Mining of Massive Datasets [Електронний ресурс]. – 2020. – Режим доступу до ресурсу: http://www.mmds.org/.
17. Andreas C. Muller Course COMS-W4995 Applied Machine Learning [Електронний ресурс]. – Режим доступу до ресурсу: https://nagornyy.me/courses/data-science/