Розвиток методів запису і зберігання даних привів до бурхливого зростання об'ємів збираної і аналізованої інформації. Об'єми даних настільки значні, що людині просто не під силу проаналізувати їх самостійно, хоча необхідність проведення такого аналізу цілком очевидна, адже в цих "сирих даних" укладені знання, які можуть бути використаний при ухваленні рішень.
Для того, щоб провести автоматичний аналіз даних, використовується Data Mining (здобування (витягання) знань). Це нова технологія інтелектуального аналізу даних з метою виявлення прихованих закономірностей у вигляді значущих особливостей, кореляцій, тенденцій і шаблонів. Сучасні системи добування даних використовують засновані на методах штучного інтелекту засоби уявлення і інтерпретації, що і дозволяє знаходити розчинену в терабайтних сховищах не очевидну, але вельми цінну інформацію. Фактично, ми говоримо про те, що в процесі Data mining система не відштовхується від наперед висунутих гіпотез, а пропонує їх сама на основі аналізу.
Існує безліч визначень Data Mining, але в цілому вони співпадають у виділенні чотирьох основних ознак. Згідно визначенню, Г. Пиатецкого-Шаниро (G. Pia-tetsky Shapiro,GTE Labs), одного з ведучих світових експертів в даній області, Data Mining — дослідження і виявлення алгоритмами, засобами штучного інтелекту в "сирих даних" прихованих структур, шаблонів або залежностей, які:
• раніше не були відомі;
• нетривіальні;
• практично корисні;
• доступні для інтерпретації людиною і необхідні для ухвалення рішень в різних сферах діяльності.
Специфіка сучасних вимог до продуктивної переробки інформації наступна:
• дані мають необмежений обсяг;
• дані є різнорідними (кількісними, якісними, текстовими);
• результати повинні бути конкретний і зрозумілий;
• інструменти для обробки "сирих даних" повинні бути прості у використовуванні.
Традиційна математична статистика, що довгий час претендувала на роль основного інструменту аналізу даних, не відповідала виниклим проблемам. Головна причина – концепція усереднювання по вибірці, що приводить до операцій над фіктивними величинами. Методи математичної статистики виявилися корисними головним чином для перевірки наперед сформульованих гіпотез і для "грубого розвідувального аналізу", що становить основу оперативної аналітичної обробки даних OLAP.
В основу сучасної технології Data Mining встановлена концепція шаблонів (pattern), що відображають фрагменти багатоаспектних взаємостосунків в даних. Цими шаблонами є закономірності, властиві підвибіркам даних, які можуть бути компактно виражені у формі, зрозумілій людині. Пошук шаблонів проводиться методами, не обмеженими рамками апріорних припущень про структуру вибірки і вид розподілів значень аналізованих показників. Причини популярності Data Mining:
• стрімке накопичення даних (рахунок йде вже на экзабайти);
• загальна комп'ютеризація бізнес-процесів;
• проникнення Інтернет у всі сфери діяльності;
• прогрес в області інформаційних технологій: вдосконалення СУБД і сховищ даних;
• прогрес в області виробничих технологій: стрімке зростання продуктивності комп'ютерів, об'ємів накопичувачів, впровадження Grid систем.
- Преподаватель: Тімур Желдак