V minulém čísle softwarového Quasu jsme se podívali na zoubek způsobům, jimiž se dají prezentovat data BI. Tomu předcházelo povídání o nástrojích SQL Serveru pro analýzy dat. Všechny články našeho nevyhlášeného seriálu na téma Business Intelligence najdete na www.daquas.cz (zkuste hledat pod heslem BI experts). A o čem bude páté setkání?

externí autořiexterní autoři
SoftwareSoftware
21.06.2011 11:27:0021.06.2011 11:27:00

externí autoři

externí přispěvatelé magazínu softwarový QUAS

ALSO Czech Republic s.r.o.
+420 222 512 201
+420 603 442 434
daquas@daquas.cz
Anny Letenské 7, Praha 2

Data mining aneb dolování dat

V minulém čísle softwarového Quasu jsme se podívali na zoubek způsobům, jimiž se dají prezentovat data BI. Tomu předcházelo povídání o nástrojích SQL Serveru pro analýzy dat. Všechny články našeho nevyhlášeného seriálu na téma Business Intelligence najdete na www.daquas.cz (zkuste hledat pod heslem BI experts). A o čem bude páté setkání?

Analytické služby SQL Serveru obsahují nástroje pro data mining. Tento pojem je však do značné míry opředen závojem tajemství. Normální člověk si pod dolováním dat, což je doslovný překlad slovního spojení data mining, může představit prakticky cokoliv od ad hoc dotazu přes řezání dat z OLAP (Online Analytical Processing) v kontingenčních tabulkách až po plně automatizovanou pokročilou statistickou analýzu. Vezměme si tedy krumpáč, plivněme si do dlaní a pojďme se na to dolování trošičku podívat.
Pojem data mining se prvně vyskytl již v 60. letech minulého století s rozvojem výpočetní techniky. Jednalo se o využívání regresní analýzy a o první rozhodovací stromy. Od té doby data mining, stejně jako celá oblast IT, prošel značným vývojem.
Co tedy tento pojem znamená ve světě Microsoft SQL Serveru? Jedná se o proces analýzy dat za účelem objevování skrytých souvislostí. Tomuto typu data miningu se někdy říká „dobývání znalostí z databází“ (anglicky KDD, knowledge discovery in databases) nebo prediktivní analýza.

K čemu se dá data mining použít? 

Techniky data miningu se dají použít u téměř všech typů firemních aplikací a mohou odpovídat na různé typy otázek. Aplikací data miningu může být řízení rizika, rozdělení zákazníků do skupin, cílená reklama, předvídání budoucího vývoje, hledání anomálií (např. hledání pojistných podvodů), tvorba doporučení (nabídka zboží, o které by mohl mít klient zájem v online obchodech) a další. 
Základem je tzv. dataminingová struktura. Ta se skládá z tabulky dat, která chceme analyzovat (tzv. „case table“), a z dataminingových modelů, což jsou algoritmy, které se dělí do skupin podle použití. 
Klasifikační algoritmy předvídají jednu nebo více diskrétních veličin na základě vstupních atributů. Příkladem může být potřeba marketingového oddělení identifikovat charakteristiky současných zákazníků, zda si koupí produkt v budoucnosti. Na takovéto zákazníky potom může firma efektivněji zacílit reklamu. Na obrázku 1 vidíte možný výstup práce takovéhoto algoritmu: rozhodovací strom atributů, jež měly vazbu na nákup produktu, a na obrázku 2 síť návazností pro zobrazení síly vazby na nákup.

Regresní algoritmy na základě atributů předvídají jednu nebo více spojitých veličin, jako je například zisk či ztráta. Příkladem může být potřeba managementu předvídat měsíční prodeje produktu pro nadcházející rok. Pokud má management k dispozici informace o prodejnosti produktu za posledních pár let, dají se předvídat prodeje budoucí. V průběhu roku je možné předvídané hodnoty zpřesňovat na základě nově získaných informací. Na obrázku 3 vidíte graf předvídání budoucích prodejů vygenerovaný v Excelovém doplňku pro data mining.

Segmentační algoritmy rozdělují data do skupin s podobnými charakteristikami. Představte si skupinu zákazníků s podobnými demografickými vlastnostmi, kteří kupují podobné produkty. Tato skupina představuje tzv. „trs“ dat. V datech může existovat několik takovýchto „trsů“. Pokud se podíváme na atributy, které dohromady tvoří tento trs, můžeme lépe porozumět jednotlivým záznamům a pochopit souvislosti.
Asociační algoritmy hledají souvislosti mezi různými atributy v souhrnu dat. Nejčastějším použitím takovéhoto typu algoritmu může být analýza nákupního koše. Představte si online obchod sbírající informace, které produkty kupují uživatelé pohromadě. A když přijde zákazník nový a hází věci do košíku, nabídneme mu nevtíravou reklamou produkt, o který měli zájem zákazníci před ním. Co kdyby jej náhodou koupil? No, to by bylo príma.
Sekvenční algoritmy hledají a sumarizují sekvence v datech. Opět příklad s online obchodem. Provozovatel obchodu sbírá informace o uživatelích, zajímá ho, které stránky a v jakém pořadí uživatel navštíví. Může pak z nasbíraných informací vytvořit skupiny uživatelů s podobnými nakupovacími návyky, vytipovat stránky, které mají nejsilnější vazby na nákup konkrétních produktů, a pak s těmito informacemi dále pracovat.

Jak vidíte, využití pro data mining je značné. Kde tedy začít?

Na začátku je zapotřebí formulovat problém a zamyslet se nad možnými řešeními. Pro některé aplikace by mohla být lepší cestou OLAP databáze s reportováním. 
Dále je nutné posbírat vhodná data pro dolování. Většina společností už má v databázích spoustu obchodních informací, ze kterých by mohla těžit. Ať už to jsou systémy finanční, systémy plánování zdrojů (ERP – Enterprise Resource Planning), systémy řízení vztahu se zákazníkem (CRM – Customer Relationship Management), serverové logy, webové servery či jiné systémy.
Data bychom tedy měli. Jak ale praví lidová moudrost: „Co zaseješ, to sklidíš.“ Vstupní data by měla mít patřičnou kvalitu a měla by být vypovídající! Následují tedy úlohy čištění a transformací dat. 
Pokračuje se tvorbou a hodnocením modelu. Poté je potřeba výstupy předat kompetentním lidem (jako ostatně všechny výstupy BI analýz), tedy vytvořit různé reporty.
Jakmile je model hotový, je potřeba jej spravovat, aby reagoval na změny v datech a odrážel aktuální stav. O tyto náležitosti se mohou starat automatizované úlohy v podobě balíčků integračních služeb.
Data mining je rozsáhlá oblast technologií, která může pomoci získat z dat opravdové poklady lidem, kteří rozumí svému problému, rozumí svým datům, vědí, co chtějí získat, a vědí, jak na to.

J i ř í   N e o r a l   |   B I   e x p e r t s 
Společnost BI Experts, s.r.o. se stala první a doposud jedinou firmou působící v oblasti BI na českém trhu, která je držitelem kompetence Gold Business Intelligence.