Clasificarea în Data Mining

Clasificarea este o tehnică de extragere a datelor care atribuie categorii unei colecții de date pentru a ajuta la predicții și analize mai precise. De asemenea, numit uneori numit " Arborele de decizie" , clasificarea este una dintre mai multe metode destinate să efectueze analiza seturilor de date foarte mari.

De ce clasificarea?

Bazele de date foarte mari devin norma în lumea de astăzi a "datelor mari". Imaginați-vă o bază de date cu mai multe terabyte de date - un terabyte este de un miliard de octeți de date.

Facebook singură absoarbe 600 terabiți de date noi în fiecare zi (începând din 2014, ultima dată când a raportat aceste specificații). Provocarea principală a datelor importante este cum să înțelegem acest lucru.

Iar volumul mare nu este singura problemă: datele mari au tendința de a fi diverse, nestructurate și care se schimbă rapid. Luați în considerare datele audio și video, postările social media, datele 3D sau datele geospațiale. Acest tip de date nu este ușor clasificat sau organizat.

Pentru a face față acestei provocări, au fost dezvoltate o serie de metode automate de extragere a informațiilor utile, printre care clasificarea .

Cum functioneaza clasificarea

Cu pericolul de a merge prea departe în tehnologie, să discutăm cum funcționează clasificarea. Scopul este de a crea un set de reguli de clasificare care să răspundă la o întrebare, să ia o decizie sau să prezică comportamentul. Pentru a începe, se dezvoltă un set de date de antrenament care conține un anumit set de atribute, precum și rezultatul probabil.

Funcția algoritmului de clasificare este de a descoperi modul în care setul de atribute ajunge la concluzia sa.

Scenariu : Poate că o companie de cărți de credit încearcă să determine care sunt perspectivele care ar trebui să primească o ofertă de card de credit.

Acesta ar putea fi setul de date de antrenament:

Datele de instruire
Nume Vârstă Gen Venit anual Oferta de card de credit
John Doe 25 M $ 39.500 Nu
femeie necunoscută 56 F $ 125.000 da

Coloanele "predictor" Vârsta , sexul și venitul anual determină valoarea ofertei de carduri de credit "atribut predictor". Într-un set de antrenament, atributul predictor este cunoscut. Algoritmul de clasificare încearcă apoi să determine cum a fost atinsă valoarea atributului predictor: ce relații există între predictori și decizie? Acesta va dezvolta un set de reguli de predicție, de obicei o instrucțiune IF / THEN, de exemplu:

Dacă (Vârsta> 18 SAU Vârsta <75) ȘI venitul anual> 40.000 THEN Oferta de card de credit = da

Evident, acesta este un exemplu simplu, iar algoritmul ar avea nevoie de o eșantionare de date mult mai mare decât cele două înregistrări prezentate aici. Mai mult, regulile de predicție ar putea fi mult mai complexe, inclusiv sub-reguli pentru a capta detaliile atributelor.

Apoi, algoritmului i se dă un set de "date predictive" pentru analiză, dar acest set nu are atributul (sau decizia) de predicție:

Predictor Data
Nume Vârstă Gen Venit anual Oferta de card de credit
Jack Frost 42 M $ 88.000 de
Mary Murray 16 F $ cu 0

Aceste date de predicție ajută la estimarea corectitudinii normelor de predicție, iar regulile sunt apoi modificate până când dezvoltatorul consideră că predicțiile sunt eficiente și utile.

De la o zi la alta Exemple de clasificare

Clasificarea și alte tehnici de extragere a datelor se află în spatele multor experiențe de zi cu zi ca și consumatori.

Prognoza meteo ar putea face uz de clasificare pentru a raporta dacă ziua va fi ploioasă, însorită sau înnorată. Profesia medicală ar putea analiza condițiile de sănătate pentru a prezice rezultatele medicale. Un tip de metodă de clasificare, Naive Bayesian, folosește probabilitatea condiționată de clasificarea e-mailurilor spam. De la detectarea fraudei la ofertele de produse, clasificarea este în spatele scenei în fiecare zi analizând datele și generând predicții.