Ce este k-înseamnă Clustering?

Extracția de date cu algoritmul k-mean

Algoritmul de grupare k- înseamnă un instrument de extragere a datelor și de învățare a mașinilor utilizat pentru a grupa observațiile în grupuri de observații conexe, fără cunoașterea prealabilă a acestor relații. Prin eșantionare, algoritmul încearcă să afișeze în ce categorie sau grup aparțin datele, numărul de clustere fiind definit de valoarea k.

Algoritmul k- înseamnă una dintre cele mai simple tehnici de grupare și este utilizat în mod obișnuit în domeniul imaginilor medicale, al biometriei și al domeniilor conexe. Avantajul clustering-ului înseamnă că vă spune despre datele dvs. (folosind formularul său nesupravegheat), mai degrabă decât trebuie să instruiți algoritmul cu privire la date la început (folosind formularul supravegheat al algoritmului).

Este uneori denumit Algoritmul lui Lloyd, în special în cercurile de informatică, deoarece algoritmul standard a fost inițial propus de Stuart Lloyd în 1957. Termenul "k-means" a fost inventat în 1967 de James McQueen.

Cum funcționează algoritmul K-means

Algoritmul k înseamnă un algoritm evolutiv care își câștigă numele din metoda de operare. Algoritmul cuprinde observațiile în grupuri k , unde k este furnizat ca parametru de intrare. Apoi atribuie fiecare observație clusterelor pe baza apropierii observării față de media clusterului. Media medie a grupului este apoi recuperată și procesul începe din nou. Iată cum funcționează algoritmul:

  1. Algoritmul selectează în mod arbitrar puncte k ca centre de grupare inițială (mijloacele).
  2. Fiecare punct din setul de date este alocat clusterului închis, pe baza distanței euclidane dintre fiecare punct și fiecare centru de cluster.
  3. Fiecare centru de cluster este recalculat ca medie a punctelor din acel cluster.
  4. Pașii 2 și 3 se repetă până când grupurile converg. Convergența poate fi definită în mod diferit în funcție de implementare, dar în mod normal înseamnă că niciunul dintre observații nu modifică clusteri atunci când se repetă etapele 2 și 3 sau că modificările nu fac o diferență semnificativă în definirea clusterelor.

Alegerea numărului de clustere

Unul dintre principalele dezavantaje pentru k- înseamnă clustering este faptul că trebuie să specificați numărul de clustere ca intrare în algoritm. Așa cum a fost proiectat, algoritmul nu este capabil să determine numărul corespunzător de clustere și depinde de utilizator pentru a identifica acest lucru în avans.

De exemplu, dacă ați avea un grup de persoane care urmează să fie grupate pe baza identității binare de sex ca bărbat sau femeie, apelând algoritmul k- means folosind inputul k = 3 ar forța oamenii în trei grupuri atunci când doar două intrarea lui k = 2, ar asigura o potrivire mai naturală.

În mod similar, dacă un grup de indivizi au fost grupați cu ușurință în funcție de starea de origine și ați numit algoritmul k - mean cu intrarea k = 20, rezultatele ar putea fi prea generalizate pentru a fi eficiente.

Din acest motiv, este adesea o idee bună să experimentați diferite valori ale lui k pentru a identifica valoarea care se potrivește cel mai bine cu datele dvs. De asemenea, vă recomandăm să explorați utilizarea altor algoritmi de extragere a datelor în căutarea cunoștințelor învățate de mașină.