Regresia analizează relațiile dintre variabile
Regresia este o tehnică de extragere a datelor folosită pentru a prezice o serie de valori numerice (numite și valori continue ), date unui set de date particular. De exemplu, regresia ar putea fi utilizată pentru a prezice costul unui produs sau serviciu, având în vedere alte variabile.
Regresia este utilizată în mai multe industrii pentru planificarea afacerilor și a marketingului, prognozarea financiară, modelarea mediului și analiza tendințelor.
Regresie Vs. Clasificare
Regresia și clasificarea sunt tehnici de exploatare a datelor folosite pentru a rezolva probleme similare, dar sunt frecvent confundate. Ambele sunt folosite în analiza predicției, dar regresia este utilizată pentru a prezice o valoare numerică sau continuă, în timp ce clasificarea atribuie date în categorii discrete.
De exemplu, regresia ar putea fi utilizată pentru a prezice valoarea unei case pe baza locației, picioarelor pătrate, prețului la ultima vândă, prețului caselor similare și altor factori. Clasificarea ar fi în ordine dacă doriți să organizați case în categorii, cum ar fi walkability, dimensiunea lotului sau ratele de criminalitate.
Tipuri de tehnici de regresie
Cea mai simplă și cea mai veche formă de regresie este regresia liniară utilizată pentru a estima o relație între două variabile. Această tehnică folosește formula matematică a unei linii drepte (y = mx + b). În termeni simpli, acest lucru înseamnă pur și simplu că, dată fiind un grafic cu Y și o axă X, relația dintre X și Y este o linie dreaptă cu puține valori extreme. De exemplu, s-ar putea presupune că, având în vedere o creștere a populației, producția de alimente ar crește în aceeași rată - aceasta necesită o relație puternică și liniară între cele două cifre. Pentru a vizualiza acest lucru, luați în considerare un grafic în care axa Y urmărește creșterea populației, iar axa X urmărește producția de alimente. Pe măsură ce crește valoarea Y, valoarea X va crește la aceeași rată, făcând relația dintre ele o linie dreaptă.
Tehnicile avansate, cum ar fi regresia multiplă, prevăd o relație între mai multe variabile - de exemplu, există o corelație între venit, educație și locul unde cineva alege să trăiască? Adăugarea mai multor variabile mărește considerabil complexitatea predicției. Există mai multe tipuri de tehnici de regresie multiple, inclusiv standard, ierarhic, setwise și treptat, fiecare cu aplicație proprie.
În acest moment, este important să înțelegem ceea ce încercăm să previzionăm (variabila dependentă sau prezisă ) și datele pe care le folosim pentru a face predicția (variabilele independente sau predictorii ). În exemplul nostru, vrem să previzionăm locația în care cineva alege să trăiască (variabila previzibilă ) dat venit și educație (ambele variabile ale predictorului ).
- Regresia multiplă standardă ia în considerare toate variabilele de predicție în același timp. De exemplu 1) Care este relația dintre venit și educație (predictori) și alegerea vecinătății (prezisă); și 2) în ce măsură contribuie fiecare dintre predictorii individuali la această relație?
- Etapa de regresie multiplă răspunde la o întrebare complet diferită. Un algoritm de regresie treptată va analiza care predictori sunt cel mai bine utilizați pentru a prezice alegerea vecinătății - ceea ce înseamnă că modelul treptat evaluează ordinea importanței variabilelor predictor și apoi selectează un subset relevant. Acest tip de problemă de regresie utilizează "pași" pentru a dezvolta ecuația de regresie. Având în vedere acest tip de regresie, toți predictorii pot să nu apară nici măcar în ecuația de regresie finală.
- Regresia ierarhică , ca și în trepte, este un proces secvențial, însă variabilele predictorului sunt introduse în model într-o ordine prestabilită definită în avans, adică algoritmul nu conține un set de ecuații încorporat pentru a determina ordinea în care să introduceți predictorii. Acest lucru este folosit cel mai adesea atunci când individul care creează ecuația de regresie are cunoștințe de specialitate în domeniu.
- Regresia Setwise este, de asemenea, similară cu trepte, dar analizează mai degrabă seturi de variabile decât variabile individuale.