Definirea modelului statistic de regresie

Regresia analizează relațiile dintre variabile

Regresia este o tehnică de extragere a datelor folosită pentru a prezice o serie de valori numerice (numite și valori continue ), date unui set de date particular. De exemplu, regresia ar putea fi utilizată pentru a prezice costul unui produs sau serviciu, având în vedere alte variabile.

Regresia este utilizată în mai multe industrii pentru planificarea afacerilor și a marketingului, prognozarea financiară, modelarea mediului și analiza tendințelor.

Regresie Vs. Clasificare

Regresia și clasificarea sunt tehnici de exploatare a datelor folosite pentru a rezolva probleme similare, dar sunt frecvent confundate. Ambele sunt folosite în analiza predicției, dar regresia este utilizată pentru a prezice o valoare numerică sau continuă, în timp ce clasificarea atribuie date în categorii discrete.

De exemplu, regresia ar putea fi utilizată pentru a prezice valoarea unei case pe baza locației, picioarelor pătrate, prețului la ultima vândă, prețului caselor similare și altor factori. Clasificarea ar fi în ordine dacă doriți să organizați case în categorii, cum ar fi walkability, dimensiunea lotului sau ratele de criminalitate.

Tipuri de tehnici de regresie

Cea mai simplă și cea mai veche formă de regresie este regresia liniară utilizată pentru a estima o relație între două variabile. Această tehnică folosește formula matematică a unei linii drepte (y = mx + b). În termeni simpli, acest lucru înseamnă pur și simplu că, dată fiind un grafic cu Y și o axă X, relația dintre X și Y este o linie dreaptă cu puține valori extreme. De exemplu, s-ar putea presupune că, având în vedere o creștere a populației, producția de alimente ar crește în aceeași rată - aceasta necesită o relație puternică și liniară între cele două cifre. Pentru a vizualiza acest lucru, luați în considerare un grafic în care axa Y urmărește creșterea populației, iar axa X urmărește producția de alimente. Pe măsură ce crește valoarea Y, valoarea X va crește la aceeași rată, făcând relația dintre ele o linie dreaptă.

Tehnicile avansate, cum ar fi regresia multiplă, prevăd o relație între mai multe variabile - de exemplu, există o corelație între venit, educație și locul unde cineva alege să trăiască? Adăugarea mai multor variabile mărește considerabil complexitatea predicției. Există mai multe tipuri de tehnici de regresie multiple, inclusiv standard, ierarhic, setwise și treptat, fiecare cu aplicație proprie.

În acest moment, este important să înțelegem ceea ce încercăm să previzionăm (variabila dependentă sau prezisă ) și datele pe care le folosim pentru a face predicția (variabilele independente sau predictorii ). În exemplul nostru, vrem să previzionăm locația în care cineva alege să trăiască (variabila previzibilă ) dat venit și educație (ambele variabile ale predictorului ).