Conspect al capitolului 10, ”Prediction”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear.
Cu cât relația dintre două variabile este mai apropiată, cu atât mai mare va fi coeficientul de corelație și cu atât mai bună va fi predicția.
Problema predicției
Dacă pe baza analizei norului de puncte este rezonabil să presupunem că relația dintre variabilele X și Y este una liniară, atunci putem să îmbunătățim predicția lui Y pe baza lui X dacă găsim acea linie dreaptă care se potrivește cel mai bine cu valorile lui Y. Această linie va fi determinată de toate scorurile din eșantionul cu care lucrăm și se numește linie de regresie. Ecuația care ne ajută să o găsim se numește ecuație de regresie.
Predicțiile făcute pe baza acestei tehnici sunt mai bune, datorită rezistenței la variația eșantionării, însă trebuie ținut cont de două limitări.
În primul rând, linia de regresie care se potrivește eșantionului de puncte nu este exact aceeași linie care s-ar potrivi întregii populații. Iar în al doilea rând, tehnica depinde de asumpția că o linie dreaptă este o descriere rezonabilă a relației dintre X și Y.
Criteriul celei mai bune potriviri (best fit)
Dacă linia de regresie reprezintă o însumare a valorilor pe care presupunem că ar trebui să le aibă Y în baza scorurilor X, atunci putem calcula distanța dintre valoarea prezisă pentru Y și valoarea reală a lui Y pentru fiecare subiect din eșantion. Cu cât suma pătratelor acestor discrepanțe este mai mică, cu atât linia de regresie oferă o predicție mai bună pentru Y, adică se potrivește mai bine datelor.
Linia de regresie este de fapt un fel de medie. Este o serie de medii. Pentru fiecare valoare a lui X, linia de regresie ne spune valoarea medie sau așteptată a lui Y. Altfel spus, dacă MY este media tuturor valorilor Y dintr-un set de date, Y’ este o estimare a mediei lui Y când X are o anumită valoare.
Ecuația de regresie: forma scorurilor standard
Linia de regresie, cea care respectă criteriul celei mai mici sume a pătratelor, poate fi exprimată prin următoarea ecuație: z’Y = rzX. z’Y reprezintă scorul standard prezis al lui Y. r este coeficientul de corelație dintre X și Y, iar zX reprezintă scorul standard al lui X în caza căruia a fost prezis scorul standard al lui Y.
Deși formula aceasta nu este utilizată în practică, ea este utilă datorită implicațiilor sale. Pe de o parte, rezultă că pentru toate valorile lui r, ecuația de regresie prezice că un participant cu scor mediu pe X, va avea întotdeauna un scor mediu pe Y. Pe de altă parte, dacă între cele două variabile există o corelație nulă (r = 0), atunci valoarea prezisă a lui Y va fi întotdeauna egală cu media lui Y, indiferent de valoarea lui X folosită pentru predicție.
Ecuația de regresie: forma scorurilor brute
Conform acestei ecuații, pentru a calcula valoarea prezisă a unui scor oarecare Y’, avem nevoie de coeficientul de corelație (r), de cele două abateri standard (Sy și Sx) și de mediile celor două variabile (My și Mx). Formula este următoarea: (rSy/Sx)X – (rSy/Sx)Mx + My.
Eroarea de predicție: eroarea standard de estimare
Ecuația de regresie stabilește ce valoare a lui Y este așteptată (prezisă) când X are o anumită valoare. Desigur, este foarte probabil ca valoarea reală a lui Y să nu fie exact cea estimată. Y’ este doar o valoare estimată a lui Y pentru cazurile în care X are o anumită valoare. Spre exemplu, putem estima că persoanele care au 1,80 m înălțime, vor avea o greutate de 76 de kg.
Dacă nivelul corelației între X și Y este redus, variația valorilor reale în jurul celei estimate va fi mare. În schimb, dacă nivelul corelației este ridicat, valorile reale vor fi mai adunate în jurul celei estimate. Doar când corelația este perfectă (r = 1), valorile reale vor fi întotdeauna și exact egale cu valorile estimate.
Eroarea standard de estimare este un fel de abatere standard. Ea reprezintă rădăcina pătrată a sumei discrepanțelor ridicate la păstrat, totul împărțit la dimensiunea eșantionului (n). Adică SYX = √[Σ(Y-Y’)2 / n].
Când corelația este perfectă, fiecare discrepanță între valoarea estimată și cea reală va fi 0. Prin urmare eroarea standard va fi și ea nulă. Când corelația este 0, fiecare estimare a lui Y va fi egală cu media lui Y (My). Dacă înlocuim în formulă estimarea lui Y cu media lui Y, formula ce rezultă este exact formula abaterii standard pentru Y. Ceea ce înseamnă că în condițiile unei corelații nule între X și Y, eroarea standard este egală cu abaterea standard pentru Y.
Dat fiind că eroarea standard de estimare se comportă ca o abatere standard, ea are și caracteristici ale abaterii standard. Spre exemplu, suma discrepanțelor ridicate la pătrat care corespunde unei drepte de regresie este cea mai mică astfel de sumă care ar putea caracteriza relația dintre două variabile.
Iar o altă caracteristică similară abaterii standard este că suma discrepanțelor este întotdeauna egală cu 0 pentru că cele pozitive (peste linie) cu cele negative (sub linie) se anulează reciproc.
O formulă alternativă (și preferată) pentru eroarea standard de estimare
SYX = SY√(1-r2)
Avertizări privind estimarea erorii standard de estimare
Pentru a putea folosi X în estimarea lui Y, sunt câteva condiții ce trebuie îndeplinite. În primul rând, relația dintre cele două variabile trebuie să fie liniară. În al doilea rând, variabilitatea valorilor reale ale lui Y în jurul estimării lui Y trebuie să fie aceeași pentru toate valorile lui X. Această condiție se numește homoscedasticitate. În al treilea rând, scorurile reale ale lui Y trebuie să fie distribuite normal pentru toate valorile lui X.
Dacă ținem cont și de variabilitatea suplimentară datorată eșantionării, intervalul în care se pot afla valorile reale ale lui Y ar trebui să fie mai mare. Cu cât eșantionul este mai mic, cu atât eroarea este mai mare. În general, predicția și estimarea erorii de predicție sunt realizate cel mai bine folosind eșantioane suficient de mari pentru a reduce marja de eroare la niveluri acceptabile.
Radu este psiholog, doctor în psihologie, consultant organizațional, antreprenor și editorul fondator al Psihoteca.