Conspect al capitolului 9, ”Correlation”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear.
Corelația se referă la măsura în care două variabile sunt asociate. Un coeficient de corelație arată cât de puternică este relația dintre două variabile și care este direcția acestei relații: pozitivă sau negativă, directă sau inversă.
Un concept asociat corelației este predicția. Dacă două variabile corelează pozitiv, înseamnă că putem face o predicție mai bună decât fifty-fifty, adică mai bună decât șansa, cu privire la scorul unei persoane pe o variabilă dacă îi cunoaștem scorul pe cealaltă variabilă. Astfel, o corelație pozitivă sugerează că cei cu scoruri mari pe una dintre variabile este probabil să aibă scoruri mari și pe cealaltă variabilă.
Cu excepția unei corelații perfecte, de +1, care este extrem de rară, asociația dintre două variabile este parțială. Asta înseamnă că nu toți cei cu scoruri mari la variabila A vor avea scoruri mari și la variabila B. Dar dacă există o corelație între cele două variabile, e mai probabil ca acest lucru să se întâmple.
Corelația, ca metodă statistică, este utilă în mai multe situații. Spre exemplu, o folosim pentru a verifica fidelitatea test-retest a unui instrument, dar și pentru a testa validitatea instrumentului într-un context anume. În prima situație, vom calcula corelația dintre rezultatele la o primă aplicare și cele obținute la o a doua aplicare, după câteva săptămâni. Pentru a testa validitatea, vom corela rezultatele la testul nostru cu rezultatele la alte teste sau măsurători.
Ori de câte ori vrem să vedem dacă există o relație între două variabile, corelația este un instrument pe care îl putem folosi.
Exprimarea grafică a distribuțiilor bivariate: norul de puncte
Norul de puncte sau scatter plot-ul reprezintă modalitatea standard de reprezentare a datelor sau distribuțiilor bivariate. Fiecare punct din diagramă reprezintă intersecția scorului la o variabilă pe axa X cu scorul la cealaltă variabilă pe axa Y.
Construirea unui scatter plot necesită parcurgerea mai multor pași. În primul rând se alocă o variabilă pe axa X și cealaltă pe axa Y. Dacă una dintre variabile este considerată predictor, este preferabil ca aceasta să fie axa X, iar cealaltă, criteriul, va fi pe axa Y.
Apoi sunt desenate cele două axe de dimensiuni egale, cu valorile ridicate spre extremități și valorile mici înspre originea comună (punctul de intersecție a axelor).
Folosind gradațiile fiecărei axe, găsiți intersecția fiecărei perechi de date X-Y. Notați această intersecție cu un punct.
În final, numiți fiecare axă, dar și graficul.
Odată realizat acest grafic, este ușor de observat natura relației, direcția ei, dacă ea există.
Rețineți că pentru coeficientul de corelație Pearson este presupusă o relație liniară între variabile, adică o relație care poate fi reprezentată printr-o linie dreaptă. Acesta nu este întotdeauna cazul, iar o inspecție sumară a norului de puncte poate să indice o relație mai degrabă curbilinie, în formă de U sau de U inversat.
Corelația: o chestiune de direcție
Dacă punctele sunt așezate pe diagramă astfel încât să sugereze o formă alungită din stânga jos spre dreapta sus, corelația va fi una pozitivă. În schimb, dacă punctele sunt așezate astfel încât să sugereze o formă alungită dinspre dreapta sus spre stânga jos, relația este cel mai probabil una negativă.
În cazul unei corelații care tinde spre 0, punctele vor fi împrăștiate pe tot graficul, fără a sugereze o formă regulată sau o orientare.
Corelația: o chestiune de grad
Cu cât punctele sunt mai adunate în jurul unei linii drepte imaginare care trece prin mijlocul lor, cu atât coeficientul de corelație va fi mai mare, ceea ce înseamnă că relația dintre cele două variabile este mai puternică. Cu cât sunt mai împrăștiate punctele, cu atât coeficientul de corelație va fi mai mic.
Coeficientul de corelație este notat cu r (r mic). El variază între -1 și +1. Semnul indică doar direcția relației (este pozitivă sau negativă). Forța relației este dată de mărimea coeficientului, indiferent dacă e cu + sau minus. Astfel, cu cât e mai aproape de +1 sau -1, cu atât e mai puternică relația. Cu cât e mai aproape de 0, cu atât e mai slabă.
În situația unei corelații perfect pozitive (+1), toate punctele din scatter plot s-ar așeza pe o linie dreaptă ascendentă de la stânga spre dreapta. O corelație perfect negativă (-1) ar presupune că toate punctele din grafic să se alinieze pe o linie dreaptă descendentă de la stânga spre dreapta.
Ce înseamnă gradul de corelație
Un coeficient de corelație nu indică o relație de cauzalitate între cele două variabile. Nu înseamnă că variabila A determină variabila B.
Un coeficient de 0,50 nu înseamnă o asociere de 50% între cele două variabile și nu este nici de două ori mai mare decât un coeficient de 0,25. Corelația nu este un procent și nici nu apare pe o scală de interval, ceea ce înseamnă că diferența dintre un coeficient de 0,10 și unul de 0,20 nu este egală cu diferența dintre 0,20 și 0,30.
Însă cu cât un coeficient de corelație este mai mare, cu atât predicțiile pe care le facem despre scorurile unei persoane la variabila B în baza scorurilor pe care le are la variabila A e mai probabil să fie corecte. Spre exemplu, dacă între nota la bacalaureat și media notelor din prima sesiune este de 0,40, este mai probabil ca un student cu notă mare la bac să aibă note mari în prima sesiune decât dacă această corelație este de doar 0,15. Este o chestiune de calitate a predicției.
Formule pentru coeficientul de corelație Pearson
O primă formulă de calcul al coeficientului de corelație r est:
r = Σ(zxzy)/n
n reprezintă numărul de perechi de scoruri.
Înainte de a folosi formula de mai sus, scorurile brute trebuie transformate în scoruri z. Apoi sunt înmulțite scouririle z și se adună produsele obținute. Suma produselor se împarte la n, adică la numărul de perechi de scoruri.
O a doua formulă se bazează pe calcularea abaterilor de la medie.
r = Σ(x-mx)(y-my)/nSxSy
x și y sunt scorurile obținute pe cele două variabile. Mx și my sunt mediile scorurilor pentru fiecare variabilă, n este totalul perechilor de scoruri, iar Sx și Syreprezintă abaterile standard.
Pentru a aplica această formulă, trebuie parcurși mai mulți pași. În primul rând, sunt listate toate scorurile pe două coloane. Pentru o mai bună înțelegere, urmăriți tabelul de la pagina 155 din materialul original.
Al doilea pas presupune calcularea mediei scorurilor la prima variabilă (x) și a mediei pentru a doua variabilă (Y).
Apoi fiecare scor brut este transformat într-un scor de abatere (adică x minus media eșantionului la prima variabilă, respectiv y minus media scorurilor la a doua variabilă).
Următorul pas necesită calcularea abaterilor standard pentru fiecare variabilă. Acest calcul presupune ridicarea la pătrat a fiecărei abateri și însumarea pătratelor obținute. Această sumă este apoi împărțită la n și în final se extrage radicalul din rezultatul împărțirii.
Revenind la formula lui r, pentru a obține numărătorul, se înmulțește fiecare abatere a primei variabile cu abaterea la cea de-a doua variabilă. Apoi sunt adunate produsele tuturor respondenților. Suma este împărțită la produsul dintre n și cele două abateri standard.
Calcularea lui r din scorurile brute
Formula computațională pentru coeficientul de corelație:
R = Σ (x-mx)(y-my) / √(ssx*ssy)
ssx și ssy reprezintă suma pătratelor abaterilor lui x, respectiv y. Modul de calcul a acestor sume ale pătratelor a fost specificată mai sus.
La numărător găsim suma produselor abaterilor lui x, respectiv y. Aceasta mai poate fi calculată și scăzând din suma produselor x*y suma valorilor lui x ori suma valorilor lui y, produs împărțit la n.
Adică Σ (x-mx)(y-my) = Σxy – [(Σx* Σy) / n].
Corelația nu implică și cauzalitate
Covariația a două variabile este o condiție necesară, dar nu și suficientă pentru a concluziona că între cele două există o relație de cauzalitate. Atunci când variabila A și variabila B corelează, există mai multe posibile explicații. A este cauza lui B. B este cauza lui A. Sau există una sau mai multe alte variabile care o determină și pe A și pe B.
Efectul transformării scorurilor
Uneori este util să modificăm scorurile unei variabile sau a amândurora înainte de a calcula coeficientul de corelație.
Este important de știut că transformările liniare ale scorurilor nu modifică deloc valoarea coeficientului de corelație. O transformare liniară presupune adăugarea, scăderea, înmulțirea sau împărțirea fiecărui scor cu o valoare constantă.
În schimb alte tipuri de transformări, cum este ridicarea la pătrat a scorurilor brute, spre exemplu, afectează valoarea lui r.
Precauții privind coeficienții de corelație
Coeficientul de corelație Pearson este adecvat doar pentru relațiile liniare. Cu câd relația dintre cele două variabile este mai diferită de liniaritate (fiind, spre exemplu, mai degrabă curbilinie), cu atât coeficientul r va subestima puterea asociației.
Coeficientul de corelație este sensibil la intervalul de variație a scorurilor obținute. Altfel spus, cu cât intervalul în care variază datele noastre este mai similar cu intervalul de variație a populației, cu atât coeficientul de corelație va fi mai acurat.
Un alt aspect este că variația eșantionării impactează și ea coeficientul de corelație. Conform principiului variației eșantionării aleatorii, coeficientul de corelație va diferi de la un eșantion la altul. Cu cât eșantioanele folosite sunt mai mici, cu atât diferențele între coeficienții de corelație vor fi mai mari. Prin urmare, este important de stabilit dacă rezultatul pe care l-am obținut pe un eșantion este semnificativ statistic, adică nu este datorat întâmplării și este cu un grad mare de probabilitate diferit de 0 și la nivelul populației, nu doar al eșantionului.
Nu există un singur coeficient de corelație între două variabile. Acest coeficient poate să varieze în funcție de caracteristicile eșantionului, inclusiv dimensiunea lui, dar și în funcție de instrumentele folosite pentru măsurare sau altor condiții externe. De aceea este esențial ca raportarea coeficientului să fie acompaniată de cât mai multe detalii despre modul în care datele au fost obținute și prelucrate.
Alte modalități de a măsura corelația
Când datele noastre reprezintă ranguri sau poziții într-o ierarhie, putem să corelăm aceste date cu altele folosind coeficientul rho al lui Spearman.
Corelația biserială este adecvată atunci când una dintre variabile este continuă și cantitativă, iar cealaltă ar putea fi și ea continuă, însă a fost redusă la doar două categorii (are doar două valori, cum ar fi sub sau peste medie).
Coeficientul tetrachoric este utilizat dacă ambele variabile sunt continue însă au fost reduse la doar două categorii.
Coeficientul punct biserial se folosește dacă o variabilă este continuă și cantitativă, dar a doua este calitativă și dihotomică, fără să poată fi continuă (așa cum este cazul la corelația biserială simplă).
Coeficientul phi este folosit atunci când ambele variabile sunt calitative și dihotomice.
Coeficientul de contingență este folosit atunci când niciuna dintre variabile nu are la bază un set continuu de date și cel puțin una dintre ele nu este dihotomică, ci are trei sau mai multe categorii.
Corelația eta este folosită pentru relațiile curbilinii dintre două variabile continue, cantitative. Acest coeficient nu trebuie folosit atunci când două variabile au o relație liniară.
Corelația multiplă permite evaluarea asocierii dintre mai mulți predictori și un criteriu. Presupune identificarea ponderii fiecărui predictor astfel încât totalul ponderat al acestor variabile să aibă cea mai mare corelație posibilă cu variabila criteriu. Coeficientul de corelație multiplă este notat cu R (r mare), iar pentru a putea fi calculat trebuie să cunoaștem coeficienții de corelație r pentru fiecare pereche de variabile.
Corelația parțială măsoară asocierea dintre două variabile atunci când efectul altor variabile este izolat. Este o metodă de eliminare a explicațiilor alternative pentru corelația dintre două variabile.
Dacă prin corelația parțială eliminăm efectul unei terțe variabile asupra relației dintre cele două variabile, corelația semiparțială sau parțială presupune doar eliminarea efectului acestei terțe variabile asupra uneia singure dintre variabilele corelate.
Radu este psiholog, doctor în psihologie, consultant organizațional, antreprenor și editorul fondator al Psihoteca.