Distribuția normală

Conspect al capitolului 7, ”The normal curve”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear.

Aspecte istorice ale curbei normale

Curba normală aproximează bine distribuția frecvențelor generate de șansă în orice situație. Cu cât numărul de scoruri dintr-o distribuție generată aleatoriu este mai mare, cu atât este mai probabil să fie descrisă de o curbă normală.

Curba normală a fost frecvent asociată cu noțiunea că apare ca o descriere a naturii când un număr mare de factori operează, fiecare independent de ceilalți și guvernați de șansă.

Natura curbei normale

Trebuie diferențiată distribuția normală a unor date de curba normală. Curba normală este o abstracțiune matematică ce nu este asociată cu nici un eveniment și nu depinde de nici un set de date. Ea nu este o lege a naturii, ci o ecuație matematică ce descrie o familie de curbe normale, tot așa cum ecuația cercului descrie o familie de cercuri, unele mai mici, altele mai mari.

Toate curbele normale sunt simetrice, ceea ce înseamnă că partea dreaptă este identică celei din stânga.

Toate curbele normale sunt unimodale, cu modul în centrul distribuției. Modul, mediana și media au aceeași valoare.

Deși curba coboară spre axa orizontală, ea nu o atinge niciodată, indiferent cât de departe merge. Datorită acestei calități, este numită curbă asimptotică raportat la axa orizontală.

Curba normală este o distribuție continuă.

Pentru toate curbele normale, proporția ariei de sub curbă marcată între două puncte de pe axa orizontală va fi întotdeauna aceeași, indiferent de valoarea celor două puncte. Altfel spus, aproximativ două treimi dintre scoruri se vor afla întotdeauna între plus și minus o abatere standard, indiferent dacă minus o abatere standard este egal cu 12, 250 sau 2572.

Scorurile standard și curba normală

Ecuația curbei normale descrie de fapt o familie de curbe, ale căror medii și abateri standard pot să varieze semnificativ. Ce rămâne constant este forma distribuției. Aria de sub curba normală este întotdeauna distribuită la fel. Iar pentru a putea verifica acest lucru tot ce trebuie să facem este să transformăm orice set de date brute în scoruri standardizate (scoruri z).

Știind cum este distribuită întotdeauna aria de sub curba normală, putem calcula proporția din această arie (adică proporția scorurilor) care se află între anumite puncte de pe axa orizontală. Exemple de astfel de puncte sunt distanțele de 1, 2 sau 3 abateri standard față de medie. Știm că aproximativ 68% dintre scoruri se află la o abatere standard distanță de medie.

Curba normală standard: identificarea ariilor când știm scorul

Curba normală este simetrică. Prin urmare, 50% dintre scoruri sunt mai mici decât media și 50% sunt mai mari.

Odată ce transformăm un scor brut în scoruri z, există tabele statistice la care putem face referire pentru a identifica aria de sub curbă care este mai mare decât acel scor z. Valoarea specificată în aceste tabele este de fapt un multiplicator (ex: 0,16 corespunde lui z = 1). Această valoare înseamnă că în orice set de date, 0,16 dintre date sunt peste pragul de z = 1, indiferent care este valoarea mediei sau a abaterii standard. Dacă înmulțești această valoare cu n (numărul total de scoruri), vei obține numărul de scoruri care sunt mai mari decât z = 1.

Când vrem să aflăm procentul de scoruri care se află sub o anumită valoare, procedura este similară. În primul rând se calculează scorul standard (z). Fiind vorba de o distribuție simetrică, este irelevant dacă scorul standard este pozitiv sau negativ. Proporția care îi corespunde (ex: 0,16) este aceeași. Altfel spus, pentru 0,16 este proporția care corespunde atât lui z = 1, cât și lui z = -1.

Odată identificată proporția, aceasta este înmulțită cu n pentru a obține numărul de scoruri aflate sub scorul sau valoarea de la care am pornit.

În tabela statistică, fiecărei cote z îi corespund două proporții. Una se referă la scorurile care sunt dincolo de acea cotă z (peste sau sub), iar cealaltă se referă la scorurile care sunt între acea cotă și medie.

Dacă vrem să aflăm, spre exemplu, câte scoruri sunt între valorile 80 și 120, iar 80 corespunde lui z = 0,75, iar 120 corespunde lui z=1, trebuie să ne folosim de coloana care face referire la aria dintre scorul z și medie. Cele două proporții sunt cumulate (adunate) și apoi înmulțite cu n pentru a obține numărul total de scoruri aflat între valorile 80 și 120.

Curba normală standard: identificarea scorurilor când știm aria

Acest tip de problemă este inversată. De această dată știm aria și ne interesează scorul. Spre exemplu, dacă vrem să selectăm doar persoanele care au cele mai mari 20% dintre scoruri. Simplu spus, ne interesează cei mai buni 20% dintr-un grup, pe baza unor scoruri la un test. Pentru a-i putea selecta doar pe aceștia, trebuie să căutăm în tabelul statistică pe coloana ariei dincolo de cota z valoarea care este cea mai apropiată de 0,20. Dacă știm valoarea mediei și a abaterii standard, ne este simplu să calculăm scorul brut care îi corespunde scorului z pe care tocmai l-am identificat.

Spre exemplu, am obținut din tabelă un scor z de 0,84 și avem o medie de 100 și o abatere standard de 20. Știm că transformarea în cote z presupune ca media să devină 0, iar abaterea standard să devină 1. Altfel spus z=1 corespunde unui scor de 120. Aplicând regula de trei simplă se poate calcula scorul brut care îi corespunde lui z=0,84.

În rest, dacă vrem să aflăm valorile scorurilor între care se află un anume procent din totalul scorurilor, cum ar fi valorile între care se află 90% dintre respondenți, mecanismul este invers celui de mai sus în care încercam să stabilim cât la sută dintre respondenți au scorurile între anumite două valori.

Curba normală ca model pentru variabile reale

Curba normală descrie destul de acurat un număr foarte mare de distribuții din realitate, din domenii extrem de diferite, de la fizică, chimie, biologie, până la inginerie și psihologie.

Ce nu face curba normală este să explice realitatea. Ea nu este un principiu universal care să explice distribuții specifice ale unor variabile. Valoarea ei este una descriptivă.

Un alt aspect de reținut este că datele pe care le avem noi nu sunt nici continue, nici infinite. Curba normală descrie cel mai bine o infinitate de observații pe o scală continuă de măsurare. Ceea ce înseamnă că ea doar aproximează oricare set de date finit și compus din scoruri individuale. Nici o variabilă reală nu este distribuită perfect normal.

Pe de altă parte, sunt multe variabile care nu au o distribuție normală.

Curba normală ca model pentru distribuția eșantionării

Un al doilea mod în care curba normală funcționează ca model este pentru distribuția indicatorilor statistici care descriu eșantioane. Dacă extragem dintr-o populație un număr foarte mare de eșantioane aleatorii, cu același număr de unități, mediile tuturor eșantioanelor vor aproxima foarte bine o distribuție normală. Iar acest fapt este extrem de important pentru statistica inferențială.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest site folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.