Variabilitatea

Conspectul al capitolului 6, ”Variability”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear.

În timp ce indicii tendinței centrale oferă un rezumat al nivelului de performanță, indicii de variabilitate oferă un rezumat pentru dispersia sau variabilitatea performanței. Ei exprimă cantitativ gradul în care scorurile dintr-o distribuție sunt împrăștiate sau adunate în jurul mediei.

Indicii de variabilitate nu ne spun cât de departe sunt împrăștiate datele față de medie și nici care este forma distribuției. Prin urmare, pentru a descrie adecvat o distribuție, trebuie să oferim atât un indicator al tendinței centrale, cât și unul pentru variabilitate.

Acești indici sunt esențiali pentru inferența statistică; spre exemplu, pentru a putea răspunde la întrebarea: cât de multă fluctuație are loc în urma eșantionării aleatorii?

Intervalul (range)

Cel mai simplu indicator al variabilității este intervalul, care este diferența dintre cel mai mic și cel mai mare scor al distribuției. Acest interval este o distanță și nu o locație pe scală, cum este cazul indicilor tendinței centrale.

Intervalul semi-intercuartil

Intervalul este o măsură simplă, influențată nejustificat de extremele distribuției. În schimb, intervalul semi-intercuartil este influențat doar de porțiunea relativ centrală a distribuției, adică de acea jumătate dintre scoruri care se află în partea centrală a distribuției.

Acest indice este notat cu Q și reprezintă jumătatea distanței dintre primul și al treilea punct cuartil. Formula este: Q = (Q3-Q1)/2. Punctele cuartile sunt cele trei scoruri care împart în patru părți distribuția, fiecare conținând un număr egal de observații.

Scoruri de abatere

Un scor de abatere exprimă locația unui scor raportat la medie. Altfel spus, cu câte puncte este mai mare sau mai mic decât media. Se calculează prin scăderea mediei din scorul respectiv. Rezultatul poate fi pozitiv, dacă scorul este mai mare decât media, sau negativ dacă scorul este mai mic decât media.

Suma tuturor acestor abateri reprezintă variabilitatea distribuției. Dacă scorurile sunt adunate, abaterile vor fi mici. În schimb, dacă scorurile sunt împrăștiate, abaterile vor fi mari.

Indicatori ai abaterii: varianța

Un indicator util al variabilității poate fi obținut prin calcularea mediei scorurilor de abatere. Însă simpla lor însumare ar duce la un rezultat nul (cele pozitive le-ar anula pe cele negative, suma lor fiind 0). Pentru a evita această situație, scorurile sunt ridicate la pătrat.

Astfel, varianța este definită ca fiind media pătratelor scorurilor de abatere și este reprezentată prin simbolul sigma (σ2). Formula de calcul a varianței este dată de suma pătratelor diferențelor dintre fiecare scor și medie, împărțită la numărul total de scoruri (n).

Abaterea standard

Varianța este extrem de utilă în calculele inferențiale din statistică, însă atunci când avem nevoie de un scor care să descrie distribuția cu privire la variabilitatea datelor, varianța are dezavantajul de a fi exprimată în unități ridicate la pătrat.

Dacă extragem însă rădăcina pătrată a varianței, revenim la unitățile inițiale de măsurare și obținem abaterea standard. Cu cât scorurile brute sunt mai împrăștiate, cu atât abaterea standard este mai mare.

Calcularea varianței și abaterii standard din scorurile brute

Pentru a calcula varianța direct din scorurile brute, sunt necesare următoarele operațiuni.

În primul rând, se calculează prima dată suma pătratelor fiecărui scor.

Apoi se calculează suma tuturor scorurilor și aceasta este ridicată la pătrat și împărțită la dimensiunea eșantionului (n).

În final, din suma pătratelor este scăzut rezultatul împărțirii din al doilea pas.

Proprietăți ale intervalului

Intervalul este util în faze preliminare ale analizei statistice, când precizia nu este o cerință importantă. Însă acest indicator nu este sensibil la caracteristicile întregii distribuții, fiind influențat doar de două scoruri extreme (cel mai mic și cel mai mare).

În același timp, intervalul nu mai este de ajutor dincolo de nivelul descriptiv.

Proprietățile intervalului semi-intercuartil

Intervalul semi-intercuartil este mai puțin sensibil la prezența câtorva scoruri extreme, comparativ cu abaterea standard. Dacă distribuția este puternic asimetrică sau are câteva scoruri extreme, intervalul semi-intercuartil va fi afectat, însă nu le va conferi o greutate foarte mare.

În distribuțiile deschise (open-ended), intervalul inter-cuartil ar putea să fie singurul indicator care este rezonabil să fie calculat.

Stabilitatea intervalului semi-intercuartil la eșantionarea aleatorie este bună, însă nu la fel de bună ca cea a abaterii standard. Însă, utilitatea intervalului semi-intercuartil este limitată la statistica descriptivă.

Proprietățile abaterii standard

Similar mediei, abaterea standard este responsivă la poziția exactă a fiecărui scor în cadrul distribuției. Dacă un scor se îndepărtează de medie, abaterea standard va crește. Dacă se apropie de medie, abaterea standard va scădea.

Fiind mai sensibilă la scoruri extreme, abaterea standard s-ar putea să nu fie cea mai bună alegere atunci când aceste scoruri fac parte din distribuție sau când distribuția este puternic asimetrică.

Un aspect important este rezistența abaterii standard la variația datorată eșantionării. Modificările apărute ca urmare a folosirii altor eșantioane din aceeași populație pare să afecteze valoarea abaterii standard mai puțin decât valorile altor indicatori ai variației.

De asemenea, abaterea standard este foarte frecvent utilizată atât în statistica descriptivă, cât și în cea inferențială.

Transformări ale scorurilor și indicatorii variabilității

Adunarea sau scăderea unei valori constante la fiecare scor din distribuție nu afectează nici un indicator al variabilității menționat până acum. Când înmulțim sau împărțim cu o constantă fiecare scor, indicele de variabilitate rezultat va fi și el înmulțit sau împărțit cu aceeași constantă. Această regulă este valabilă pentru toți indicatorii, cu excepția varianței.

Scorurile standardizate (scoruri z)

Pentru a putea compara două distribuții diferite, o modalitate utilă este să transformăm toate scorurile brute în scoruri standardizate sau scoruri z. Acest scor z exprimă poziția unui scor brut relativ la media distribuției, folosind abaterea standard ca unitate de măsură. Altfel spus, scorul z spune la câte abateri standard de medie este situat un anumit scor brut.

Scorul z este egal cu diferența dintre scorul brut și medie, totul împărțit la abaterea standard.

Folosind scorurile z putem, în anumite situații, să comparăm rezultate obținute pe scale de măsurare diferite.

Scorurile z au trei caracteristici importante. În primul rând, media oricărei distribuții transformate în scoruri z este egală întotdeauna cu 0. În al doilea rând, abaterea standard a fiecărei distribuții exprimate în scoruri z este întotdeauna 1. În final, transformarea scorurilor brute în scoruri z transformă media în 0 și abaterea standard în 1, însă nu schimbă forma distribuției, adică distanța relativă dintre scorurile brute. Motivul este că ce facem este să scădem și apoi să împărțim cu constante.

Indicatori ai variabilității și distribuția normală

Într-o distribuție normală, intervalul de +/- o abatere standard de la medie include 68% dintre scorurile distribuției. Între +/- două abateri standard sunt 95% dintre scoruri, iar între +/- trei abateri standard sunt 99,7% dintre scoruri.

Compararea mediilor a două distribuții

Diferența numerică dintre mediile brute obținute în două distribuții diferite nu are nici o semnificație, dacă nu o raportăm la un sistem de referință. Acest sistem de referință este obținut prin raportarea la abaterea standard. Astfel, diferența este transformată în abateri standard. Conform lui Cohen, o diferență de 0,2 este mică, una de 0,5 este medie, iar una de 0,8 sau peste este considerată mare.

Toți indicatorii variabilității și ai tendinței centrale au o caracteristică în comun: sunt exprimate într-o anumită unitate de măsură. Prin urmare, nu putem compara două distribuții decât dacă măsurarea s-a făcut în ambele cazuri folosind aceeași unitate de măsură.

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest sit folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.