Distribuții de frecvență, percentile și ranguri percentile

Conspect al capitolului 3, ”Frequency distributions, percentiles, and percentile ranks”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear

Organizarea datelor calitative

Distribuția de frecvență arată de câte ori apare o anumită categorie sau valoare într-un set de date calitative sau cantitative. Un exemplu calitativ ar fi: dintr-un set de 120 de studenți, câți au ochii căprui, câți verzi și câți albaștri. Un exemplu cu date cantitative ar fi reprezentat de frecvența cu care apare fiecare notă de la 1 la 10 (rotunjind acolo unde este cazul) în același eșantion de 120 de studenți.

În ce privește aranjarea în tabel, frecvențele pot fi ordonate ierarhic dacă avem o scală ordinală sau în ordinea descrescătoare a frecvenței, de la scorul sau categoria cu cea mai mare frecvență până la cea cu cea mai mică frecvență.

Scoruri grupate

În special când creăm o distribuție de frecvență pentru scoruri numerice, gruparea acestora poate facilita interpretarea lor. Spre exemplu, dacă avem scoruri care variază de la 0 la 100, putem construi clase de interval de câte 3 sau 5 scoruri. Vom afișa doar frecvența cu care apar toate scorurile din fiecare grup.

Deși facilitează interpretarea, această grupare a scorurilor are și consecințe negative. Eroarea de grupare se referă la faptul că în cadrul unei grupe nu mai știm care este frecvența pentru fiecare scor care o compune. Cu cât intervalul unei clase sau grup este mai mare, cu atât eroarea potențială de grupare este mai mare.

Un set de scoruri pot fi grupate diferit, folosind intervale diferite (exemplu: din 3 sau 5 scoruri) sau începând fiecare interval cu scoruri diferite.

Câteva sugestii pentru a face datele mai ușor de asimilat și înțeles:

  1. Intervalele claselor să fie mutual exclusive (să nu se suprapună) (ex: 60-65, 66-70; și nu 60-67, 65-72).
  2. Toate intervalele să aibă aceeași dimensiune (ex: de câte 3 scoruri).
  3. Intervalele să fie continue de-a lungul distribuției (fără întreruperi).
  4. Intervalul cu cel mai mare scor să fie primul în listă
  5. Numărul de clase ar trebui să fie între 10 și 20, astfel încât să nu fie nici prea multe, dar nici eroarea de grupare să nu fie prea mare.
  6. Alege o dimensiune convenabilă a intervalelor
  7. Dacă e posibil, fă în așa fel încât limita inferioară a intervalelor să fie multiplu al dimensiunii intervalului (ex: pentru un interval de 5, limita inferioară să fie 5, 10, 15, 20).

Cum să construiești o distribuție de frecvență grupată

  1. Găsește scorul cel mai mic și cel mai mare
  2. Scade cel mai mic din cel mai mare pentru a obține intervalul total
  • Împarte intervalul cu 10 și cu 20 pentru a obține dimensiunile cea mai mare și cea mai mică acceptabile. Alege o dimensiune convenabilă (numită i) care să fie situată între aceste valori.
  1. Stabilește scorul cu care ar trebui să înceapă intervalul cel mai mic. Ar fi bine să fie un multiplu dimensiunii intervalului.
  2. Înregistrează toate limitele intervalelor, plasând cel mai mare scor pe prima poziție. Fă intervalele continue și de dimensiune egală.
  3. Numără fiecare scor în dreptul fiecărei clase
  • Adună fiecare scor pentru a obține frecvența.

Limite aparente versus limite reale

În general, limitele reale ale unui interval sunt considerate a fi cu o jumătate de unitate sub limita inferioară și cu jumătate de unitate peste limita superioară. Spre exemplu, clasa de interval 15-20 are ca limite aparente 15 și 20, iar ca limite reale 14,5 și 20,5.

Pe același considerent se poate merge la cât de multe zecimale este nevoie, în funcție de precizia cu care s-a executat măsurarea, astfel încât nici un scor să nu cadă între două variabile. În exemplul de mai sus, un astfel de caz ar fi un scor de 20,55, care nu ar intra nici în clasa 14,5-20,5, nici în clasa 20,6-25,5.

Distribuția de frecvențe relative

Frecvența unei clase poate fi transformată cu ușurință în proporție sau procent din numărul total de cazuri. Aceasta este o distribuție de frecvențe relative. Pentru a obține o proporție, pur și simplu împarți frecvența unei clase la numărul total de scoruri. Rezultatul va reprezenta o fracțiune dintr-un întreg (parte din unu). Pentru a obține un procent, înmulțești proporția cu 100, adică muți virgula cu două locuri mai la dreapta.

Fracțiile relative sunt utile mai ales atunci când vrei să compari două distribuții de frecvențe care au numărul total de scoruri diferit.

Afișarea stem-and-leaf

Afișarea stem-and-leaf (tulpină și frunză) este o tehnică ce aparține subdomeniului de analiză exploratorie a datelor.

Pentru acest mod de a reprezenta datele se începe cu scorurile cele mai mici și se continuă vertical spre cele mai mari.

Prima coloană a tabelului reprezintă cifra zecilor și este tulpina, iar în partea dreaptă sunt trecute cifrele unităților pentru fiecare dintre scorurile din distribuție. Aceasta este frunza. Pentru fiecare tulpină, frunzele sunt aranjate de la mic la mare.

Să luăm un exemplu de distribuție cu clase de interval de 5:

61   2
67   8   8   9
70   0   0   2   2   3
75   6   7   7   8   8   8   8   9   9
80   0   1   1   2   2   2   3   4   4
85   5   6   6   6   6   6   6   7   7   8   8   9   9   9
90   1
96

Un astfel de tabel este mai ușor de făcut după ce ai rearanjat datele în ordine crescătoare.

Are marele avantaj de a sugera vizual forma distribuției, arătând unde sunt concentrate cele mai multe date și unde nu.

Distribuția de frecvențe cumulate

O distribuție de frecvențe cumulate arată câte scoruri există în eșantion care au valoarea mai mică decât limita superioară a fiecărui interval. Vezi tabelul de la pagina 37 pentru o ilustrare. Se începe de la cel mai mic interval și se calculează frecvența. La următorul interval se calculează frecvența, apoi se adaugă frecvența de la intervalul anterior. Tot așa, la frecvența intervalului se adaugă frecvența tuturor intervalelor inferioare.

Ca verificare, frecvența cumulată a celui mai mare interval ar trebui să fie egală cu N, adică numărul total de scoruri.

Pe baza acestor frecvențe cumulate se poate calcula și distribuția de frecvențe relative, atât în format de proporții (parte din 1), cât și de procent (parte din 100). Pur și simplu, se împarte frecvența cumulată la numărul total de scoruri, iar pentru a obține procente se înmulțește cu 100.

Percentile și ranguri ale percentilelor

Sistemul percentilelor se bazează pe distribuția relativă de frecvențe cumulate în formatul său procentual. Un punct percentil este acel punct de pe scala de măsură sub care se află un anume procent din scorurile distribuției. Acest punct este numit percentil sau centil.

Spre exemplu, dacă 50% din scoruri sunt sub 80 de puncte, percentilul 50 este 80. Cincizeci este rangul percentil, adică procentul de cazuri care este sub un anumit punct percentil. Cele două nu trebuie confundate. În exemplul nostru, 50 e rangul percentil. Acesta variază între 0 și 100. Pe când punctul percentil sau pur și simplu percentilul poate lua orice valoare în funcție de scala de măsură. În exemplul nostru percentilul este 80.

Notarea lor se face astfel: P50 = 80.

Calcularea percentilelor din date grupate

Când avem frecvențe grupate, nu ne putem da seama care este exact un percentil. Acesta poate fi cuprins în interiorul unui interval. Pentru a calcula un percentil trebuie parcurși câțiva pași.

Primul pas este să identifici intervalul în care se află percentilul căutat. Să spunem că ne interesează percentilul 50, adică acel punct din distribuție sub care se află 50% dintre scoruri. Dacă avem un eșantion de 80 de scoruri, 50% înseamnă 40. Se identifică intervalul care conține al 40-lea scor de jos în sus. Pentru o mai bună înțelegere, urmăriți tabelul de la pagina 41 și figura de la pagina 42.

Pasul 2 este să stabilești numărul de scoruri care se află între baza distribuției și limita inferioară reală a intervalului identificat la pasul 1. În exemplul nostru există 32 de scoruri în intervalele inferioare celor identificat de noi ca incluzând 50% dintre toate scorurile.

Pasul 3 este să stabilești numărul suplimentar de cazuri care sunt necesare pentru a obține totalul de scoruri necesar. În cazul nostru, acest total este 40. Știm că până la intervalul nostru sunt 32. Înseamnă că mai avem nevoie de 8 scoruri din interval pentru a obține 40.

În pasul 4, presupunem că scorurile din acest interval sunt distribuite egal de-a lungul intervalului. În exemplu avem 12 scoruri în interval.

Pasul 5 presupune identificarea distanței din cadrul intervalului pe care mai trebuie să o parcurgem pentru a ajunge la punctul percentil. Dacă intervalul este de 3 puncte, iar nouă ne trebuie 8 scoruri din 12, calculul este: 8/12 x 3, adică 2.

În pasul 6 se adaugă această distanță suplimentară la limita inferioară reală a intervalului. În cazul nostru este 71,5 + 2 = 73,5.

Calcularea rangului percentil

Calcularea rangului percentil este utilă atunci când vrei să știi cât la sută dintre scoruri sunt sub o anumită valoare. Vom urmări exercițiul din textul original pentru a ilustra modul de calcul.

Trebuie să aflăm numărul de scoruri situate sub valoarea 86. Odată aflat acest număr, el se împarte la numărul total de scoruri (N) și se înmulțește cu 100 pentru a rezulta rangul percentil.

Dar cum aflăm câte scoruri au valori sub 86? În primul rând identificăm intervalul în care se află această valoare. Intervalul este 83,5-86,5. Vezi tabelul de la pagina 41 și ține cont că vorbim de limite reale, nu aparente. Intervalul este de trei unități (de la 86,5 – 83,5 = 3). Iar ca să ajungem de la baza intervalului (83,5) la 86, mai avem nevoie de 2,5.

Știm că avem 4 scoruri în acest interval și presupunem că ele sunt distribuite egal. Astfel, avem nevoie de 2,5/3 din 4. Adică, dacă 3 reprezintă 4 scoruri, noi avem nevoie de 2,5 din 4 scoruri, adică 2,5/3 x 4 = 3,3. Avem nevoie de 3,3 scoruri de la limita inferioară.

Dacă sunt 68 de scoruri sub limita inferioară a intervalului și cu 3,3 din interval, rezultă 71,3 scoruri sub valoarea de 86, adică 89% din totalul de 80 de date din eșantion.  

Lasă un răspuns

Adresa ta de email nu va fi publicată. Câmpurile obligatorii sunt marcate cu *

Acest sit folosește Akismet pentru a reduce spamul. Află cum sunt procesate datele comentariilor tale.