Fundamentele statisticii inferențiale

Conspect al capitolului 13, ”The basis of statistical inference”, din ”Statistical reasoning in psychology and education”, de Minium, King și Bear

Un scop de bază al statisticii inferențiale este formularea unei concluzii despre parametrii unei populații de la un eșantion selectat dintr-o populație. Inferența se preocupă și cu diferența dintre populații cu privire la un anumit parametru.

Testarea ipotezelor

Există două tipuri de proceduri inferențiale – testarea ipotezelor și estimarea. În testarea ipotezelor, se pleacă de la o ipoteză de cercetare. Scopul final este formularea unei concluzii cu privire la populația reprezentată de eșantionul studiat, nu doar despre eșantion.

Estimarea

În testarea ipotezelor, avem o ipoteză despre o valoare care caracterizează o populație. În estimare, acea valoare este căutată. Astfel, este extras un eșantion de populație și este făcută o inferență despre caracteristica populației. Nu ne așteptăm ca estimarea să fie exactă.

Aspecte de bază ale inferenței

În cazul inferențelor, un aspect fundamental este faptul că acele caracteristici pe care le studiem variază de la un eșantion la altul. Sarcina inferențelor statistice este o concluzie despre un parametru pe baza statisticilor eșantionului.

Datorită varianței eșantionării, nu este posibil ca o astfel de inferență să fie făcută și nu există siguranța corectitudinii inferenței. Rezolvarea unor astfel de probleme este descoperirea căror valori vor apărea în urma unor eșantionări repetate și cu ce probabilitate apar.

Pentru a afla ce valori ale eșantionului vor apărea și cu ce probabilitate, sunt necesare anumite reguli, precum utilizarea unei metode sistematice de eșantionare și folosirea sa în mod consistent.

Eșantionarea randomizată

Un eșantion randomizat este un eșantion selectat astfel încât fiecare eșantion posibil din populație are o probabilitate egală de a fi selectat. Există două planuri de eșantionare din care rezultă eșantioane randomizate – eșantionarea cu înlocuire și eșantionarea fără înlocuire. În eșantionarea cu înlocuire, un element poate apărea mai des decât o dată. În cea fără înlocuire, nu apare niciun element mai des decât o dată.

Pentru a obține un eșantion randomizat, fiecare element din populație trebuie să aibă șanse egale de a fi inclus în eșantion. În practică, este dificil și costisitor să extragem un eșantion randomizat.

O scurtătură deseori utilizată este eșantionarea sistematică. De exemplu, dintr-o listă de participanți, este selectată fiecare a zecea persoană. Însă această metodă poare rezulta în erori. De exemplu, dacă se selectează locuitorii de la al cincilea etaj al clădirilor dintr-o zonă, pot apărea diferențe de preț între etaje, cele de etajele superioare fiind mai ieftine.

O altă posibilitate este selectarea deliberată a unui eșantion care se potrivește cu anumite caracteristici demografice, precum vârstă, gen sau etnie. De asemenea, se pot utiliza eșantioane de conveniență, în care cercetătorul are rolul de randomizare. El încearcă să aleagă aleator din participanții disponibili. Însă această metode are șanse mari de a eșua.

Utilizarea unui tabel cu numere aleatoare

Deoarece judecata umană nu este optimă, se pot utiliza tabele, deseori construite de computer, care asignează numere de la 1 la 9, acestea având o probabilitate egală de apariție. Dacă utilizăm eșantionarea cu înlocuire, atunci când același element apare încă o dată, este inclus. Dacă utilizăm eșantionarea fără înlocuire, atunci când același element apare încă o dată, este omis.

Eșantionarea aleatoare a distribuției mediei – introducere

Dintr-o populație poate fi extras un număr mare de eșantioane, iar media fiecăruia poate fi calculată. Realizând o distribuție a tuturor valorilor mediilor eșantioanelor se obține distribuția mediilor prin eșantionare randomizată. Și această distribuție este o distribuție probabilistică, indicând toate valorile pe care media le poate avea și probabilitatea lor de apariție.

Eșantionarea randomizată rezultă în probabilități egale ale eșantioanelor, dar nu și ale mediilor. Luând o populație formată din 2, 4, 6 și 8, combinându-le câte două, fiecare eșantion are o probabilitate de 1/16 de a fi extras. Considerând mediile tuturor eșantioanelor, media 2 apare o dată, având o probabilitate de 1/16. În schimb, media 3 apare de două ori, având o probabilitate de 1/8.

Caracteristicile distribuției mediei

O distribuție este definită de medie, abatere standard și formă. În primul rând, media distribuției mediilor, numită valoarea așteptată a distribuției mediilor, coincide cu media populației.

Abaterea standard a distribuției mediilor, numită eroarea standard a mediei, depinde de abaterea standard a populației și de mărimea eșantionului. Formula erorii standard – raportul dintre abaterea standard și numărul de persoane, indică trei aspecte importante. În primul rând, mediile eșantioanelor variază mai puțin decât scorurile. În al doilea rând, media variază mai puțin atunci când scorurile variază mai puțin. În al treilea rând, mediile variază mai puțin atunci când eșantionul este mai mare.

În ceea ce privește forma, dacă scorurile populației prezintă o distribuție normală, atunci și distribuția mediilor va fi normală, indiferent de mărimea eșantionului. Nu toate populațiile prezintă o distribuție normală. Conform teoriei limitelor centrale, distribuția mediilor tinde spre o distribuție normală indiferent de forma populației. Mai mult, asemănarea cu o distribuție normală crește odată cu numărul de participanți. Chiar și atunci când distribuția populației este diferită de distribuția normală, poate fi tratată ca distribuție normală dacă există un număr suficient de participanți. 25 – 30 de cazuri sunt considerate suficiente.

Aplicarea distribuției mediilor

Într-o primă problemă, avem o populație cu media mediilor eșantioanelor 70, abaterea standard 20 și mărimea eșantionului 25. Pentru aceste date, se cere probabilitatea de a obține un eșantion cu media 80 sau mai mare. Pentru a rezolva această problemă, se calculează eroarea standard a mediei – raportul dintre abaterea standard și radical din numărul de participanți, cu valoarea 4. În al doilea pas, scorul 80 este transformat într-un scor z, din diferența dintre scor și medie, raportată la eroarea standard – +2.5. În ultimul pas, folosind tabelul scorurilor z, se determină proporția dincolo de acest scor Z.

O altă problemă, folosind alte date, cere probabilitatea de a obține un eșantion cu o medie care diferă de media populației cu 10 puncte sau mai mult. În prima problemă, am luat în considerare scoruri cu 10 puncte sau mai mult peste scorul 70. Dacă luăm și scorurile care sunt cu mai mici, probabilitatea se dublează.

O a treia problemă se referă la media care are o probabilitate de .05 de a obține o medie la fel de mare sau mai mare prin eșantionare randomizată. În rezolvarea acestei probleme, sensul de rezolvare este invers. Astfel, se identifică din tabel scorul z peste care se află .05 din scoruri. Apoi, scorul se calculează prin suma mediei și a produsului dintre scorul z și abaterea standard.

Ultima problemă se referă la limitele între care se încadrează 95% din populație. Dacă rămân 5%, atunci această valoare trebuie împărțită între cele două margini ale distribuției. Astfel, trebuie identificată valoarea lui z peste care se află .025 din populație. Această problemă se rezolvă asemeni celei anterioare, făcându-se atât suma, cât și diferența.

Folosind aceste metode, cercetătorii pot verifica în ce măsură ipoteza lor este adevărată.

Note matematice

Dacă există 50 de bilete de loterie și este extras unul, pus deoparte, apoi extras altul și tot așa până sunt extrase cinci bilete, vorbim despre eșantionare fără înlocuire. Dacă este extras un bilet, notat numărul, și pus înapoi, este implicată eșantionarea cu înlocuire. Proprietatea de independență a eșantioanelor este satisfăcută în eșantionarea cu înlocuire.

Când evenimentele A și B sunt independente, atunci probabilitatea ca atât A, cât și B să fie să apară este produsul probabilităților separate.  

Leave a Reply

Your email address will not be published. Required fields are marked *

This site uses Akismet to reduce spam. Learn how your comment data is processed.

en_USEN