Un loc aparte în analiza statistică îl revine determinării nivelului mediu al caracteristicii sau fenomenului studiat. Nivelul mediu al unei caracteristici este măsurat prin valori medii.

Valoarea medie caracterizează nivelul cantitativ general al trăsăturii studiate și este o proprietate de grup a populației statistice. Ea nivelează, slăbește abaterile aleatorii ale observațiilor individuale într-o direcție sau alta și evidențiază proprietatea principală, tipică, a trăsăturii studiate.

Mediile sunt utilizate pe scară largă:

1. Evaluarea stării de sănătate a populației: caracteristici ale dezvoltării fizice (înălțime, greutate, circumferință toracică etc.), identificarea prevalenței și duratei diferitelor boli, analizarea indicatorilor demografici (mișcarea naturală a populației, speranța medie de viață, reproducerea populației). , populația medie și etc.).

2. Să studieze activitățile instituțiilor medicale, ale personalului medical și să evalueze calitatea muncii acestora, planificarea și determinarea nevoilor populației în diverse tipuri de asistență medicală (număr mediu de cereri sau vizite pe locuitor pe an, durata medie a șederii). a unui pacient într-un spital, durata medie a pacientului de examinare, asigurarea medie cu medici, paturi etc.).

3. Să se caracterizeze starea sanitară și epidemiologică (puritatea medie a aerului din atelier, suprafața medie per persoană, consumul mediu de proteine, grăsimi și carbohidrați etc.).

4. Să determine parametrii medicali și fiziologici în normă și patologie, în prelucrarea datelor de laborator, să stabilească fiabilitatea rezultatelor unui studiu selectiv în studii socio-igiene, clinice, experimentale.

Calculul valorilor medii se realizează pe baza seriilor de variații. Seria de variații- acesta este un set statistic omogen calitativ, ale cărui unități individuale caracterizează diferențele cantitative ale trăsăturii sau fenomenului studiat.

Variația cantitativă poate fi de două tipuri: discontinuă (discretă) și continuă.

Un semn discontinuu (discret) este exprimat doar ca un număr întreg și nu poate avea valori intermediare (de exemplu, numărul de vizite, populația site-ului, numărul de copii din familie, severitatea bolii în puncte). , etc.).

Un semn continuu poate lua orice valoare în anumite limite, inclusiv cele fracționate, și este exprimat doar aproximativ (de exemplu, greutatea - pentru adulți vă puteți limita la kilograme, iar pentru nou-născuți - grame; înălțime, tensiune arterială, timp cheltuită pentru a vedea un pacient etc.).



Valoarea digitală a fiecărei caracteristici sau fenomene individuale incluse în seria de variații se numește variantă și este indicată prin litera V . Există și alte notații în literatura matematică, de exemplu X sau y.

O serie variațională, în care fiecare opțiune este indicată o dată, se numește simplă. Astfel de serii sunt folosite în majoritatea problemelor statistice în cazul prelucrării informatice a datelor.

Cu o creștere a numărului de observații, de regulă, există valori repetate ale variantei. În acest caz, se creează serie de variații grupate, unde este indicat numărul de repetări (frecvența, notat cu litera " R »).

Serii de variații clasificate constă din opțiuni dispuse în ordine crescătoare sau descrescătoare. Atât seriale simple cât și cele grupate pot fi compuse cu clasament.

Seria de variație de interval sunt alcătuite în scopul simplificării calculelor ulterioare efectuate fără utilizarea calculatorului, cu un număr foarte mare de unități de observație (mai mult de 1000).

Serii cu variații continue include valorile variante, care pot fi orice valoare.

Dacă în seria de variații valorile atributului (opțiunilor) sunt date sub formă de numere specifice separate, atunci o astfel de serie se numește discret.

Caracteristicile generale ale valorilor atributului reflectat în seria de variații sunt valorile medii. Dintre acestea, cele mai utilizate sunt: ​​media aritmetică M, Modă lu si mediana pe mine. Fiecare dintre aceste caracteristici este unică. Ele nu se pot înlocui unul pe altul și numai în ansamblu, destul de complet și într-o formă concisă, sunt trăsăturile seriei variaționale.

Modă (lu) numiți valoarea opțiunilor care apar cel mai frecvent.

Median (pe mine) este valoarea variantei care împarte la jumătate seria variațională intervalată (pe fiecare parte a medianei există jumătate din variantă). În cazuri rare, când există o serie de variații simetrice, modul și mediana sunt egale între ele și coincid cu valoarea mediei aritmetice.

Cea mai tipică caracteristică a valorilor variantelor este medie aritmetică valoare( M ). În literatura matematică, se notează .

Media aritmetică (M, ) este o caracteristică cantitativă generală a unei anumite trăsături a fenomenelor studiate, care alcătuiesc un set statistic omogen calitativ. Distinge între media aritmetică simplă și media ponderată. Media aritmetică simplă este calculată pentru o serie variațională simplă prin însumarea tuturor opțiunilor și împărțind această sumă la numărul total de opțiuni incluse în această serie variațională. Calculele se efectuează după formula:

Unde: M - medie aritmetică simplă;

Σ V - optiunea de suma;

n- numărul de observații.

În seria de variații grupate, se determină o medie aritmetică ponderată. Formula de calcul a acestuia:

Unde: M - medie ponderată aritmetică;

Σ vp - suma produselor unei variante pe frecvenţele acestora;

n- numărul de observații.

Cu un număr mare de observații în cazul calculelor manuale, se poate folosi metoda momentelor.

Media aritmetică are următoarele proprietăți:

suma abaterilor variantei de la medie ( Σ d ) este egal cu zero (vezi Tabelul 15);

La înmulțirea (împărțirea) tuturor opțiunilor cu același factor (divizor), media aritmetică este înmulțită (împărțită) cu același factor (divizor);

Dacă adăugați (scădeți) același număr la toate opțiunile, media aritmetică crește (descrește) cu același număr.

Mediile aritmetice, luate singure, fără a ține cont de variabilitatea seriei din care sunt calculate, pot să nu reflecte pe deplin proprietățile seriei de variații, mai ales când este necesară compararea cu alte medii. Valorile medii apropiate ca valoare pot fi obținute din serii cu diferite grade de împrăștiere. Cu cât opțiunile individuale sunt mai aproape unele de altele în ceea ce privește caracteristicile lor cantitative, cu atât mai puțin împrăștiere (fluctuație, variabilitate) serie, cu atât este mai tipică media.

Principalii parametri care permit evaluarea variabilității unei trăsături sunt:

· domeniul de aplicare;

Amplitudine;

· Deviație standard;

· Coeficientul de variație.

Aproximativ, fluctuația unei trăsături poate fi judecată după sfera și amplitudinea seriei de variații. Intervalul indică opțiunile maxime (V max) și minime (V min) din serie. Amplitudinea (A m) este diferența dintre aceste opțiuni: A m = V max - V min .

Principala măsură, general acceptată, a fluctuației seriei variaționale sunt dispersie (D ). Dar cel mai des este folosit parametrul mai convenabil, calculat pe baza varianței - abaterea standard ( σ ). Se ține cont de valoarea abaterii ( d ) a fiecărei variante a seriei de variații din media ei aritmetică ( d=V - M ).

Deoarece abaterile variantei de la medie pot fi pozitive și negative, atunci când sunt însumate, dau valoarea „0” (S d=0). Pentru a evita acest lucru, valorile abaterii ( d) sunt ridicate la a doua putere și mediate. Astfel, varianța seriei variaționale este pătratul mediu al abaterilor variantei de la media aritmetică și se calculează prin formula:

Este cea mai importantă caracteristică a variabilității și este folosită pentru a calcula multe teste statistice.

Deoarece varianța este exprimată ca pătratul abaterilor, valoarea sa nu poate fi utilizată în comparație cu media aritmetică. În aceste scopuri, este folosit deviație standard, care este notat cu semnul „Sigma” ( σ ). Caracterizează abaterea medie a tuturor variantelor seriei de variații de la media aritmetică în aceleași unități ca și media în sine, astfel încât acestea pot fi utilizate împreună.

Abaterea standard este determinată de formula:

Această formulă se aplică pentru numărul de observații ( n ) este mai mare decât 30. Cu un număr mai mic n valoarea abaterii standard va avea o eroare asociată cu părtinirea matematică ( n - 1). În acest sens, un rezultat mai precis poate fi obținut luând în considerare o astfel de părtinire în formula de calcul a abaterii standard:

deviație standard (s ) este o estimare a abaterii standard a variabilei aleatoare X raportat la așteptările sale matematice bazate pe o estimare imparțială a varianței sale.

Pentru valori n > 30 deviație standard ( σ ) și abaterea standard ( s ) va fi la fel ( σ=s ). Prin urmare, în majoritatea manualelor practice, aceste criterii sunt tratate ca având semnificații diferite.În Excel, calculul abaterii standard se poate face cu funcția =STDEV(interval). Și pentru a calcula abaterea standard, trebuie să creați o formulă adecvată.

Rădăcina pătrată medie sau abaterea standard vă permite să determinați cât de mult pot diferi valorile unei caracteristici de valoarea medie. Să presupunem că există două orașe cu aceeași temperatură medie zilnică vara. Unul dintre aceste orașe este situat pe coastă, iar celălalt pe continent. Se știe că în orașele situate pe coastă, diferențele de temperaturi în timpul zilei sunt mai mici decât în ​​orașele situate în interior. Prin urmare, abaterea standard a temperaturilor diurne din apropierea orașului de coastă va fi mai mică decât cea a celui de-al doilea oraș. În practică, aceasta înseamnă că temperatura medie a aerului pentru fiecare zi particulară într-un oraș situat pe continent va diferi mai mult de media decât într-un oraș de pe coastă. În plus, abaterea standard face posibilă estimarea posibilelor abateri de temperatură de la medie cu nivelul necesar de probabilitate.

Conform teoriei probabilității, în fenomenele care se supun legii distribuției normale, există o relație strictă între valorile mediei aritmetice, abaterea standard și opțiuni ( regula trei sigma). De exemplu, 68,3% din valorile unui atribut variabil sunt în M ± 1 σ , 95,5% - în M ± 2 σ și 99,7% - în M ± 3 σ .

Valoarea abaterii standard face posibilă aprecierea naturii omogenității seriei de variații și a grupului studiat. Dacă valoarea abaterii standard este mică, atunci aceasta indică o omogenitate suficient de mare a fenomenului studiat. Media aritmetică în acest caz ar trebui recunoscută ca fiind destul de caracteristică acestei serii variaționale. Cu toate acestea, o sigma prea mică ne face să ne gândim la o selecție artificială de observații. Cu o sigma foarte mare, media aritmetică caracterizează seria de variații într-o măsură mai mică, ceea ce indică o variabilitate semnificativă a trăsăturii sau fenomenului studiat sau eterogenitatea grupului de studiu. Cu toate acestea, compararea valorii abaterii standard este posibilă numai pentru semne de aceeași dimensiune. Într-adevăr, dacă comparăm diversitatea de greutate a nou-născuților și a adulților, vom obține întotdeauna valori sigma mai mari la adulți.

Compararea variabilității caracteristicilor de diferite dimensiuni poate fi efectuată folosind coeficient de variație. Exprimă diversitatea ca procent din medie, ceea ce permite compararea diferitelor trăsături. Coeficientul de variație în literatura medicală este indicat de semnul " CU ", iar în matematică" v» și calculată prin formula:

Valorile coeficientului de variație mai mici de 10% indică o împrăștiere mică, de la 10 la 20% - aproximativ în medie, mai mult de 20% - aproximativ o împrăștiere puternică în jurul mediei aritmetice.

Media aritmetică este de obicei calculată pe baza datelor eșantionului. Cu studii repetate sub influența unor fenomene aleatorii, media aritmetică se poate schimba. Acest lucru se datorează faptului că, de regulă, doar o parte din posibilele unități de observație, adică o populație eșantion, este investigată. Informații despre toate unitățile posibile reprezentând fenomenul studiat pot fi obținute prin studierea întregii populații generale, ceea ce nu este întotdeauna posibil. Totodată, pentru generalizarea datelor experimentale prezintă interes valoarea mediei în populaţia generală. Prin urmare, pentru a formula o concluzie generală despre fenomenul studiat, rezultatele obținute pe baza populației eșantionului trebuie transferate populației generale prin metode statistice.

Pentru a determina gradul de acord dintre studiul eșantionului și populația generală, este necesar să se estimeze cantitatea de eroare care apare inevitabil în timpul observării eșantionului. O astfel de eroare se numește eroare de reprezentativitate” sau „Eroarea medie a mediei aritmetice”. Este, de fapt, diferența dintre mediile obținute din observarea statistică selectivă și valori similare care ar fi obținute dintr-un studiu continuu al aceluiași obiect, adică. la studierea populaţiei generale. Deoarece media eșantionului este o variabilă aleatorie, o astfel de prognoză se face cu un nivel acceptabil de probabilitate pentru cercetător. În cercetarea medicală, este de cel puțin 95%.

Eroarea de reprezentativitate nu trebuie confundată cu erorile de înregistrare sau erorile de atenție (greșeli de tipărire, calcule greșite, greșeli de tipărire etc.), care trebuie reduse la minimum printr-o metodologie și instrumente adecvate utilizate în experiment.

Mărimea erorii de reprezentativitate depinde atât de mărimea eșantionului, cât și de variabilitatea trăsăturii. Cu cât numărul de observații este mai mare, cu atât eșantionul este mai aproape de populația generală și cu atât eroarea este mai mică. Cu cât caracteristica este mai variabilă, cu atât eroarea statistică este mai mare.

În practică, următoarea formulă este utilizată pentru a determina eroarea de reprezentativitate în seriile variaționale:

Unde: m – eroare de reprezentativitate;

σ - deviație standard;

n este numărul de observații din eșantion.

Din formula se poate observa că mărimea erorii medii este direct proporțională cu abaterea standard, adică variabilitatea trăsăturii studiate, și invers proporțională cu rădăcina pătrată a numărului de observații.

La efectuarea analizei statistice pe baza calculului valorilor relative nu este obligatorie construirea unei serii de variatii. În acest caz, determinarea erorii medii pentru indicatorii relativi poate fi efectuată folosind o formulă simplificată:

Unde: R- valoarea indicatorului relativ, exprimată în procente, ppm etc.;

q- reciproca lui P și exprimată ca (1-P), (100-P), (1000-P), etc., în funcție de baza pentru care se calculează indicatorul;

n este numărul de observații din eșantion.

Cu toate acestea, formula indicată pentru calcularea erorii de reprezentativitate pentru valori relative poate fi aplicată numai atunci când valoarea indicatorului este mai mică decât baza acestuia. Într-un număr de cazuri de calculare a indicatorilor intensivi, această condiție nu este îndeplinită, iar indicatorul poate fi exprimat ca un număr mai mare de 100% sau 1000%o. Într-o astfel de situație, se construiește o serie de variații și se calculează eroarea de reprezentativitate folosind formula pentru valori medii bazate pe abaterea standard.

Prognoza valorii mediei aritmetice în populația generală se realizează cu indicarea a două valori - minim și maxim. Aceste valori extreme ale posibilelor abateri, în cadrul cărora poate fluctua valoarea medie dorită a populației generale, se numesc „ Granițele de încredere».

Postulatele teoriei probabilităților au demonstrat că, cu o distribuție normală a unei caracteristici cu o probabilitate de 99,7%, valorile extreme ale abaterilor mediei nu vor depăși valoarea triplei erori de reprezentativitate ( M ± 3 m ); în 95,5% - nu mai mult decât valoarea erorii medii dublate a valorii medii ( M ±2 m ); în 68,3% - nu mai mult decât valoarea unei erori medii ( M ± 1 m ) (Fig. 9).

P%

Orez. 9. Densitatea de probabilitate a distribuției normale.

Rețineți că afirmația de mai sus este adevărată numai pentru o caracteristică care respectă legea distribuției gaussiene normale.

Cele mai multe studii experimentale, inclusiv cele din domeniul medicinei, sunt asociate cu măsurători, ale căror rezultate pot lua aproape orice valoare într-un interval dat, prin urmare, de regulă, sunt descrise printr-un model de variabile aleatoare continue. În acest sens, majoritatea metodelor statistice iau în considerare distribuțiile continue. Una dintre aceste distribuții, care joacă un rol fundamental în statistica matematică, este distribuție normală sau gaussiană.

Acest lucru se datorează mai multor motive.

1. În primul rând, multe observații experimentale pot fi descrise cu succes folosind o distribuție normală. Trebuie remarcat imediat că nu există distribuții de date empirice care ar fi exact normale, deoarece o variabilă aleatoare distribuită normal este în intervalul de la până la , ceea ce nu apare niciodată în practică. Cu toate acestea, distribuția normală este foarte adesea o bună aproximare.

Indiferent dacă se efectuează măsurători ale greutății, înălțimii și alți parametri fiziologici ai corpului uman - peste tot un număr foarte mare de factori aleatori (cauze naturale și erori de măsurare) influențează rezultatele. Și, de regulă, efectul fiecăruia dintre acești factori este nesemnificativ. Experiența arată că rezultatele în astfel de cazuri vor fi distribuite aproximativ normal.

2. Multe distribuții asociate unui eșantion aleatoriu, cu o creștere a volumului acestuia din urmă, devin normale.

3. Distribuția normală este potrivită ca o descriere aproximativă a altor distribuții continue (de exemplu, cele asimetrice).

4. Distribuția normală are o serie de proprietăți matematice favorabile, care au asigurat în mare măsură utilizarea sa pe scară largă în statistică.

În același timp, trebuie menționat că în datele medicale există multe distribuții experimentale care nu pot fi descrise de modelul de distribuție normală. Pentru a face acest lucru, statisticile au dezvoltat metode care sunt denumite în mod obișnuit „Nonparametric”.

Alegerea unei metode statistice care este potrivită pentru prelucrarea datelor unui anumit experiment ar trebui făcută în funcție de faptul dacă datele obținute aparțin legii distribuției normale. Testarea ipotezelor pentru subordonarea unui semn la legea distribuției normale se realizează folosind o histogramă a distribuției de frecvență (grafic), precum și o serie de criterii statistice. Printre ei:

Criteriul de asimetrie ( b );

Criterii de verificare a curtozei ( g );

criteriul Shapiro–Wilks ( W ) .

Pentru fiecare parametru se efectuează o analiză a naturii distribuției datelor (se mai numește și test pentru normalitatea distribuției). Pentru a aprecia cu încredere conformitatea distribuției parametrilor cu legea normală, este necesar un număr suficient de mare de unități de observație (cel puțin 30 de valori).

Pentru o distribuție normală, criteriile de asimetrie și curtoză iau valoarea 0. Dacă distribuția este deplasată la dreapta b > 0 (asimetrie pozitivă), cu b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. La g > 0 curba de distribuţie este mai clară dacă g < 0 пик более сглаженный, чем функция нормального распределения.

Pentru a testa normalitatea folosind testul Shapiro-Wilks, este necesar să se găsească valoarea acestui criteriu folosind tabele statistice la nivelul de semnificație cerut și în funcție de numărul de unități de observație (grade de libertate). Anexa 1. Ipoteza normalității este respinsă pentru valori mici ale acestui criteriu, de regulă, pentru w <0,8.

gruparea- aceasta este împărțirea populației în grupuri omogene într-un fel.

Atribuirea serviciului. Cu calculatorul online puteți:

  • construiți o serie de variații, construiți o histogramă și un poligon;
  • găsiți indicatori de variație (medie, mod (inclusiv grafic), mediană, interval de variație, quartile, decile, coeficient de diferențiere cuartile, coeficient de variație și alți indicatori);

Instruire. Pentru a grupa o serie, trebuie să selectați tipul seriei de variații rezultate (discretă sau interval) și să specificați cantitatea de date (numărul de rânduri). Soluția rezultată este salvată într-un fișier Word (vezi exemplul de grupare a datelor statistice).

Dacă gruparea a fost deja făcută și serie de variații discrete sau serie de intervale, atunci trebuie să utilizați calculatorul online Indicatori de variație. Testarea ipotezei despre tipul de distribuție produs folosind serviciul Studiul formei de distributie.

Tipuri de grupări statistice

Seria de variații. În cazul observațiilor unei variabile aleatoare discrete, aceeași valoare poate fi întâlnită de mai multe ori. Astfel de valori ale unei variabile aleatoare x i sunt înregistrate indicând n i de câte ori apare în n observații, aceasta este frecvența acestei valori.
În cazul unei variabile aleatoare continue, gruparea este utilizată în practică.
  1. Gruparea tipologică- este împărțirea populației eterogene calitativ studiate în clase, tipuri socio-economice, grupuri omogene de unități. Pentru a construi această grupare, utilizați parametrul Serie variațională discretă.
  2. Se numește grupare structurală, în care o populație omogenă este împărțită în grupuri care îi caracterizează structura în funcție de anumite caracteristici diferite. Pentru a construi această grupare, utilizați parametrul Interval series.
  3. Se numește o grupare care relevă relația dintre fenomenele studiate și trăsăturile lor grup analitic(vezi gruparea analitică a serii).

Exemplul #1. Conform tabelului 2, construiți seria de distribuție pentru 40 de bănci comerciale ale Federației Ruse. În funcție de seria de distribuție obținută, determinați: profitul mediu pe o bancă comercială, investițiile creditare în medie pe o bancă comercială, valoarea modală și mediană a profitului; quartile, decile, intervalul de variație, deviația liniară medie, abaterea standard, coeficientul de variație.

Soluţie:
În capitolul „Tipul seriei statistice” alege Discrete Series. Faceți clic pe Lipire din Excel. Număr de grupe: conform formulei Sturgess

Principii de construire a grupărilor statistice

O serie de observații ordonate în ordine crescătoare se numește serie de variații. semn de grupare este semnul prin care populația este împărțită în grupuri separate. Se numește baza grupului. Gruparea se poate baza atât pe caracteristici cantitative, cât și calitative.
După stabilirea bazei grupării, trebuie decisă problema numărului de grupuri în care ar trebui să fie împărțită populația de studiu.

Atunci când se utilizează computere personale pentru prelucrarea datelor statistice, gruparea unităților unui obiect se realizează folosind proceduri standard.
O astfel de procedură se bazează pe utilizarea formulei Sturgess pentru a determina numărul optim de grupuri:

k = 1+3,322*lg(N)

Unde k este numărul de grupuri, N este numărul de unități de populație.

Lungimea intervalelor parțiale se calculează ca h=(x max -x min)/k

Apoi numărați numărul de accesări ale observațiilor din aceste intervale, care sunt luate ca frecvențe n i . Puține frecvențe, ale căror valori sunt mai mici de 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Punctele medii ale intervalelor x i =(c i-1 +c i)/2 sunt luate ca valori noi.

Exemplul #3. Ca rezultat al unui eșantion auto-aleatoriu de 5%, s-a obținut următoarea distribuție a produselor după conținutul de umiditate. Calculați: 1) procentul mediu de umiditate; 2) indicatori care caracterizează variaţia umidităţii.
Soluția a fost obținută folosind un calculator: Exemplul nr. 1

Construiți o serie de variații. Pe baza seriei găsite, construiți un poligon de distribuție, o histogramă și un cumulat. Determinați modul și mediana.
Descărcați soluția

Exemplu. Conform rezultatelor observării selective (anexa eșantionului A):
a) faceți o serie de variații;
b) calculați frecvențele relative și frecvențele relative acumulate;
c) construiți un poligon;
d) alcătuiește o funcție de distribuție empirică;
e) reprezentaţi grafic funcţia de distribuţie empirică;
f) calculați caracteristicile numerice: medie aritmetică, varianță, abatere standard. Soluţie

Pe baza datelor prezentate în Tabelul 4 (Anexa 1) și corespunzătoare opțiunii dvs., efectuați:

  1. Pe baza grupării structurale, construiți o serie de frecvență variațională și distribuție cumulativă folosind intervale închise egale, presupunând că numărul de grupuri este 6. Prezentați rezultatele într-un tabel și grafic.
  2. Analizați seria de distribuție variațională calculând:
    • valoarea medie aritmetică a caracteristicii;
    • mod, mediană, 1-a cuartilă, 1-a și 9-a decilă;
    • deviație standard;
    • coeficientul de variație.
  3. A trage concluzii.

Necesar: pentru a clasifica seria, construiți o serie de distribuție pe intervale, calculați media, varianța medie, modul și mediana pentru seria interval și interval.

Pe baza datelor inițiale, construiți o serie variațională discretă; prezentați-l sub forma unui tabel statistic și grafice statistice. 2). Pe baza datelor inițiale, construiți o serie de variații de interval cu intervale egale. Alegeți singur numărul de intervale și explicați această alegere. Prezentați seria de variații rezultată sub forma unui tabel statistic și grafice statistice. Indicați tipurile de tabele și grafice utilizate.

Pentru a determina durata medie a serviciului clienți într-un fond de pensii, al cărui număr de clienți este foarte mare, a fost efectuat un sondaj pe 100 de clienți conform schemei de eșantionare auto-aleatorie nerepetitivă. Rezultatele sondajului sunt prezentate în tabel. Găsi:
a) limitele în care, cu o probabilitate de 0,9946, se încheie timpul mediu de serviciu pentru toți clienții fondului de pensii;
b) probabilitatea ca ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute să difere de ponderea acestor clienți în eșantion cu cel mult 10% (în valoare absolută);
c) volumul de reeșantionare, la care cu o probabilitate de 0,9907 se poate argumenta că ponderea tuturor clienților fondului cu o durată de serviciu mai mică de 6 minute diferă de ponderea acestor clienți în eșantion cu cel mult 10% (în valoare absolută).
2. Conform sarcinii 1, folosind testul Pearson X 2, la nivelul de semnificație α = 0,05, se testează ipoteza că variabila aleatoare X - timpul de servire a clienților - este distribuită conform legii normale. Construiți pe un desen o histogramă a distribuției empirice și a curbei normale corespunzătoare.
Descărcați soluția

Dat un eșantion de 100 de articole. Necesar:

  1. Construiți o serie variațională clasificată;
  2. Găsiți termenii maximi și minimi ai seriei;
  3. Găsiți intervalul de variație și numărul de intervale optime pentru construirea unei serii de intervale. Aflați lungimea intervalului seriei de intervale;
  4. Construiți o serie de intervale. Aflați frecvențele elementelor eșantionului care se încadrează în golurile compuse. Găsiți punctele de mijloc ale fiecărui interval;
  5. Construiți o histogramă și un poligon de frecvențe. Comparați cu distribuția normală (analitic și grafic);
  6. Reprezentați grafic funcția de distribuție empirică;
  7. Calculați caracteristicile numerice ale eșantionului: media eșantionului și momentul central al eșantionului;
  8. Calculați valorile aproximative ale abaterii standard, asimetriei și curtozei (folosind pachetul de analiză MS Excel). Comparați valorile calculate aproximative cu cele exacte (calculate folosind formule MS Excel);
  9. Comparați caracteristicile grafice selectate cu cele teoretice corespunzătoare.
Descărcați soluția

Avem următoarele date eșantion (eșantion de 10%, mecanic) privind producția și valoarea profitului, milioane de ruble. Conform datelor originale:
Sarcina 13.1.
13.1.1. Construiți o serie statistică de distribuție a întreprinderilor după valoarea profitului, formând cinci grupuri la intervale egale. Serii de distribuție a parcelelor.
13.1.2. Calculați caracteristicile numerice ale unei serii de distribuție a întreprinderilor după valoarea profitului: medie aritmetică, abatere standard, varianță, coeficient de variație V. Trageți concluzii.
Sarcina 13.2.
13.2.1. Determinați limitele în care, cu o probabilitate de 0,997, se încheie valoarea profitului unei întreprinderi din populația generală.
13.2.2. Folosind criteriul x2 al lui Pearson, la un nivel de semnificație α, testați ipoteza că variabila aleatoare X - valoarea profitului - este distribuită conform legii normale.
Sarcina 13.3.
13.3.1. Determinați coeficienții ecuației de regresie a probei.
13.3.2. Stabiliți prezența și natura corelației dintre costul produselor fabricate (X) și valoarea profitului pe întreprindere (Y). Trasează un grafic de dispersie și o dreaptă de regresie.
13.3.3. Calculați coeficientul de corelație liniară. Utilizând testul t al lui Student, verificați semnificația coeficientului de corelație. Trageți o concluzie despre apropierea relației dintre factorii X și Y folosind scala Chaddock.
Instrucțiuni. Sarcina 13.3 este efectuată utilizând acest serviciu.
Descărcați soluția

Sarcină. Următoarele date reprezintă timpul petrecut de clienți în încheierea contractelor. Construiți o serie de variații de interval a datelor prezentate, o histogramă, găsiți o estimare imparțială a așteptărilor matematice, o estimare părtinitoare și nepărtinitoare a varianței.

Exemplu. Conform tabelului 2:
1) Construiți serii de distribuție pentru 40 de bănci comerciale din Federația Rusă:
a) cu valoarea profitului;
B) prin valoarea investiţiilor creditare.
2) În funcție de seria de distribuție obținută, determinați:
A) profitul mediu pe bancă comercială;
B) investiții creditare în medie pe bancă comercială;
C) valoarea modală și mediană a profitului; quartile, decile;
D) valoarea modală și mediană a investițiilor creditare.
3) Conform seriei de distribuție obținute la paragraful 1, se calculează:
a) interval de variație;
b) abaterea liniară medie;
c) abaterea standard;
d) coeficientul de variaţie.
Înregistrați calculele necesare în formă tabelară. Analizați rezultatele. Trageți propriile concluzii.
Trasează seria de distribuție rezultată. Determinați grafic modul și mediana.

Soluţie:
Pentru a construi o grupare cu intervale egale, vom folosi serviciul Grupare de date statistice.

Figura 1 - Introducerea parametrilor

Descrierea parametrilor
Numărul de linii: cantitatea de date brute. Dacă dimensiunea seriei este mică, indicați numărul acesteia. Dacă selecția este suficient de mare, atunci faceți clic pe butonul Lipire din Excel.
Numărul de grupuri: 0 - numărul de grupe va fi determinat de formula Sturgess.
Dacă este specificat un anumit număr de grupuri, specificați-l (de exemplu, 5).
Tipul de rând: Serii discrete.
Nivel de semnificație: de exemplu, 0,954. Acest parametru este setat pentru a defini intervalul de încredere pentru medie.
Probă: De exemplu, se face eșantionare mecanică de 10%. Specificați numărul 10. Pentru datele noastre, precizăm 100 .

Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a fi capabil să
  • calculați ratele de variație și bunătatea potrivirii;
  • determinați caracteristicile distribuțiilor;
  • evaluarea principalelor caracteristici numerice ale serii de distribuție statistică;

proprii

  • metode de analiză statistică a seriilor de distribuție;
  • elementele de bază ale analizei dispersiei;
  • metode de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Variație - acestea sunt diferențele dintre valorile individuale ale trăsăturii între unitățile populației studiate. Studiul variației este de mare importanță practică. După gradul de variație, se pot judeca limitele variației trăsăturii, omogenitatea populației pentru această trăsătură, tipicitatea mediei, relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și ordona populațiile statistice.

Rezultatele sintetizării și grupării materialelor de observație statistică, întocmite sub formă de serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate în grupuri după un atribut (variabil) de grupare. Dacă o trăsătură calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă seria de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția pe înălțime, greutate, salariu etc.). A construi o serie variațională înseamnă a ordona distribuția cantitativă a unităților de populație în funcție de valorile atributului, a număra numărul de unități de populație cu aceste valori (frecvență), a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- aceasta este o astfel de serie variațională, a cărei construcție se bazează pe semne cu schimbare discontinuă (semne discrete). Acestea din urmă includ numărul de angajați din întreprindere, categoria salarială, numărul de copii din familie etc. O serie variațională discretă este un tabel care constă din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua - numărul de unități de populație cu o anumită valoare a atributului. Dacă un semn are o schimbare continuă (valoarea venitului, vechimea în muncă, costul activelor fixe ale unei întreprinderi etc., care în anumite limite poate lua orice valoare), atunci pentru acest semn este posibil să se construiască serie de variații de interval. Tabelul când se construiește o serie de variații de interval are și două coloane. Primul indică valoarea caracteristicii în intervalul „de la - la” (opțiuni), al doilea - numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante a valorilor atributelor. Intervalele pot fi închise și deschise. Intervalele închise sunt limitate pe ambele părți, adică au o margine atât inferioară („de la”), cât și superioară („la”). Intervalele deschise au orice margine: fie superioară, fie inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru seriile variaționale, există două tipuri de opțiuni de răspuns în frecvență: frecvența cumulată și frecvența cumulativă. Frecvența cumulativă arată câte observații a luat valoarea caracteristicii la valori mai mici decât valoarea specificată. Frecvența cumulativă este determinată prin însumarea valorilor frecvenței caracteristice pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvența acumulată caracterizează proporția de unități de observație în care valorile caracteristicii nu depășesc limita superioară a grupului de zile. Astfel, frecvența acumulată arată ponderea specifică a variantei în agregat, care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența cumulativă și frecvența sunt caracteristici ale mărimii variantei.

Variațiile semnului unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivelul mediu al seriei, abaterea liniară medie, abaterea standard, dispersia. , coeficienți de oscilație, variație, asimetrie, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă, în care se cuantifică nivelul tipic al unei trăsături deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri în care mediile aritmetice coincid cu o natură diferită a distribuției, prin urmare, ca caracteristici statistice ale seriei de variații, sunt calculate așa-numitele medii structurale - mod, mediană, precum și cuantile care împart distribuția. serie în părți egale (cuartile, decile, percentile etc.).

Modă - aceasta este valoarea caracteristicii care apare mai frecvent în seria de distribuție decât celelalte valori ale acesteia. Pentru seriale discrete, aceasta este varianta cu cea mai mare frecvență. În serii variaționale de interval, pentru a determina modul, este necesar în primul rând să se determine intervalul în care se află, așa-numitul interval modal. Într-o serie variațională cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în seria cu intervale inegale - dar de cea mai mare densitate de distribuție. Apoi, pentru a determina modul în rânduri cu intervale egale, aplicați formula

unde Mo este valoarea modei; x Mo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j - frecvența intervalului pre-modal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția de probabilitate a variabilei aleatoare se numește unimodală; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții unimodale. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a izola grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, două linii care se intersectează sunt trasate de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristică de pe abscisă corespunzătoare perpendicularei este modul. În multe cazuri, când se caracterizează populația ca indicator generalizat, se acordă preferință modului, mai degrabă decât mediei aritmetice.

Mediana - aceasta este valoarea centrală a caracteristicii; este deținută de membrul central al seriei de distribuție clasificată. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru a face acest lucru, cu un număr impar de unități, se adaugă una la suma tuturor frecvențelor, numărul este împărțit la doi. Dacă există un număr par de 1, vor exista 2 1 mediani în serie, deci în acest caz mediana este definită ca media valorilor celor 2 1 mediani. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin același număr de opțiuni.

În seria de intervale, după determinarea numărului ordinal al medianei, intervalul median este găsit de frecvențele (frecvențele) acumulate și apoi, folosind formula de calcul a mediei, se determină valoarea medianei în sine:

unde Me este valoarea medianei; x eu - limita inferioară a intervalului median; h- lățimea mediană a intervalului; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind cumulat. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În plus, din punctul de intersecție a dreptei indicate cu cumulul, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori de atribut care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană este valoarea minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în avans valoarea mediană a noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă în proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei policlinici într-un anumit cartier al orașului, atunci este mai oportun să o amplasăm într-un punct al cartierului care nu traversează lungimea cartierului, ci numărul de locuitori.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției trăsăturii în agregat, vă permite să evaluați simetria distribuției. Dacă x Me atunci există o asimetrie dreapta a seriei. Cu o distribuție normală X - Notificare.

K. Pearson, pe baza alinierii diferitelor tipuri de curbe, a determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea medianei; Mo - valoarea modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia mai detaliat structura seriei de variații, atunci se calculează valorile caracteristice, similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale, ele se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana folosind formula de calcul a primei cuartile, după ce a determinat în prealabil primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a primului interval de quartile; h- lăţimea primului interval trimestrial; /, - frecvențele seriei de intervale;

Frecvența acumulată în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q2 = pe mine.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit anterior al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X"- frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq - frecvența intervalului al treilea quartil.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea celui de-al treilea quartile; Q, - valoarea primei quartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde unor zecimi din populație. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai multe, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt Mai mult. Raportul dintre al nouălea și primul decil, adică coeficientul decil, utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit a 10% din populația cea mai bogată și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și utilizarea percentilelor sunt similare cu decilele.

Quartilele, decilele și alte caracteristici structurale pot fi determinate grafic prin analogie cu mediana folosind cumulat.

Pentru a măsura mărimea variației, se folosesc următorii indicatori: intervalul de variație, abaterea liniară medie, abaterea standard și varianța. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor atributului:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a caracteristicii; x tt - valoarea minimă a caracteristicii.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Acest neajuns este lipsit de indicatori care sunt medii obținute din abaterile valorilor individuale ale unei trăsături de la valoarea lor medie: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și fluctuația unei anumite trăsături. Cu cât volatilitatea este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde / pr - valoarea abaterii liniare medii; x, - - valoarea caracteristicii; X - P - numărul de unități de populație.

Seria grupată Abaterea liniară medie

unde / vz - valoarea abaterii liniare medii; x, - valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

Semnele de abatere sunt ignorate în acest caz, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie în funcție de gruparea datelor analizate se calculează folosind diferite formule: pentru date grupate și negrupate. Abaterea liniară medie, datorită condiționalității sale, separat de alți indicatori de variație, este utilizată relativ rar în practică (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale în ceea ce privește uniformitatea ofertei; în analiza cifrei de afaceri din comerțul exterior, compoziția angajaților, ritmul producției, calitatea produsului, ținând cont de caracteristicile tehnologice ale producției etc.).

Abaterea standard caracterizează cât de mult se abate valorile individuale ale trăsăturii studiate în medie de la valoarea medie a populației și este exprimată în unități ale trăsăturii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor variației unei trăsături într-o populație omogenă, în determinarea valorilor ordonatelor curbei de distribuție normală, precum și în calcule legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard pentru datele negrupate se calculează conform următorului algoritm: fiecare abatere de la medie este pătrată, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni din serie și rădăcina pătrată este luată din coeficientul:

unde a Iip - valoarea abaterii standard; Xj- valoarea caracteristicii; X- valoarea medie a atributului pentru populaţia studiată; P - numărul de unități de populație.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; fx- numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, varianța este calculată ca pătratul mediu al abaterilor valorilor trăsăturilor de la valoarea lor medie. Pentru valorile caracteristicilor neponderate (simple), varianța este definită după cum urmează:

Pentru valorile caracteristice ponderate

Există, de asemenea, o modalitate simplificată specială de a calcula varianța: în termeni generali

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda numărării de la zero condiționat

unde a 2 - valoarea dispersiei; x, - - valoarea caracteristicii; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are o expresie independentă în statistică și este unul dintre cei mai importanți indicatori ai variației. Se măsoară în unități corespunzătoare pătratului unităților de măsură ale trăsăturii studiate.

Dispersia are următoarele proprietăți.

  • 1. Dispersia unei valori constante este zero.
  • 2. Reducerea tuturor valorilor caracteristicii cu aceeași valoare a lui A nu modifică valoarea varianței. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale atributului, ci din abaterile acestora de la un număr constant.
  • 3. Scăderea tuturor valorilor caracteristicii în k ori reduce dispersia în k de 2 ori, iar abaterea standard - in k ori, adica toate valorile atributelor pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Și la diferă într-o oarecare măsură de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. În acest caz, pătratul mediu al abaterilor va fi mai mare cu o valoare bine definită - cu pătratul diferenței dintre medie și această valoare luată condiționat.

Variația unei trăsături alternative este prezența sau absența proprietății studiate în unitățile populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența proprietății studiate într-o unitate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea în studiu se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care au o proprietate dată (P) cu proporția de unități care nu au această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, care reprezintă 50% din volumul total al populației, are o caracteristică, iar cealaltă parte a populației, tot egală cu 50%, nu are această caracteristică, în timp ce varianța atinge o valoare maximă de 0,25, m .e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 și o 2 \u003d 0,5 0,5 \u003d 0,25. Limita inferioară a acestui indicator este egală cu zero, ceea ce corespunde unei situații în care nu există variații în agregat. Aplicația practică a varianței unei caracteristici alternative este de a construi intervale de încredere atunci când se efectuează o observație eșantion.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, devine adesea necesară compararea variațiilor diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale fluctuației aceluiași atribut în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura de fluctuații ale valorilor extreme în jurul mediei.

Factorul de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde vj- valoarea coeficientului liniar de variație; eu- valoarea abaterii liniare medii; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de variație:

Unde va- valoarea coeficientului de variație; a - valoarea abaterii standard; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de oscilație este procentul dintre intervalul de variație față de valoarea medie a trăsăturii studiate, iar coeficientul liniar de variație este raportul dintre deviația liniară medie și valoarea medie a trăsăturii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a trăsăturii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor trăsături. Cu ajutorul coeficientului de variație se estimează omogenitatea populației statistice. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator generalizator al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara fluctuația unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Și

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru seriile variaționale cu intervale inegale, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă - frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție a căror lege de distribuție este bine descrisă de legea distribuției normale sau este apropiată de aceasta.

variațională numită serie de distribuţie construită pe o bază cantitativă. Valorile caracteristicilor cantitative în unitățile individuale ale populației nu sunt constante, diferă mai mult sau mai puțin unele de altele.

Variație- fluctuaţia, variabilitatea valorii atributului în unităţi ale populaţiei. Se numesc valori numerice separate ale trăsăturii care apar în populația studiată Opțiuni valorile. Insuficiența valorii medii pentru o caracterizare completă a populației face necesară completarea valorilor medii cu indicatori care să permită evaluarea tipicității acestor medii prin măsurarea fluctuației (variației) trăsăturii studiate.

Prezența variației se datorează influenței unui număr mare de factori asupra formării nivelului de trăsătură. Acești factori acționează cu forță inegală și în direcții diferite. Indicatorii de variație sunt utilizați pentru a descrie măsura variabilității trăsăturilor.

Sarcinile studiului statistic al variației:

  • 1) studiul naturii și gradului de variație a semnelor în unități individuale ale populației;
  • 2) determinarea rolului factorilor individuali sau grupurilor acestora în variaţia anumitor trăsături ale populaţiei.

În statistică, se folosesc metode speciale de studiere a variației, bazate pe utilizarea unui sistem de indicatori, Cu prin care se măsoară variaţia.

Studiul variației este esențial. Măsurarea variațiilor este necesară atunci când se efectuează observarea eșantionului, analiza de corelație și varianță etc. Ermolaev O.Yu. Statistici matematice pentru psihologi: Manual [Text] / O.Yu. Ermolaev. - M.: Editura Flint a Institutului Psihologic și Social din Moscova, 2012. - 335p.

În funcție de gradul de variație, se poate judeca omogenitatea populației, stabilitatea valorilor individuale ale caracteristicilor și tipicitatea mediei. Pe baza acestora, sunt dezvoltați indicatori ai strângerii relației dintre semne, indicatori pentru evaluarea acurateței observației selective.

Există variații în spațiu și variații în timp.

Variația în spațiu este înțeleasă ca fluctuația valorilor unei trăsături în unități ale populației reprezentând teritorii separate. Prin variația în timp se înțelege modificarea valorilor atributului în diferite perioade de timp.

Pentru a studia variația seriei de distribuție, toate variantele valorilor atributelor sunt aranjate în ordine crescătoare sau descrescătoare. Acest proces se numește clasare în serie.

Cele mai simple semne de variație sunt minim si maxim- cea mai mică și cea mai mare valoare a atributului în agregat. Numărul de repetări ale variantelor individuale ale valorilor caracteristicilor se numește frecvența de repetare (fi). Este convenabil să înlocuiți frecvențele cu frecvențe - wi. Frecvență - un indicator relativ al frecvenței, care poate fi exprimat în fracții de unitate sau procent și vă permite să comparați serii de variații cu un număr diferit de observații. Exprimat prin formula:

unde Xmax, Xmin - valorile maxime și minime ale atributului în agregat; n este numărul de grupuri.

Pentru a măsura variația unei trăsături, se folosesc diverși indicatori absoluti și relativi. Indicatorii absoluti de variație includ intervalul de variație, abaterea liniară medie, varianța, abaterea standard. Indicatorii relativi de fluctuație includ coeficientul de oscilație, deviația liniară relativă, coeficientul de variație.

Un exemplu de găsire a unei serii de variații

Exercițiu. Pentru această probă:

  • a) Găsiți o serie de variații;
  • b) Construiți funcția de distribuție;

Nr.=42. Exemple de articole:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Soluţie.

  • a) construirea unei serii variaționale ordonate:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) construirea unei serii variaţionale discrete.

Să calculăm numărul de grupuri din seria de variații folosind formula Sturgess:

Să luăm numărul de grupuri egal cu 7.

Cunoscând numărul de grupuri, calculăm valoarea intervalului:

Pentru comoditatea construcției tabelului, vom lua numărul de grupuri egal cu 8, intervalul va fi 1.

Orez. 1 Volumul vânzărilor de mărfuri de către magazin pentru o anumită perioadă de timp


închide