Ypatingą vietą statistinėje analizėje užima tiriamos charakteristikos ar reiškinio vidutinio lygio nustatymas. Vidutinis bruožo lygis matuojamas vidutinėmis reikšmėmis.

Vidutinė reikšmė apibūdina bendrą kiekybinį tiriamos charakteristikos lygį ir yra statistinės visumos grupinė savybė. Jis išlygina, susilpnina atsitiktinius atskirų stebėjimų nukrypimus viena ar kita kryptimi ir išryškina pagrindinę, tipinę tiriamos charakteristikos savybę.

Vidurkis plačiai naudojamas:

1. Įvertinti gyventojų sveikatos būklę: fizinio išsivystymo ypatumus (ūgis, svoris, krūtinės apimtis ir kt.), nustatant įvairių ligų paplitimą ir trukmę, analizuojant demografinius rodiklius (gyventojų gyvybinis judėjimas, vidutinė gyvenimo trukmė, 2010 m. gyventojų reprodukcija, vidutinis gyventojų skaičius ir kt.).

2. Ištirti gydymo įstaigų, medicinos personalo veiklą ir įvertinti jų darbo kokybę, planuoti ir nustatyti gyventojų įvairių rūšių medicininės priežiūros poreikius (vidutinis kreipimųsi ar apsilankymų skaičius vienam gyventojui per metus, vidutinė gydymo trukmė pacientas ligoninėje, vidutinė paciento tyrimo trukmė, vidutinis gydytojų prieinamumas, lovos ir kt.).

3. Apibūdinti sanitarinę ir epidemiologinę būklę (vidutinis oro dulkių kiekis ceche, vidutinis plotas vienam žmogui, vidutinis baltymų, riebalų ir angliavandenių suvartojimas ir kt.).

4. Nustatyti medicininius ir fiziologinius rodiklius esant normalioms ir patologinėms būklėms, apdorojant laboratorinius duomenis, nustatyti socialinių, higieninių, klinikinių ir eksperimentinių tyrimų imties tyrimo rezultatų patikimumą.

Vidutinės vertės apskaičiuojamos remiantis variacijų eilėmis. Variacijų serija yra kokybiškai vienalytė statistinė aibė, kurios atskiri vienetai apibūdina kiekybinius tiriamos charakteristikos ar reiškinio skirtumus.

Kiekybinis kitimas gali būti dviejų tipų: nenutrūkstamas (diskretus) ir nuolatinis.

Nenutrūkstamas (atskiras) požymis išreiškiamas tik sveikuoju skaičiumi ir negali turėti jokių tarpinių reikšmių (pavyzdžiui, apsilankymų skaičius, svetainės gyventojų skaičius, vaikų skaičius šeimoje, ligos sunkumas taškais ir tt).

Ištisinis ženklas gali įgyti bet kokias reikšmes tam tikrose ribose, įskaitant trupmenines, ir išreiškiamas tik apytiksliai (pavyzdžiui, svoris - suaugusiems jis gali būti ribojamas kilogramais, o naujagimiams - gramais; ūgis, kraujospūdis, laikas praleido matydamas pacientą ir pan.).



Kiekvienos atskiros charakteristikos ar reiškinio, įtraukto į variacijų seriją, skaitmeninė vertė vadinama variantu ir žymima raide V . Pavyzdžiui, matematinėje literatūroje taip pat yra kitų žymėjimų x arba y.

Variacijų serija, kurioje kiekviena parinktis nurodoma vieną kartą, vadinama paprasta. Tokios serijos naudojamos daugelyje statistinių problemų kompiuterinio duomenų apdorojimo atveju.

Didėjant stebėjimų skaičiui, dažnai kartojasi variantų reikšmės. Šiuo atveju jis sukuriamas sugrupuotos variacijų serijos, kur nurodytas pakartojimų skaičius (dažnis, žymimas raide „ R »).

Reitinguota variacijų serija susideda iš parinkčių, išdėstytų didėjančia arba mažėjančia tvarka. Su reitingavimu galima sudaryti ir paprastas, ir grupines serijas.

Intervalinių variacijų serija sudarytas siekiant supaprastinti vėlesnius skaičiavimus, atliekamus nenaudojant kompiuterio, naudojant labai daug stebėjimo vienetų (daugiau nei 1000).

Nepertraukiamos variacijos serijos apima pasirinkimo reikšmes, kurios gali būti bet kokios vertės.

Jei variacijų serijoje charakteristikos (variantų) reikšmės pateikiamos atskirų konkrečių skaičių forma, tada tokia serija vadinama diskretus.

Bendrosios charakteristikos verčių charakteristikos, atspindimos variacijų serijoje, yra vidutinės vertės. Tarp jų dažniausiai naudojami: aritmetinis vidurkis M, mada Mo ir mediana Aš. Kiekviena iš šių savybių yra unikali. Jie negali pakeisti vienas kito ir tik kartu reprezentuoja variacijų serijos ypatybes visiškai ir sutirštinta forma.

Mada (Mo) įvardykite dažniausiai pasitaikančių parinkčių reikšmę.

Mediana (aš) – tai opciono vertė, padalijanti reitinguotų variacijų eilutę per pusę (kiekvienoje medianos pusėje yra pusė opciono). Retais atvejais, kai yra simetriška variacijų eilutė, režimas ir mediana yra lygūs vienas kitam ir sutampa su aritmetinio vidurkio reikšme.

Tipiškiausia pasirinkimo verčių charakteristika yra aritmetinis vidurkis vertė ( M ). Matematinė literatūra žymima .

Aritmetinis vidurkis (M, ) yra bendra kiekybinė tam tikros tiriamų reiškinių charakteristikos charakteristika, sudaranti kokybiškai vienalytę statistinę populiaciją. Yra paprasti ir svertiniai aritmetiniai vidurkiai. Paprastas aritmetinis vidurkis apskaičiuojamas paprastų variacijų serijai susumavus visas parinktis ir padalijus šią sumą iš bendro variantų, įtrauktų į šią variacijų eilutę, skaičiaus. Skaičiavimai atliekami pagal formulę:

Kur: M - paprastas aritmetinis vidurkis;

Σ V - sumos pasirinkimas;

n- stebėjimų skaičius.

Sugrupuotose variacijų eilutėse nustatomas svertinis aritmetinis vidurkis. Jo apskaičiavimo formulė:

Kur: M - aritmetinis svertinis vidurkis;

Σ Vp - varianto sandaugų pagal jų dažnius suma;

n- stebėjimų skaičius.

Esant dideliam stebėjimų skaičiui, atliekant rankinius skaičiavimus, galima naudoti momentų metodą.

Aritmetinis vidurkis turi šias savybes:

· nuokrypių nuo vidurkio suma ( Σ d ) yra lygus nuliui (žr. 15 lentelę);

· visus variantus dauginant (dalinant) iš to paties koeficiento (daliklio), aritmetinis vidurkis dauginamas (dalinamas) iš to paties koeficiento (daliklio);

· jei prie visų variantų pridedate (atimate) tą patį skaičių, aritmetinis vidurkis padidėja (sumažėja) tokiu pat skaičiumi.

Aritmetiniai vidurkiai, paimti patys, neatsižvelgiant į eilučių, iš kurių jie skaičiuojami, kintamumą, gali nevisiškai atspindėti variacijų eilučių savybes, ypač kai reikia lyginti su kitais vidurkiais. Vidurkius, kurių vertė yra artima, galima gauti iš eilučių su įvairaus sklaidos laipsniais. Kuo atskiri variantai artimesni vienas kitam pagal savo kiekybines charakteristikas, tuo mažiau dispersija (svyravimas, kintamumas) serija, tuo tipiškesnis jos vidurkis.

Pagrindiniai parametrai, leidžiantys įvertinti bruožo kintamumą, yra šie:

· Apimtis;

· Amplitudė;

· Standartinis nuokrypis;

· Variacijos koeficientas.

Požymio kintamumą galima apytiksliai įvertinti pagal variacijų eilučių diapazoną ir amplitudę. Diapazonas rodo didžiausią (V max) ir mažiausią (V min) serijos parinktis. Amplitudė (A m) yra šių parinkčių skirtumas: A m = V max – V min.

Pagrindinis, visuotinai priimtas variacijų serijos kintamumo matas yra dispersija (D ). Tačiau dažniausiai naudojamas patogesnis parametras, apskaičiuotas remiantis dispersija - standartinis nuokrypis ( σ ). Atsižvelgiama į nuokrypio dydį ( d ) kiekvienos variacijų serijos nuo jos aritmetinio vidurkio ( d=V – M ).

Kadangi nuokrypiai nuo vidurkio gali būti teigiami ir neigiami, susumuoti jie suteikia reikšmę „0“ (S d=0). Norėdami to išvengti, nuokrypio vertės ( d) pakeliami iki antrojo laipsnio ir apskaičiuojamas vidurkis. Taigi variacijų eilutės dispersija yra varianto nuokrypių nuo aritmetinio vidurkio vidutinis kvadratas ir apskaičiuojama pagal formulę:

Tai svarbiausia kintamumo charakteristika ir naudojama daugeliui statistinių kriterijų apskaičiuoti.

Kadangi dispersija išreiškiama nuokrypių kvadratu, jos reikšmės negalima naudoti lyginant su aritmetiniu vidurkiu. Šiems tikslams jis naudojamas standartinis nuokrypis, kuris žymimas ženklu „Sigma“ ( σ ). Jis apibūdina visų variacijų eilutės variantų vidutinį nuokrypį nuo aritmetinio vidurkio vertės tais pačiais vienetais kaip ir pati vidutinė vertė, todėl juos galima naudoti kartu.

Standartinis nuokrypis nustatomas pagal formulę:

Nurodyta formulė taikoma, kai stebėjimų skaičius ( n ) daugiau nei 30. Su mažesniu skaičiumi n standartinio nuokrypio vertė turės paklaidą, susijusią su matematiniu poslinkiu ( n – 1). Šiuo atžvilgiu tikslesnį rezultatą galima gauti atsižvelgiant į tokį standartinio nuokrypio skaičiavimo formulės paklaidą:

standartinis nuokrypis (s ) yra atsitiktinio dydžio standartinio nuokrypio įvertis X palyginti su matematiniais lūkesčiais, pagrįstais nešališku jo dispersijos įvertinimu.

Su vertybėmis n > 30 standartinis nuokrypis ( σ ) ir standartinis nuokrypis ( s ) bus tas pats ( σ =s ). Todėl daugumoje praktinių vadovų manoma, kad šie kriterijai turi skirtingą reikšmę. Programoje „Excel“ standartinį nuokrypį galima apskaičiuoti naudojant =STDEV(diapazonas) funkciją. O norint apskaičiuoti standartinį nuokrypį, reikia sukurti atitinkamą formulę.

Vidutinis kvadratas arba standartinis nuokrypis leidžia nustatyti, kiek charakteristikos reikšmės gali skirtis nuo vidutinės vertės. Tarkime, kad yra du miestai, kurių vidutinė paros temperatūra vasarą vienoda. Vienas iš šių miestų yra pakrantėje, o kitas - žemyne. Yra žinoma, kad miestuose, esančiuose pakrantėje, dienos temperatūrų skirtumai yra mažesni nei miestuose, esančiuose šalies viduje. Todėl pajūrio miesto standartinis dienos temperatūros nuokrypis bus mažesnis nei antrojo miesto. Praktiškai tai reiškia, kad kiekvienos konkrečios dienos vidutinė oro temperatūra žemyne ​​esančiame mieste labiau skirsis nuo vidutinės nei pajūrio mieste. Be to, standartinis nuokrypis leidžia įvertinti galimus temperatūros nuokrypius nuo vidurkio su reikiamu tikimybės lygiu.

Remiantis tikimybių teorija, reiškiniuose, kurie paklūsta normalaus skirstinio dėsniui, yra griežtas ryšys tarp aritmetinio vidurkio, standartinio nuokrypio ir variantų ( trijų sigmų taisyklė). Pavyzdžiui, 68,3% kintančios charakteristikos verčių yra M ± 1 ribose σ , 95,5 % – M ± 2 ribose σ ir 99,7 % – M ± 3 ribose σ .

Standartinio nuokrypio reikšmė leidžia spręsti apie variacijų eilučių ir tiriamosios grupės homogeniškumo pobūdį. Jei standartinio nuokrypio reikšmė yra maža, tai rodo gana didelį tiriamo reiškinio homogeniškumą. Aritmetinis vidurkis šiuo atveju turėtų būti laikomas gana būdingu tam tikrai variacijų serijai. Tačiau per maža sigmos reikšmė verčia galvoti apie dirbtinį stebėjimų pasirinkimą. Esant labai didelei sigmai, aritmetinis vidurkis mažesniu mastu apibūdina variacijų eilutes, o tai rodo reikšmingą tiriamos charakteristikos ar reiškinio kintamumą arba tiriamos grupės nevienalytiškumą. Tačiau standartinio nuokrypio vertės palyginimas galimas tik to paties matmens požymiams. Iš tiesų, jei palyginsime naujagimių ir suaugusiųjų svorio įvairovę, visada gausime didesnes sigmos vertes suaugusiems.

Įvairių matmenų savybių kintamumą galima palyginti naudojant variacijos koeficientas. Jis išreiškia įvairovę kaip vidurkio procentą, leidžiančią palyginti skirtingus bruožus. Variacijos koeficientas medicinos literatūroje žymimas ženklu „ SU "ir matematiškai" v"ir apskaičiuojama pagal formulę:

Variacijos koeficiento reikšmės, mažesnės nei 10%, rodo mažą sklaidą, nuo 10 iki 20% - apie vidutinę, daugiau nei 20% - apie stiprią sklaidą aplink aritmetinį vidurkį.

Aritmetinis vidurkis paprastai apskaičiuojamas remiantis imties visumos duomenimis. Atliekant pakartotinius tyrimus, atsitiktinių reiškinių įtakoje, aritmetinis vidurkis gali keistis. Taip yra dėl to, kad paprastai tiriama tik dalis galimų stebėjimo vienetų, tai yra imties populiacija. Informaciją apie visus galimus tiriamą reiškinį reprezentuojančius vienetus galima gauti ištyrus visą populiaciją, o tai ne visada įmanoma. Tuo pačiu metu, siekiant apibendrinti eksperimentinius duomenis, domina bendros populiacijos vidurkio reikšmė. Todėl norint suformuluoti bendrą išvadą apie tiriamą reiškinį, imties visumos pagrindu gauti rezultatai statistiniais metodais turi būti perkelti į bendrąją aibę.

Norint nustatyti imties tyrimo ir bendrosios visumos sutapimo laipsnį, būtina įvertinti klaidos, kuri neišvengiamai atsiranda imties stebėjimo metu, dydį. Ši klaida vadinama " Reprezentatyvumo klaida"arba "Vidutinė aritmetinio vidurkio paklaida". Iš tikrųjų tai yra skirtumas tarp vidurkių, gautų atliekant atrankinį statistinį stebėjimą, ir panašių verčių, kurios būtų gautos nuolat tiriant tą patį objektą, t.y. tiriant bendrą populiaciją. Kadangi imties vidurkis yra atsitiktinis dydis, tokia prognozė atliekama su tyrėjui priimtinu tikimybės lygiu. Medicininiuose tyrimuose jis yra mažiausiai 95 proc.

Reprezentatyvumo paklaida negali būti painiojama su registravimo ar dėmesio klaidomis (paslydimai, klaidingi skaičiavimai, rašybos klaidos ir kt.), kurias reikėtų sumažinti naudojant tinkamus metodus ir priemones, naudojamas eksperimento metu.

Reprezentatyvumo paklaidos dydis priklauso ir nuo imties dydžio, ir nuo požymio kintamumo. Kuo didesnis stebėjimų skaičius, tuo imtis arčiau visumos ir tuo mažesnė paklaida. Kuo kintamesnis ženklas, tuo didesnė statistinė paklaida.

Praktiškai variacijų eilučių reprezentatyvumo paklaidai nustatyti naudojama ši formulė:

Kur: m – reprezentatyvumo klaida;

σ – standartinis nuokrypis;

n– stebėjimų skaičius imtyje.

Iš formulės matyti, kad vidutinės paklaidos dydis yra tiesiogiai proporcingas standartiniam nuokrypiui, t.y., tiriamos charakteristikos kintamumui, ir atvirkščiai proporcingas stebėjimų skaičiaus kvadratinei šakniai.

Atliekant statistinę analizę, pagrįstą santykinių verčių skaičiavimu, variacijų eilučių sudaryti nebūtina. Šiuo atveju santykinių rodiklių vidutinės paklaidos nustatymas gali būti atliekamas naudojant supaprastintą formulę:

Kur: R– santykinio rodiklio reikšmė, išreikšta procentais, ppm ir pan.;

q– P atvirkštinė vertė, išreikšta (1-P), (100-P), (1000-P) ir tt, priklausomai nuo to, kokiu pagrindu rodiklis apskaičiuojamas;

n– stebėjimų skaičius imties visumoje.

Tačiau nurodyta santykinių verčių reprezentatyvumo paklaidos apskaičiavimo formulė gali būti taikoma tik tada, kai rodiklio reikšmė yra mažesnė už jo bazę. Daugeliu atvejų skaičiuojant intensyvius rodiklius ši sąlyga neįvykdoma, o rodiklis gali būti išreikštas skaičiumi, didesniu nei 100 % arba 1000 %. Esant tokiai situacijai, sudaroma variacijų eilutė ir reprezentatyvumo paklaida apskaičiuojama naudojant vidutinių verčių formulę, pagrįstą standartiniu nuokrypiu.

Aritmetinio vidurkio reikšmė populiacijoje prognozuojama nurodant dvi reikšmes – mažiausią ir didžiausią. Šios ekstremalios galimų nuokrypių vertės, kurių ribose gali svyruoti norima vidutinė populiacijos vertė, vadinamos „ Pasitikėjimo ribos».

Tikimybių teorijos postulatai įrodė, kad esant normaliam charakteristikos pasiskirstymui su 99,7% tikimybe, vidurkio kraštutinės nuokrypių vertės nebus didesnės už trigubos reprezentatyvumo paklaidos reikšmę ( M ± 3 m ); 95,5 % – ne daugiau kaip du kartus didesnė už vidutinės reikšmės paklaidą ( M ± 2 m ); 68,3% – ne daugiau kaip viena vidutinė klaida ( M ± 1 m ) (9 pav.).

P%

Ryžiai. 9. Normaliojo skirstinio tikimybių tankis.

Atkreipkite dėmesį, kad aukščiau pateiktas teiginys galioja tik ypatybei, kuri paklūsta normaliam Gauso skirstinio dėsniui.

Dauguma eksperimentinių tyrimų, taip pat ir medicinos srityje, yra susiję su matavimais, kurių rezultatai tam tikrame intervale gali įgauti beveik bet kokią reikšmę, todėl, kaip taisyklė, aprašomi nuolatinių atsitiktinių dydžių modeliu. Šiuo atžvilgiu daugumoje statistinių metodų atsižvelgiama į nuolatinį pasiskirstymą. Vienas iš tokių skirstinių, turinčių esminį vaidmenį matematinėje statistikoje, yra normalusis arba Gauso skirstinys.

Taip yra dėl daugelio priežasčių.

1. Visų pirma, daug eksperimentinių stebėjimų gali būti sėkmingai aprašyti naudojant normalųjį skirstinį. Iš karto reikia pastebėti, kad nėra empirinių duomenų pasiskirstymo, kuris būtų visiškai normalus, nes normaliai pasiskirstęs atsitiktinis kintamasis svyruoja nuo iki , o tai niekada nepasitaiko praktikoje. Tačiau normalusis skirstinys labai dažnai gerai veikia kaip apytikslis.

Nesvarbu, ar matuojamas žmogaus kūno svoris, ūgis ir kiti fiziologiniai parametrai, rezultatams visada turi įtakos labai daug atsitiktinių veiksnių (natūralių priežasčių ir matavimo klaidų). Be to, kaip taisyklė, kiekvieno iš šių veiksnių poveikis yra nereikšmingas. Patirtis rodo, kad tokiais atvejais rezultatai pasiskirstys maždaug normaliai.

2. Daugelis pasiskirstymų, susijusių su atsitiktine atranka, tampa normalūs, nes pastarosios tūris didėja.

3. Normalusis skirstinys puikiai tinka kitų nuolatinių skirstinių aproksimacijai (pavyzdžiui, iškreiptas).

4. Normalusis skirstinys turi nemažai palankių matematinių savybių, kurios iš esmės užtikrina platų jo panaudojimą statistikoje.

Kartu reikia pažymėti, kad medicininiuose duomenyse yra daug eksperimentinių skirstinių, kurių negalima apibūdinti normaliu pasiskirstymo modeliu. Šiuo tikslu statistika sukūrė metodus, kurie paprastai vadinami „neparametriniais“.

Statistinis metodas, tinkamas konkretaus eksperimento duomenims apdoroti, turėtų būti pasirenkamas atsižvelgiant į tai, ar gauti duomenys priklauso normalaus skirstinio dėsniui. Hipotezė dėl ženklo pavaldumo normaliojo skirstinio dėsniui tikrinama naudojant dažnio pasiskirstymo histogramą (grafiką), taip pat daugybę statistinių kriterijų. Tarp jų:

Asimetrijos kriterijus ( b );

Kurtozės tyrimo kriterijus ( g );

Shapiro-Wilks testas ( W ) .

Kiekvienam parametrui atliekama duomenų pasiskirstymo pobūdžio analizė (taip pat vadinama pasiskirstymo normalumo testu). Norint užtikrintai nuspręsti, ar parametro pasiskirstymas atitinka įprastą dėsnį, reikalingas pakankamai didelis stebėjimo vienetų skaičius (ne mažiau kaip 30 reikšmių).

Normalaus pasiskirstymo atveju pasvirumo ir kreivumo kriterijai įgyja reikšmę 0. Jei skirstinys perkeliamas į dešinę b > 0 (teigiama asimetrija), su b < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона g =0. At g > 0 pasiskirstymo kreivė yra ryškesnė, jei g < 0 пик более сглаженный, чем функция нормального распределения.

Norint patikrinti normalumą naudojant Shapiro-Wilks kriterijų, reikia rasti šio kriterijaus reikšmę naudojant statistines lenteles reikiamu reikšmingumo lygiu ir priklausomai nuo stebėjimo vienetų (laisvės laipsnių) skaičiaus. 1 priedas. Normalumo hipotezė atmetama esant mažoms šio kriterijaus reikšmėms, kaip taisyklė w <0,8.

Grupavimas- tai populiacijos suskirstymas į grupes, kurios yra vienalytės pagal tam tikrą požymį.

Paslaugos paskirtis. Naudodami internetinį skaičiuotuvą galite:

  • sukurti variacijų seriją, sudaryti histogramą ir daugiakampį;
  • rasti kitimo rodiklius (vidurkis, režimas (taip pat grafiškai), mediana, kitimo diapazonas, kvartiliai, deciliai, kvartilės diferenciacijos koeficientas, variacijos koeficientas ir kiti rodikliai);

Instrukcijos. Norėdami sugrupuoti seriją, turite pasirinkti gautos variacijų serijos tipą (diskrečią arba intervalinę) ir nurodyti duomenų kiekį (eilučių skaičių). Gautas sprendimas išsaugomas Word faile (žr. statistinių duomenų grupavimo pavyzdį).

Jei grupavimas jau buvo atliktas ir diskrečių variacijų serija arba intervalų serija, tuomet reikia naudoti internetinį skaičiuotuvą Variation Index. Hipotezės apie pasiskirstymo tipą tikrinimas atliekama naudojantis paslauga Išsiskirstymo formos studijavimas.

Statistinių grupuočių tipai

Variacijų serija. Stebint diskrečiuosius atsitiktinius dydžius, su ta pačia reikšme galima susidurti kelis kartus. Tokios atsitiktinio dydžio reikšmės x i registruojamos nurodant n i, kiek kartų jis pasirodo n stebėjimų, tai yra šios reikšmės dažnis.
Esant nuolatiniam atsitiktiniam dydžiui, praktikoje naudojamas grupavimas.
  1. Tipologinis grupavimas- tai kokybiškai nevienalytės tiriamos populiacijos skirstymas į klases, socialinius-ekonominius tipus, vienarūšes vienetų grupes. Norėdami sukurti šią grupę, naudokite diskrečių variantų serijos parametrą.
  2. Grupuotė vadinama struktūrine, kuriame vienalytė populiacija yra suskirstyta į grupes, kurios apibūdina jos struktūrą pagal tam tikrą kintantį požymį. Norėdami sukurti šią grupę, naudokite intervalo serijos parametrą.
  3. Vadinamas grupavimas, atskleidžiantis ryšius tarp tiriamų reiškinių ir jų charakteristikų analitinė grupė(žr. analitinę serijų grupavimą).

1 pavyzdys. Remdamiesi 2 lentelės duomenimis, sudarykite paskirstymo eilutes 40 Rusijos Federacijos komercinių bankų. Naudodami gautas paskirstymo eilutes nustatykite: pelną vidutiniškai vienam komerciniam bankui, kredito investicijas vidutiniškai vienam komerciniam bankui, modalinę ir pelno medianą; kvartiliai, deciliai, kitimo diapazonas, vidutinis tiesinis nuokrypis, standartinis nuokrypis, variacijos koeficientas.

Sprendimas:
Skyriuje "Statistinės eilutės tipas" pasirinkite Diskrečią seriją. Spustelėkite Įterpti iš „Excel“. Grupių skaičius: pagal Sturgess formulę

Statistinių grupių sudarymo principai

Stebėjimų serija, išdėstyta didėjančia tvarka, vadinama variacijų serija. Grupavimo funkcija yra charakteristika, pagal kurią populiacija skirstoma į atskiras grupes. Jis vadinamas grupės pagrindu. Grupavimas gali būti pagrįstas tiek kiekybinėmis, tiek kokybinėmis savybėmis.
Nustačius grupavimo pagrindą, reikėtų spręsti klausimą, kiek grupių reikėtų suskirstyti tiriamąją populiaciją.

Naudojant asmeninius kompiuterius statistiniams duomenims apdoroti, objektų vienetų grupavimas atliekamas naudojant standartines procedūras.
Viena iš tokių procedūrų pagrįsta Sturgess formulės naudojimu, siekiant nustatyti optimalų grupių skaičių:

k = 1+3,322*log(N)

Kur k yra grupių skaičius, N yra gyventojų vienetų skaičius.

Dalinių intervalų ilgis apskaičiuojamas kaip h=(x max -x min)/k

Tada skaičiuojamas stebėjimų, patenkančių į šiuos intervalus, skaičius, kurie laikomi dažniais n i . Nedaug dažnių, kurių reikšmės yra mažesnės nei 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Vidurinės intervalų x i =(c i-1 +c i)/2 reikšmės laikomos naujomis reikšmėmis.

3 pavyzdys. 5% atsitiktinės imties rezultatas buvo toks produktų pasiskirstymas pagal drėgmės kiekį. Apskaičiuokite: 1) vidutinį drėgmės procentą; 2) drėgmės kitimą apibūdinantys rodikliai.
Tirpalas gautas naudojant skaičiuotuvą: 1 pavyzdys

Sukurkite variacijų seriją. Remdamiesi rastomis eilėmis, sukurkite paskirstymo daugiakampį, histogramą ir kaupkite. Nustatykite režimą ir medianą.
Atsisiųskite sprendimą

Pavyzdys. Pagal imties stebėjimo rezultatus (A pavyzdys, priedas):
a) sudaryti variacijų seriją;
b) apskaičiuoja santykinius dažnius ir sukauptus santykinius dažnius;
c) pastatyti daugiakampį;
d) sukurti empirinę paskirstymo funkciją;
e) nubraižykite empirinio skirstinio funkciją;
f) apskaičiuokite skaitines charakteristikas: aritmetinį vidurkį, dispersiją, standartinį nuokrypį. Sprendimas

Remdamiesi duomenimis, pateiktais 4 lentelėje (1 priedas) ir atsižvelgdami į jūsų pasirinkimą, atlikite:

  1. Remiantis struktūriniu grupavimu, vienodais uždarais intervalais sudarykite variacinio dažnio ir kaupiamojo skirstinio eilutes, paimdami grupių skaičių, lygų 6. Pateikite rezultatus lentelės forma ir atvaizduokite grafiškai.
  2. Išanalizuokite skirstinio variacijų eilutes apskaičiuodami:
    • vidutinė aritmetinė charakteristikos reikšmė;
    • režimas, mediana, 1-asis kvartilis, 1-asis ir 9-asis decilis;
    • standartinis nuokrypis;
    • variacijos koeficientas.
  3. Daryti išvadas.

Būtina: reitinguoti eilutes, sudaryti intervalų pasiskirstymo eilutes, apskaičiuoti reitinguotų ir intervalų eilučių vidutinę reikšmę, vidutinės reikšmės kintamumą, režimą ir medianą.

Remdamiesi pradiniais duomenimis, sukurkite diskrečiųjų variacijų eilutę; pateikti jį statistinės lentelės ir statistinių grafikų pavidalu. 2). Remdamiesi pradiniais duomenimis, sukurkite intervalų variacijų eilutę su vienodais intervalais. Patys pasirinkite intervalų skaičių ir paaiškinkite šį pasirinkimą. Gautas variacijų eilutes pateikite statistinės lentelės ir statistinių grafikų pavidalu. Nurodykite naudojamų lentelių ir grafikų tipus.

Siekiant nustatyti vidutinę klientų aptarnavimo trukmę pensijų fonde, kurio klientų skaičius yra labai didelis, buvo atlikta 100 klientų apklausa, taikant atsitiktinės nesikartojančios atrankos schemą. Apklausos rezultatai pateikti lentelėje. Rasti:
a) ribas, kuriose, su tikimybe 0,9946, yra visų pensijų fondo klientų vidutinis tarnybos laikas;
b) tikimybė, kad visų fondo klientų, kurių paslaugų trukmė yra trumpesnė nei 6 minutės, dalis nuo tokių klientų dalies imtyje skiriasi ne daugiau kaip 10% (absoliučia verte);
c) pakartotinės atrankos apimtis, kurioje su 0,9907 tikimybe galima teigti, kad visų fondo klientų, kurių aptarnavimo trukmė yra trumpesnė nei 6 minutės, dalis nuo tokių klientų dalies imtyje skiriasi ne daugiau kaip 10 % (absoliučia verte).
2. Pagal 1 užduoties duomenis, naudojant Pearsono X 2 kriterijų, esant reikšmingumo lygiui α = 0,05, patikrinkite hipotezę, kad atsitiktinis dydis X - klientų aptarnavimo laikas - pasiskirsto pagal normalųjį dėsnį. Viename brėžinyje sukonstruokite empirinio skirstinio histogramą ir atitinkamą normaliąją kreivę.
Atsisiųskite sprendimą

Pateikiamas 100 elementų pavyzdys. Būtina:

  1. Sukurti reitinguotų variacijų eilutę;
  2. Raskite didžiausią ir mažiausią serijos sąlygas;
  3. Raskite variacijos diapazoną ir optimalių intervalų skaičių intervalų serijai sudaryti. Raskite intervalų eilutės intervalo ilgį;
  4. Sukurkite intervalų seką. Raskite imties elementų, patenkančių į sudarytus intervalus, dažnius. Raskite kiekvieno intervalo vidurio taškus;
  5. Sukurkite histogramą ir dažnio daugiakampį. Palyginti su normaliuoju skirstiniu (analitiškai ir grafiškai);
  6. Nubraižykite empirinio skirstinio funkciją;
  7. Apskaičiuokite imties skaitines charakteristikas: imties vidurkį ir centrinį imties momentą;
  8. Apskaičiuokite apytiksles standartinio nuokrypio, pasvirimo ir kreivės vertes (naudodami MS Excel analizės paketą). Palyginkite apytiksles apskaičiuotas reikšmes su tiksliomis (apskaičiuotos naudojant MS Excel formules);
  9. Palyginkite pasirinktas grafines charakteristikas su atitinkamomis teorinėmis.
Atsisiųskite sprendimą

Galimi šie pavyzdiniai duomenys (10% pavyzdys, mechaninis) apie produkto produkciją ir pelno sumą, milijonus rublių. Pagal pirminius duomenis:
13.1 užduotis.
13.1.1. Sukurkite statistinę įmonių pasiskirstymo pagal pelno dydį eilutę, sudarydami penkias grupes vienodais intervalais. Sukurkite skirstinių eilučių grafikus.
13.1.2. Apskaičiuokite įmonių pasiskirstymo eilučių pagal pelno dydį skaitines charakteristikas: aritmetinį vidurkį, standartinį nuokrypį, sklaidą, variacijos koeficientą V. Padarykite išvadas.
13.2 užduotis.
13.2.1. Nustatykite ribas, kuriose su tikimybe 0,997 yra vienos įmonės pelno dydis bendrojoje aibėje.
13.2.2. Naudodami Pirsono x2 testą, esant reikšmingumo lygiui α, patikrinkite hipotezę, kad atsitiktinis dydis X – pelno dydis – pasiskirsto pagal normalųjį dėsnį.
13.3 užduotis.
13.3.1. Nustatykite imties regresijos lygties koeficientus.
13.3.2. Nustatykite koreliacijos tarp pagamintų produktų savikainos (X) ir vienos įmonės pelno dydžio (Y) buvimą ir pobūdį. Sukurkite sklaidos diagramą ir regresijos tiesę.
13.3.3. Apskaičiuokite tiesinės koreliacijos koeficientą. Naudodami Stjudento t testą, patikrinkite koreliacijos koeficiento reikšmingumą. Padarykite išvadą apie glaudų ryšį tarp X ir Y faktorių naudodami Chaddock skalę.
Gairės. 13.3 užduotis atliekama naudojantis šia paslauga.
Atsisiųskite sprendimą

Užduotis. Toliau pateikti duomenys parodo laiką, kurį klientai sugaišo sudarant sutartis. Sukurkite pateiktų duomenų intervalų variacijų eilutę, histogramą, suraskite nešališką matematinio lūkesčio įvertį, šališką ir nešališką dispersijos įvertį.

Pavyzdys. Pagal 2 lentelę:
1) Sukurkite platinimo serijas 40 Rusijos Federacijos komercinių bankų:
A) pelno požiūriu;
B) pagal kredito investicijų sumą.
2) Naudodami gautą pasiskirstymo eilutę nustatykite:
A) vidutinis pelnas vienam komerciniam bankui;
B) kredito investicijos vidutiniškai vienam komerciniam bankui;
C) modalinė ir vidutinė pelno vertė; kvartiliai, deciliai;
D) kredito investicijų modalinė ir vidutinė vertė.
3) Naudodami 1 veiksme gautas paskirstymo eilutes, apskaičiuokite:
a) variacijos diapazonas;
b) vidutinis tiesinis nuokrypis;
c) standartinis nuokrypis;
d) variacijos koeficientas.
Atlikite reikiamus skaičiavimus lentelės forma. Išanalizuokite rezultatus. Daryti išvadas.
Nubraižykite gautų skirstinių eilučių grafikus. Grafiškai nustatykite režimą ir medianą.

Sprendimas:
Norėdami sukurti grupavimą vienodais intervalais, naudosime paslaugą Statistinių duomenų grupavimas.

1 pav. – Parametrų įvedimas

Parametrų aprašymas
Eilučių skaičius: įvesties duomenų skaičius. Jei eilutės dydis mažas, nurodykite jos kiekį. Jei pasirinkimas yra pakankamai didelis, spustelėkite mygtuką Įterpti iš Excel.
Grupių skaičius: 0 – grupių skaičius bus nustatytas pagal Sturgess formulę.
Jei nurodytas konkretus grupių skaičius, nurodykite jį (pvz., 5).
Serialo tipas: Diskretinė serija.
Reikšmingumo lygis: pavyzdžiui 0,954 . Šis parametras nustatytas siekiant nustatyti vidurkio pasikliautinąjį intervalą.
Pavyzdys: Pavyzdžiui, buvo atlikta 10 % mechaninių mėginių ėmimo. Nurodome skaičių 10. Savo duomenims nurodome 100.

Įsisavinęs šį skyrių, studentas privalo: žinoti

  • kitimo rodikliai ir jų ryšys;
  • pagrindiniai charakteristikų pasiskirstymo dėsniai;
  • sutikimo kriterijų esmė; galėti
  • apskaičiuoti variacijos indeksus ir tinkamumo kriterijus;
  • nustatyti pasiskirstymo charakteristikas;
  • įvertinti pagrindines statistinių skirstinių eilučių skaitines charakteristikas;

savo

  • pasiskirstymo eilučių statistinės analizės metodai;
  • dispersinės analizės pagrindai;
  • statistinių pasiskirstymo eilučių atitikties pagrindiniams skirstymo dėsniams tikrinimo būdai.

Variacijos rodikliai

Statistiškai tiriant įvairių statistinių populiacijų požymius, labai įdomu ištirti atskirų statistinių visumos vienetų charakteristikos kitimą, taip pat vienetų pasiskirstymo pagal šią charakteristiką pobūdį. Variacija - tai yra atskirų charakteristikų verčių skirtumai tarp tiriamų populiacijos vienetų. Variacijos tyrimas turi didelę praktinę reikšmę. Pagal variacijos laipsnį galima spręsti apie charakteristikos kitimo ribas, populiacijos homogeniškumą tam tikrai charakteristikai, vidurkio tipiškumą ir variaciją lemiančių veiksnių ryšį. Variacijos rodikliai naudojami statistinėms populiacijoms apibūdinti ir organizuoti.

Statistinių stebėjimų medžiagos apibendrinimo ir grupavimo rezultatai, pateikiami statistinio pasiskirstymo eilučių pavidalu, atspindi tvarkingą tiriamos populiacijos vienetų pasiskirstymą į grupes pagal grupavimo (kintamus) kriterijus. Jei grupavimo pagrindu imama kokybinė charakteristika, tada tokia pasiskirstymo eilutė vadinama atributinė(pasiskirstymas pagal profesiją, lytį, spalvą ir kt.). Jei skirstinio serija sudaroma kiekybiniu pagrindu, tada tokia eilutė vadinama variacinis(paskirstymas pagal ūgį, svorį, atlyginimą ir kt.). Sudaryti variacijų eilutę reiškia organizuoti populiacijos vienetų kiekybinį pasiskirstymą pagal charakteringas reikšmes, suskaičiuoti populiacijos vienetų skaičių su šiomis reikšmėmis (dažnumą), o rezultatus sudėti į lentelę.

Vietoj varianto dažnio galima naudoti jo santykį su bendra stebėjimų apimtimi, kuri vadinama dažniu (santykiniu dažniu).

Yra dviejų tipų variacijų serijos: diskrečios ir intervalinės. Atskiros serijos- Tai variacijų serija, kurios konstrukcija paremta charakteristikomis su nepertraukiamais pokyčiais (diskrečios charakteristikos). Pastarieji apima darbuotojų skaičių įmonėje, tarifų kategoriją, vaikų skaičių šeimoje ir kt. Atskira variacijų serija reiškia lentelę, kurią sudaro du stulpeliai. Pirmajame stulpelyje nurodoma konkreti atributo reikšmė, o antrajame – vienetų skaičius populiacijoje su konkrečia atributo reikšme. Jei charakteristika nuolat kinta (pajamų dydis, darbo stažas, įmonės ilgalaikio turto savikaina ir pan., kuri tam tikrose ribose gali įgauti bet kokias reikšmes), tai šiai charakteristikai galima statyti intervalų variacijų serija. Kuriant intervalų variacijų eilutę, lentelėje taip pat yra du stulpeliai. Pirmasis nurodo atributo reikšmę intervale „nuo - iki“ (parinktys), antrasis nurodo į intervalą įtrauktų vienetų skaičių (dažnį). Dažnis (kartojimo dažnis) – tam tikro atributų reikšmių varianto pasikartojimų skaičius. Intervalai gali būti uždari arba atviri. Uždaryti intervalai yra riboti iš abiejų pusių, t.y. turi ir apatinę („nuo“), ir viršutinę („iki“) ribą. Atviri intervalai turi vieną ribą: viršutinę arba apatinę. Jei parinktys išdėstytos didėjančia arba mažėjančia tvarka, tada eilutės iškviečiamos reitinguojami.

Variacijų serijoms yra dviejų tipų dažnio atsako parinktys: kaupiamasis dažnis ir kaupiamasis dažnis. Sukauptas dažnis rodo, kiek stebėjimų charakteristikos reikšmė buvo mažesnė už nurodytą. Sukauptas dažnis nustatomas sudedant tam tikros grupės charakteristikos dažnio reikšmes su visais ankstesnių grupių dažniais. Sukauptas dažnis apibūdina stebėjimo vienetų, kurių atributų reikšmės neviršija viršutinės tam tikros grupės ribos, dalį. Taigi, sukauptas dažnis parodo opcionų, kurių vertė ne didesnė už duotąją, dalį visumoje. Dažnis, dažnis, absoliutus ir santykinis tankis, kaupiamasis dažnis ir dažnis yra varianto dydžio charakteristikos.

Visuomenės statistinių vienetų charakteristikų kitimai, taip pat pasiskirstymo pobūdis tiriami naudojant variacijų eilučių rodiklius ir charakteristikas, kurios apima vidutinį eilučių lygį, vidutinį tiesinį nuokrypį, standartinį nuokrypį, sklaidą. , virpesių, variacijos, asimetrijos, kurtozės ir kt.

Paskirstymo centrui apibūdinti naudojamos vidutinės vertės. Vidurkis yra apibendrinanti statistinė charakteristika, kurioje kiekybiškai įvertinamas tipinis charakteristikos lygis, kurį turi tiriamos populiacijos nariai. Tačiau gali pasitaikyti aritmetinių vidurkių sutapimo su skirtingais pasiskirstymo modeliais, todėl kaip variacijų eilučių statistinės charakteristikos skaičiuojami vadinamieji struktūriniai vidurkiai – moda, mediana, taip pat kvantiliai, kurie skirstinio eilutes dalija į lygias. dalys (kvartiliai, deciliai, procentiliai ir kt.).

Mada - Tai charakteristikos reikšmė, kuri pasiskirstymo eilutėje atsiranda dažniau nei kitos jos reikšmės. Atskiros serijos atveju tai yra didžiausio dažnio parinktis. Intervalų variacijų serijose, norint nustatyti režimą, pirmiausia reikia nustatyti intervalą, kuriame jis yra, vadinamąjį modalinį intervalą. Variacijų serijose su vienodais intervalais modalinis intervalas nustatomas pagal didžiausią dažnį, serijose su nevienodais intervalais, bet pagal didžiausią pasiskirstymo tankį. Tada formulė naudojama režimui nustatyti eilutėse vienodais intervalais

kur Mo yra mados vertė; xMo - apatinė modalinio intervalo riba; h- modalinio intervalo plotis; / Mo - modalinio intervalo dažnis; / Mo j yra premodalinio intervalo dažnis; / Mo+1 yra postmodalinio intervalo dažnis, o serijoms su nevienodais intervalais šioje skaičiavimo formulėje vietoj dažnių / Mo, / Mo, / Mo turėtų būti naudojami pasiskirstymo tankiai. Protas 0 _| , Protas 0> UMO+

Jeigu yra vienmodis, tai atsitiktinio dydžio tikimybių pasiskirstymas vadinamas unimodaliniu; jei yra daugiau nei vienas režimas, jis vadinamas multimodaliniu (polimodaliniu, multimodaliniu), dviejų režimų atveju – bimodaliniu. Paprastai multimodalumas rodo, kad tiriamas skirstinys nepaklūsta normaliojo pasiskirstymo dėsniui. Homogeninėms populiacijoms, kaip taisyklė, būdingas vienos viršūnės pasiskirstymas. Multivertex taip pat rodo tiriamos populiacijos nevienalytiškumą. Atsiradus dviem ar daugiau viršūnių, reikia pergrupuoti duomenis, kad būtų galima nustatyti vienalytes grupes.

Intervalų variacijų serijoje režimą galima nustatyti grafiškai naudojant histogramą. Norėdami tai padaryti, nubrėžkite dvi susikertančias linijas nuo aukščiausios histogramos stulpelio viršutinių taškų iki dviejų gretimų stulpelių viršutinių taškų. Tada nuo jų susikirtimo taško statmenas nuleidžiamas ant abscisės ašies. Objekto reikšmė x ašyje, atitinkanti statmeną, yra režimas. Daugeliu atvejų, apibūdinant populiaciją kaip apibendrintą rodiklį, pirmenybė teikiama režimui, o ne aritmetiniam vidurkiui.

Mediana – Tai yra pagrindinė atributo reikšmė; ją turi paskirstymo reitinguotos serijos centrinis narys. Atskirose serijose, norint rasti medianos vertę, pirmiausia nustatomas jos serijos numeris. Norėdami tai padaryti, jei vienetų skaičius yra nelyginis, prie visų dažnių sumos pridedamas vienas ir skaičius dalijamas iš dviejų. Jei iš eilės yra lyginis vienetų skaičius, bus du medianos vienetai, todėl šiuo atveju mediana apibrėžiama kaip dviejų medianų vienetų verčių vidurkis. Taigi, diskrečiųjų variacijų serijos mediana yra reikšmė, kuri padalija seriją į dvi dalis, kuriose yra tiek pat parinkčių.

Intervalų eilutėse, nustačius medianos eilės numerį, naudojant sukauptus dažnius (dažnius) randamas medianos intervalas, o po to, naudojant medianos apskaičiavimo formulę, nustatoma pačios medianos reikšmė:

kur Me yra vidutinė vertė; x aš - apatinė medianinio intervalo riba; h- vidurinio intervalo plotis; - pasiskirstymo eilučių dažnių suma; /D - sukauptas priešmedianinio intervalo dažnis; / Me - medianinio intervalo dažnis.

Medianą galima rasti grafiškai, naudojant kumuliaciją. Norėdami tai padaryti, kaupiamųjų dažnių (dažnių) skalėje nuo taško, atitinkančio medianos eilės skaičių, brėžiama tiesi linija, lygiagreti abscisių ašiai, kol ji susikerta su kumuliacija. Toliau nuo nurodytos linijos susikirtimo su kumuliacija taško statmenas nuleidžiamas į abscisių ašį. Požymio reikšmė x ašyje, atitinkanti nubrėžtą ordinatę (statmeną), yra mediana.

Medianai būdingos šios savybės.

  • 1. Tai nepriklauso nuo tų atributų reikšmių, kurios yra abiejose jo pusėse.
  • 2. Jis turi minimalumo savybę, o tai reiškia, kad atributo reikšmių absoliučių nuokrypių nuo medianos suma yra minimali reikšmė, palyginti su atributo reikšmių nuokrypiu nuo bet kurios kitos reikšmės.
  • 3. Sujungiant du skirstinius su žinomomis medianomis, neįmanoma iš anksto numatyti naujo skirstinio medianos reikšmės.

Šios medianos savybės plačiai naudojamos projektuojant viešųjų paslaugų teikimo punktų – mokyklų, poliklinikų, degalinių, vandens siurblių ir kt. Pavyzdžiui, jei planuojama statyti polikliniką tam tikrame miesto kvartale, tai tikslingiau būtų ją įrengti kvartalo taške, kuriame perpus sumažėja ne kvartalo ilgis, o gyventojų skaičius.

Modulio, medianos ir aritmetinio vidurkio santykis parodo charakteristikos pasiskirstymo agregate pobūdį ir leidžia įvertinti skirstinio simetriją. Jeigu x Me tada yra dešinioji serijos asimetrija. Su normaliu pasiskirstymu X - Aš - Mo.

K. Pearsonas, remdamasis įvairių tipų kreivių išlyginimu, nustatė, kad vidutinio asimetrinio skirstinio atveju galioja šie apytiksliai ryšiai tarp aritmetinio vidurkio, medianos ir modo:

kur Me yra vidutinė vertė; Mo – mados reikšmė; x arithm – aritmetinio vidurkio reikšmė.

Jei reikia išsamiau ištirti variacijų serijos struktūrą, apskaičiuokite būdingas reikšmes, panašias į medianą. Tokios charakteringos vertės padalija visus pasiskirstymo vienetus į vienodus skaičius; jie vadinami kvantiliais arba gradientais. Kvantiliai skirstomi į kvartilius, decilius, procentilius ir kt.

Kvartiliai padalija populiaciją į keturias lygias dalis. Pirmasis kvartilis apskaičiuojamas panašiai kaip mediana, naudojant pirmojo kvartilio apskaičiavimo formulę, prieš tai nustačius pirmąjį ketvirčio intervalą:

kur Qi yra pirmojo kvartilio reikšmė; xQ^- apatinė pirmojo kvartilio diapazono riba; h- pirmojo ketvirčio intervalo plotis; /, - intervalų eilučių dažniai;

Kaupiamasis dažnis intervale prieš pirmąjį kvartilį; Jq (- pirmojo kvartilio intervalo dažnis.

Pirmasis kvartilis rodo, kad 25% gyventojų vienetų yra mažesni už jo vertę, o 75% - daugiau. Antrasis kvartilis lygus medianai, t.y. Q 2 = Aš.

Pagal analogiją apskaičiuojamas trečiasis kvartilis, pirmiausia suradus trečiąjį ketvirčio intervalą:

kur yra trečiojo kvartilio diapazono apatinė riba; h- trečiojo kvartilio intervalo plotis; /, - intervalų eilučių dažniai; /X" - sukauptas dažnis ankstesniame intervale

G

trečiojo kvartilio intervalas; Jq yra trečiojo kvartilio intervalo dažnis.

Trečiasis kvartilis rodo, kad 75% gyventojų vienetų yra mažesni už jo vertę, o 25% - daugiau.

Skirtumas tarp trečiojo ir pirmojo kvartilių yra tarpkvartilių diapazonas:

čia Aq yra tarpkvartilio diapazono reikšmė; 3 klausimas - trečiojo kvartilio reikšmė; Q yra pirmojo kvartilio reikšmė.

Deciliai padalija populiaciją į 10 lygių dalių. Dešilis – pasiskirstymo eilutės charakteristikos reikšmė, atitinkanti populiacijos dydžio dešimtąsias. Pagal analogiją su kvartiliais, pirmasis decilis rodo, kad 10% populiacijos vienetų yra mažesni už jo vertę, o 90% yra didesni, o devintasis decilis atskleidžia, kad 90% populiacijos vienetų yra mažesni už jo vertę, o 10% yra didesnis. Devintojo ir pirmojo decilio santykis, t.y. Dešilių koeficientas plačiai naudojamas tiriant pajamų diferenciaciją, siekiant išmatuoti 10 % turtingiausių ir 10 % mažiausiai pasiturinčių gyventojų pajamų lygio santykį. Procentiliai reitinguojamą populiaciją padalija į 100 lygių dalių. Procentilių skaičiavimas, reikšmė ir taikymas yra panašus į decilių.

Kvartiliai, deciliai ir kitos struktūrinės charakteristikos gali būti nustatytos grafiškai pagal analogiją su mediana, naudojant kumuliacijas.

Variacijos dydžiui matuoti naudojami šie rodikliai: variacijos diapazonas, vidutinis tiesinis nuokrypis, standartinis nuokrypis, dispersija. Variacijos diapazono dydis visiškai priklauso nuo ekstremalių serijos narių pasiskirstymo atsitiktinumo. Šis rodiklis yra įdomus tais atvejais, kai svarbu žinoti, kokia yra charakteristikos verčių svyravimų amplitudė:

Kur R- variacijos diapazono reikšmė; x max - maksimali atributo reikšmė; x tt - minimali atributo reikšmė.

Skaičiuojant svyravimo diapazoną, neatsižvelgiama į daugumos serijos elementų vertę, o kitimas susiejamas su kiekviena serijos elemento reikšme. Rodikliai, kurie yra vidurkiai, gauti iš atskirų charakteristikų verčių nuokrypių nuo jų vidutinės vertės, neturi šio trūkumo: vidutinis tiesinis nuokrypis ir standartinis nuokrypis. Tarp individualių nukrypimų nuo vidurkio ir tam tikros savybės kintamumo yra tiesioginis ryšys. Kuo stipresnis svyravimas, tuo didesnis absoliutus nukrypimų nuo vidurkio dydis.

Vidutinis tiesinis nuokrypis yra atskirų variantų nuokrypių nuo jų vidutinės vertės absoliučių verčių aritmetinis vidurkis.

Negrupuotų duomenų vidutinis tiesinis nuokrypis

čia /pr yra vidutinio tiesinio nuokrypio vertė; x, - yra atributo reikšmė; X - P - vienetų skaičius populiacijoje.

Sugrupuotų serijų vidutinis tiesinis nuokrypis

kur / vz - vidutinio tiesinio nuokrypio reikšmė; x yra atributo reikšmė; X - vidutinė charakteristikos reikšmė tiriamai populiacijai; / - gyventojų vienetų skaičius atskiroje grupėje.

Šiuo atveju nuokrypių ženklai ignoruojami, kitaip visų nukrypimų suma bus lygi nuliui. Vidutinis tiesinis nuokrypis, priklausomai nuo analizuojamų duomenų grupavimo, apskaičiuojamas naudojant įvairias formules: sugrupuotiems ir negrupuotiems duomenims. Dėl savo susitarimo vidutinis tiesinis nuokrypis, atskirai nuo kitų kitimo rodiklių, praktikoje naudojamas palyginti retai (ypač sutartinių įsipareigojimų dėl pristatymo vienodumo vykdymui apibūdinti; analizuojant užsienio prekybos apyvartą, 2010 m. darbuotojai, gamybos ritmas, gaminių kokybė, atsižvelgiant į gamybos technologines ypatybes ir kt.).

Standartinis nuokrypis apibūdina, kiek vidutiniškai atskiros tiriamos charakteristikos reikšmės skiriasi nuo vidutinės populiacijos vertės, ir išreiškiamas tiriamos charakteristikos matavimo vienetais. Standartinis nuokrypis, kaip vienas pagrindinių variacijos matų, plačiai naudojamas vertinant charakteristikos kitimo ribas homogeninėje populiacijoje, nustatant normalaus pasiskirstymo kreivės ordinačių vertes, taip pat atliekant skaičiavimus, susijusius su imties stebėjimo organizavimas ir imties charakteristikų tikslumo nustatymas. Standartinis nesugrupuotų duomenų nuokrypis apskaičiuojamas pagal tokį algoritmą: kiekvienas nuokrypis nuo vidurkio padalinamas kvadratu, visi kvadratai sumuojami, po to kvadratų suma padalinama iš eilutės narių skaičiaus ir išimama kvadratinė šaknis koeficientas:

kur Iip yra standartinio nuokrypio vertė; Xj- atributo reikšmė; X- vidutinė charakteristikos reikšmė tiriamai populiacijai; P - vienetų skaičius populiacijoje.

Sugrupuotiems analizuojamiems duomenims standartinis duomenų nuokrypis apskaičiuojamas naudojant svertinę formulę

Kur - standartinio nuokrypio vertė; Xj- atributo reikšmė; X - vidutinė charakteristikos reikšmė tiriamai populiacijai; f x - tam tikros grupės gyventojų vienetų skaičius.

Abiem atvejais po šaknimi esanti išraiška vadinama dispersija. Taigi, dispersija apskaičiuojama kaip vidutinis atributų verčių nuokrypių nuo jų vidutinės vertės kvadratas. Nesvertų (paprastų) atributų verčių dispersija nustatoma taip:

Dėl svertinių charakteristikų verčių

Taip pat yra specialus supaprastintas dispersijos skaičiavimo metodas: apskritai

nesvertinėms (paprastoms) charakteristinėms reikšmėms svertinėms charakteristinėms vertėms
naudojant nulinį metodą

kur a 2 yra dispersijos vertė; x, - yra atributo reikšmė; X - vidutinė charakteristikos vertė, h- grupės intervalo reikšmė, t 1 - svoris (A =

Sklaida turi savo išraišką statistikoje ir yra vienas iš svarbiausių kitimo rodiklių. Jis matuojamas vienetais, atitinkančiais tiriamos charakteristikos matavimo vienetų kvadratą.

Dispersija turi šias savybes.

  • 1. Pastovios reikšmės dispersija lygi nuliui.
  • 2. Sumažinus visas charakteristikos reikšmes ta pačia reikšme A, dispersijos reikšmė nekeičiama. Tai reiškia, kad vidutinį nuokrypių kvadratą galima apskaičiuoti ne iš pateiktų charakteristikos verčių, o pagal jų nuokrypius nuo tam tikro pastovaus skaičiaus.
  • 3. Sumažinti bet kokias charakteristikas k kartų sumažina dispersiją k 2 kartus, o standartinis nuokrypis yra k kartų, t.y. visas atributo reikšmes galima padalyti iš tam tikro pastovaus skaičiaus (tarkim, iš serijos intervalo reikšmės), galima apskaičiuoti standartinį nuokrypį, o tada padauginti iš pastovaus skaičiaus.
  • 4. Jei apskaičiuosime vidutinį nuokrypių kvadratą nuo bet kurios reikšmės Ir vienu ar kitu laipsniu skiriasi nuo aritmetinio vidurkio, tada jis visada bus didesnis už vidutinį nuokrypių kvadratą, apskaičiuotą nuo aritmetinio vidurkio. Vidutinis nuokrypių kvadratas bus didesnis labai tam tikra dydžiu – skirtumo tarp vidurkio ir šios sutartinės reikšmės kvadratu.

Alternatyvios charakteristikos kitimas – tai tiriamos savybės buvimas ar nebuvimas populiacijos vienetais. Kiekybiškai alternatyvaus požymio kitimas išreiškiamas dviem reikšmėmis: tiriamos savybės vieneto buvimas žymimas vienetu (1), o jo nebuvimas – nuliu (0). Vienetų, kurie turi tiriamą savybę, dalis žymima P, o vienetų, kurie neturi šios savybės, dalis žymima G. Taigi alternatyvaus požymio dispersija yra lygi vienetų, turinčių šią savybę, dalies (P) sandaugai su vienetų, neturinčių šios savybės. (G). Didžiausias populiacijos svyravimas pasiekiamas tais atvejais, kai dalis gyventojų, sudarančių 50% visos populiacijos apimties, turi savybę, o kita populiacijos dalis, taip pat lygi 50%, neturi šios savybės. o dispersija pasiekia maksimalią reikšmę 0,25, t .e. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 ir o 2 = 0,5 0,5 = 0,25. Apatinė šio rodiklio riba yra nulis, o tai atitinka situaciją, kai agregatas nesikeičia. Praktinis alternatyvios charakteristikos dispersijos taikymas yra pasikliautinųjų intervalų sudarymas atliekant imties stebėjimus.

Kuo mažesnė dispersija ir standartinis nuokrypis, tuo populiacija homogeniškesnė ir vidurkis bus tipiškesnis. Statistikos praktikoje dažnai atsiranda poreikis palyginti įvairių charakteristikų variacijas. Pavyzdžiui, įdomu palyginti darbuotojų amžiaus ir jų kvalifikacijos, darbo stažo ir darbo užmokesčio, išlaidų ir pelno, darbo stažo ir darbo našumo svyravimus ir kt. Tokiems palyginimams netinka absoliutaus charakteristikų kintamumo rodikliai: neįmanoma palyginti darbo stažo kintamumo, išreikšto metais, su darbo užmokesčio kitimu rubliais. Tokiems palyginimams atlikti, taip pat tos pačios charakteristikos kintamumo palyginimams keliose populiacijose su skirtingais aritmetiniais vidurkiais naudojami variacijos rodikliai - svyravimo koeficientas, tiesinis variacijos koeficientas ir variacijos koeficientas, kurie parodo matą. kraštutinių verčių svyravimų aplink vidurkį.

Virpesių koeficientas:

Kur V R - svyravimų koeficiento reikšmė; R- variacijos diapazono reikšmė; X -

Tiesinis variacijos koeficientas“.

Kur Vj- tiesinio variacijos koeficiento reikšmė; aš - vidutinio tiesinio nuokrypio reikšmė; X - vidutinė charakteristikos reikšmė tiriamai populiacijai.

Variacijos koeficientas:

Kur V a - variacijos koeficiento reikšmė; a yra standartinio nuokrypio vertė; X - vidutinė charakteristikos reikšmė tiriamai populiacijai.

Virpesių koeficientas yra procentinis kitimo diapazono ir tiriamos charakteristikos vidutinės vertės santykis, o tiesinis variacijos koeficientas yra vidutinio tiesinio nuokrypio ir tiriamos charakteristikos vidutinės vertės santykis, išreikštas procentais. Variacijos koeficientas yra standartinio nuokrypio nuo tiriamos charakteristikos vidutinės vertės procentas. Kaip santykinė vertė, išreikšta procentais, variacijos koeficientas naudojamas palyginti įvairių charakteristikų kitimo laipsnį. Naudojant variacijos koeficientą, įvertinamas statistinės visumos homogeniškumas. Jei variacijos koeficientas yra mažesnis nei 33%, tai tiriama populiacija yra vienalytė, o variacija silpna. Jei variacijos koeficientas didesnis nei 33%, tai tiriama populiacija yra nevienalytė, variacija stipri, o vidutinė reikšmė netipinė ir negali būti naudojama kaip bendras šios populiacijos rodiklis. Be to, variacijos koeficientai naudojami lyginant vieno požymio kintamumą skirtingose ​​populiacijose. Pavyzdžiui, įvertinti dviejų įmonių darbuotojų darbo stažo kitimą. Kuo didesnė koeficiento reikšmė, tuo reikšmingesnis charakteristikos pokytis.

Remiantis apskaičiuotais kvartiliais, taip pat galima apskaičiuoti santykinį ketvirčio kitimo rodiklį naudojant formulę

kur Q 2 Ir

Tarpkvartilinis diapazonas nustatomas pagal formulę

Kvartilis nuokrypis naudojamas vietoj variacijos diapazono, kad būtų išvengta trūkumų, susijusių su kraštutinių verčių naudojimu:

Nevienodo intervalo variacijos eilėms taip pat apskaičiuojamas pasiskirstymo tankis. Jis apibrėžiamas kaip atitinkamo dažnio arba dažnio koeficientas, padalytas iš intervalo reikšmės. Nelygių intervalų eilutėse naudojamas absoliutus ir santykinis pasiskirstymo tankis. Absoliutus pasiskirstymo tankis yra dažnis intervalo ilgio vienetui. Santykinis pasiskirstymo tankis – dažnis intervalo ilgio vienetui.

Visa tai, kas išdėstyta aukščiau, galioja paskirstymo eilutėms, kurių skirstymo dėsnis gerai aprašytas normaliojo skirstymo dėsnio arba yra jam artimas.

Variacinė vadinamos pasiskirstymo serijomis, sudarytomis kiekybiniu pagrindu. Kiekybinių charakteristikų reikšmės atskiruose populiacijos vienetuose nėra pastovios ir daugiau ar mažiau skiriasi viena nuo kitos.

Variacija- charakteristikos vertės svyravimas, kintamumas tarp populiacijos vienetų. Vadinamos individualios skaitinės charakteristikos, rastos tiriamoje populiacijoje, reikšmės galimybės vertybes. Vidutinės reikšmės nepakankamumas pilnai apibūdinti populiaciją verčia papildyti vidutines reikšmes rodikliais, leidžiančiais įvertinti šių vidurkių tipiškumą, matuojant tiriamos charakteristikos kintamumą (variaciją).

Variacija atsiranda dėl daugelio veiksnių įtakos bruožo lygio formavimuisi. Šie veiksniai veikia nevienodai jėga ir skirtingomis kryptimis. Požymio kintamumo matui apibūdinti naudojami kitimo indeksai.

Statistinio variacijų tyrimo tikslai:

  • 1) atskirų populiacijos vienetų savybių kitimo pobūdžio ir laipsnio tyrimas;
  • 2) nustatant atskirų veiksnių ar jų grupių vaidmenį tam tikrų populiacijos savybių kaitoje.

Statistikoje naudojami specialūs kitimo tyrimo metodai, pagrįsti rodiklių sistemos naudojimu, Su kuriuo matuojamas kitimas.

Variacijos tyrimai yra svarbūs. Matuoti variacijas būtina atliekant imties stebėjimą, koreliacinę ir dispersinę analizę ir kt. Ermolajevas O.Yu. Matematinė statistika psichologams: vadovėlis [Tekstas]/ O.Yu. Ermolajevas. - M.: Maskvos psichologinio ir socialinio instituto leidykla "Flint", 2012. - 335 p.

Pagal variacijos laipsnį galima spręsti apie populiacijos homogeniškumą, individualių charakteristikų verčių stabilumą ir vidurkio tipiškumą. Jų pagrindu kuriami charakteristikų ryšio glaudumo rodikliai ir imties stebėjimo tikslumo vertinimo rodikliai.

Skiriamas erdvės ir laiko kitimas.

Erdvės kitimas suprantamas kaip atributų verčių svyravimas tarp gyventojų vienetų, atstovaujančių atskiroms teritorijoms. Laiko svyravimas reiškia charakteristikos reikšmių pokyčius skirtingais laikotarpiais.

Norint ištirti paskirstymo eilučių kitimą, visi atributų reikšmių variantai yra išdėstyti didėjančia arba mažėjančia tvarka. Šis procesas vadinamas eilučių reitingavimu.

Paprasčiausi variacijos ženklai yra minimalus ir maksimalus- mažiausia ir didžiausia atributo reikšmė visumoje. Atskirų savybių verčių variantų pasikartojimų skaičius vadinamas pasikartojimo dažniu (fi). Patogu dažnius pakeisti dažniais – wi. Dažnis yra santykinis dažnio rodiklis, kuris gali būti išreikštas vieneto dalimis arba procentais ir leidžia palyginti variacijų eilutes su skirtingu stebėjimų skaičiumi. Išreiškiama formule:

kur Xmax, Xmin yra didžiausios ir mažiausios charakteristikos vertės visumoje; n - grupių skaičius.

Požymio kitimui matuoti naudojami įvairūs absoliutūs ir santykiniai rodikliai. Absoliutūs kitimo rodikliai apima svyravimo diapazoną, vidutinį tiesinį nuokrypį, dispersiją ir standartinį nuokrypį. Santykiniai virpesių rodikliai apima svyravimo koeficientą, santykinį tiesinį nuokrypį ir variacijos koeficientą.

Variacijų serijos radimo pavyzdys

Pratimas.Šiam pavyzdžiui:

  • a) Raskite variacijų eilutę;
  • b) Sukonstruoti paskirstymo funkciją;

Nr.=42. Elementų pavyzdžiai:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Sprendimas.

  • a) reitinguotų variacijų serijos sudarymas:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • b) diskrečiųjų variacijų serijos sudarymas.

Apskaičiuokime grupių skaičių variacijų serijoje naudodami Sturgess formulę:

Paimkime grupių skaičių, lygų 7.

Žinodami grupių skaičių, apskaičiuojame intervalo dydį:

Lentelės sudarymo patogumui paimsime grupių skaičių, lygų 8, intervalas bus 1.

Ryžiai. 1 Parduotuvės prekių pardavimo apimtis tam tikrą laikotarpį


Uždaryti