Glosar de termeni statistici

Întrebări generale de statistică

CE ESTE STATISTICA MEDICALĂ?

Statistica este o descriere cantitativă și o măsurătoare a evenimentelor, fenomenelor, obiectelor. Este înțeles ca o ramură a activității practice (colectarea, prelucrarea și analiza datelor privind fenomenele de masă), ca ramură a cunoașterii, i.e. o disciplină științifică specială, și ca un set de rezumat, indicatori digitali finali colectați pentru a caracteriza orice zonă a fenomenelor sociale.

Statistica este o știință care studiază tiparele fenomenelor de masă prin metoda generalizării indicatorilor.

Statistica medicală este o știință socială independentă care studiază latura cantitativă a fenomenelor sociale de masă indisolubil legate de latura lor calitativă, permițând metoda indicatorilor generalizatori să studieze tiparele acestor fenomene, cele mai importante procese din viața economică și socială a societății, sănătatea acesteia și sistemul de organizare a asistenței medicale pentru populație.

Metodele statistice sunt un ansamblu de tehnici de prelucrare a materialelor de observații în masă, care includ: gruparea, rezumatul, obținerea de indicatori, analiza statistică a acestora etc.

Metodele statistice în medicină sunt utilizate pentru:

  1. studierea stării de sănătate publică a populației în ansamblu și a principalelor ei grupe prin colectarea și analiza datelor statistice privind mărimea și componența populației, reproducerea acesteia, dezvoltarea fizică, prevalența și durata diferitelor boli etc.;
  2. identificarea și stabilirea legăturilor între nivelul general de morbiditate și mortalitate din orice boli individuale cu diverși factori de mediu;
  3. colectarea și studierea datelor numerice privind rețeaua instituțiilor medicale, activitățile acestora și personalul pentru planificarea activităților de îngrijire a sănătății, monitorizarea implementării planurilor de dezvoltare a rețelei și activităților instituțiilor sanitare și evaluarea calității activității instituțiilor medicale individuale;
  4. evaluarea eficacității măsurilor de prevenire și tratare a bolilor;
  5. determinarea semnificației statistice a rezultatelor studiului în clinică și experiment.

Secțiuni de statistică medicală:

  • Fundamentele teoretice și metodologice generale ale statisticii,
  • statistici privind sănătatea populației,
  • statistici de sănătate.

CREAREA BAZEI DE DATE ÎN MS EXCEL

Pentru ca baza de date să fie convenabilă pentru prelucrare ulterioară, ar trebui urmate principii simple:

1) Cel mai bun program pentru crearea unei baze de date este MS Excel. Datele din Excel pot fi ulterior transferate cu ușurință în alte pachete statistice specializate, precum Statistica, SPSS, etc. pentru manipulări mai complexe. Cu toate acestea, până la 80-90% din calcule pot fi efectuate cel mai convenabil în Excel, folosind suplimentul Analiza datelor.

2) Linia superioară a tabelului cu baza de date este concepută ca antet, unde sunt introduse numele acelor indicatori care sunt luați în considerare în această coloană. Nu este de dorit să folosiți îmbinarea celulelor (această cerință se aplică întregii baze de date în general), deoarece în acest caz multe operațiuni vor deveni invalide. De asemenea, nu ar trebui să creați un antet „cu două etaje”, în care linia de sus indică numele unui grup de indicatori omogene, iar linia de jos - indicatori specifici. Pentru a grupa indicatorii omogene, este mai bine să îi marcați cu o umplere într-o singură culoare sau să includeți o caracteristică de grupare între paranteze în numele lor.

De exemplu, nu asa:

ANALIZE GENERALE DE SANG
ER LEU TR
ER(UAC) LEU(UAC) TR(UAC)

în cea din urmă versiune sunt asigurate atât antetul „one-story”, cât și omogenitatea vizuală a datelor (toate se referă la indicatorii UAC).

3) Prima coloană trebuie să conțină numărul de serie al pacientului din această bază de date, fără a-l lega de niciunul dintre indicatorii studiați. Acest lucru va face posibilă, în viitor, o revenire ușoară la ordinea inițială a pacienților în orice etapă, chiar și după numeroase sortări ale listei.

4) A doua coloană este de obicei completată cu numele (sau numele complete) ale pacienților.

5) Indicatorii cantitativi (cei care sunt măsurați prin cifre, de exemplu - înălțimea, greutatea, tensiunea arterială, ritmul cardiac etc.) se încadrează în tabel într-un format numeric. S-ar părea că acest lucru este deja clar, dar trebuie amintit că în Excel, începând cu versiunea 2007, valorile fracționale sunt notate cu un punct: 4,5. Dacă scrieți un număr separat prin virgulă, atunci acesta va fi perceput ca text, iar aceste coloane vor trebui rescrise.

6) Cu indicatori calitativi este mai dificil. Cele care au două semnificații (așa-numitele valori binare: Da-Nu, Disponibil-Absent, Bărbat-Femeie), este mai bine să se traducă într-un sistem binar: 0 și 1. Valoarea 1 este de obicei atribuită unei valori pozitive. (Da, disponibil) , 0 - negativ (Nu, niciunul).

7) Indicatori calitativi care au mai multe valori care diferă ca severitate, nivelul fenomenului (Slab-Mediu-Puternic; Rece-Cald-Fierd) poate fi clasat și, în consecință, și tradus în cifre. Nivelului cel mai scăzut al fenomenului i se atribuie cel mai mic rang - 0 sau 1, gradele următoare sunt indicate de valorile rangurilor în ordine. De exemplu: Fără boală - 0, ușoară - 1, moderată - 2, severă - 3.

8) Uneori un indicator de calitate corespunde mai multor valori. De exemplu, în coloana „Diagnostic concomitent”, dacă există mai multe boli, dorim să le indicăm separate prin virgule. Acest lucru nu trebuie făcut, deoarece prelucrarea unor astfel de date este foarte dificilă și nu poate fi automatizată. Prin urmare, este mai bine să faceți mai multe coloane cu grupuri specifice de boli („boli CVD”, „boli ale tractului gastro-intestinal”, etc.) sau anumite nosologii („chr.gastrita”, „IHD”, etc.), în care datele sunt introduse în formă binară, binară: 1 (care înseamnă „Există o boală dată”) - 0 („Nu există nicio boală dată”).

9) Pentru a distinge între grupurile individuale de indicatori, puteți utiliza în mod activ culoarea: de exemplu, coloanele cu indicatori KLA sunt evidențiate în roșu, datele OAM - în galben etc.

10) Fiecare pacient trebuie să corespundă unei linii din tabel.

O astfel de proiectare a bazei de date permite nu numai simplificarea semnificativă a procesului de prelucrare statistică, ci și facilitarea umplerii acesteia în etapa de colectare a materialului.

CE METODĂ SĂ ALEGE PENTRU ANALIZA STATISTICĂ?

După colectarea tuturor datelor, fiecare cercetător se confruntă cu problema alegerii celei mai potrivite metode de prelucrare statistică. Și acest lucru nu este surprinzător: statisticile moderne combină un număr mare de criterii și metode diferite. Toate au propriile lor caracteristici, pot fi sau nu potrivite pentru două situații aparent similare. În acest articol, vom încerca să sistematizăm toate principalele, cele mai comune metode de analiză statistică în funcție de scopul lor.

Cu toate acestea, mai întâi, câteva cuvinte despre ce fel de date statistice există, deoarece alegerea celei mai potrivite metode de analiză depinde de aceasta.

Scala de măsurare

La efectuarea unui studiu, valorile diferitelor caracteristici sunt determinate pentru fiecare unitate de observație. În funcție de scara pe care sunt măsurate, toate semnele sunt împărțite în cantitativȘi calitate. Indicatorii calitativi în cercetare sunt repartizați conform așa-numitelor nominal scară. În plus, indicatorii pot fi prezentați de clasament scară.

De exemplu, se face o comparație a indicatorilor activității cardiace la sportivi și la persoanele care duc un stil de viață sedentar.

În același timp, la subiecți au fost determinate următoarele caracteristici:

  • podea- este nominal un indicator care ia două valori - masculin sau feminin.
  • vârstă - cantitativ index,
  • sport - nominal un indicator care ia două valori: angajat sau neangajat,
  • ritm cardiac - cantitativ index,
  • presiune sistolica a sangelui - cantitativ index,
  • plângeri de durere în piept- este calitate indicator, ale cărui valori pot fi determinate ca nominal(sunt reclamatii - nu exista reclamatii), iar conform clasament o scară în funcție de frecvență (de exemplu, dacă durerea apare de mai multe ori pe zi - indicatorului i se atribuie un rang de 3, de mai multe ori pe lună - un rang de 2, de mai multe ori pe an - un rang de 1, dacă există nu există plângeri de durere în piept - este atribuit un rang de 0).

Numărul de populații potrivite

Următoarea problemă care trebuie abordată pentru a selecta o metodă statistică este numărul de populații care urmează să fie comparate în cadrul studiului.

  • În cele mai multe cazuri, în studiile clinice, avem de-a face cu două grupuri de pacienți - de bazăȘi Control. De bază, sau cu experienta, este considerat a fi grupul în care a fost utilizată metoda de diagnostic sau tratament studiată, sau la care pacienții suferă de boala care face obiectul acestui studiu. Control grupul, în schimb, este format din pacienți care primesc îngrijiri medicale convenționale, placebo sau indivizi care nu au boala în studiu. Se numesc astfel de populații reprezentate de diferiți pacienți fără legătură.
    Mai sunt legate de, sau pereche, agregate, când este vorba de aceleași persoane, dar se compară valorile oricărei caracteristici, obținute inainte si dupa cercetare. Numărul de seturi comparate este, de asemenea, egal cu 2, dar acestora li se aplică metode diferite decât celor neînrudite.
  • O altă opțiune este descrierea unu totalitate, care, desigur, stă la baza oricărei cercetări în general. Chiar dacă scopul principal al lucrării este de a compara două sau mai multe grupuri, fiecare dintre ele trebuie mai întâi caracterizat. Pentru aceasta se folosesc metode Statisticile descriptive. În plus, pentru o singură populație se pot aplica metode analiza corelației, folosit pentru a găsi o relație între două sau mai multe dintre caracteristicile studiate (de exemplu, dependența înălțimii de greutatea corporală sau dependența ritmului cardiac de temperatura corpului).
  • În cele din urmă, pot exista mai multe seturi comparate. Acest lucru este foarte frecvent în cercetarea medicală. Pacienții pot fi grupați în funcție de utilizarea diferitelor medicamente (de exemplu, la compararea eficacității medicamentelor antihipertensive: grupa 1 - inhibitori ECA, 2 - beta-blocante, 3 - medicamente cu acțiune centrală), în funcție de severitatea bolii ( grupa 1 - usoara, 2 - medie, 3 - grea), etc.

De asemenea, importantă este întrebarea normalitatea distribuţiei populațiile studiate. Depinde dacă metodele pot fi aplicate analiza parametrica sau numai neparametric. Condițiile care trebuie îndeplinite în populațiile cu distribuție normală sunt:

  1. proximitatea sau egalitatea maximă a valorilor mediei aritmetice, modului și medianei;
  2. respectarea regulii „trei sigma” (cel puțin 68,3% din variantă este în intervalul M ± 1σ, cel puțin 95,5% din variantă este în intervalul M ± 2σ, cel puțin 99,7% din variantă este în interval de M ± 3σ;
  3. indicatorii sunt măsurați pe o scară cantitativă;
  4. rezultate pozitive ale testării pentru normalitatea distribuției folosind criterii speciale - Kolmogorov-Smirnov sau Shapiro-Wilk.

După ce am determinat toate caracteristicile populațiilor studiate indicate de noi, vă sugerăm să folosiți următorul tabel pentru a selecta cea mai optimă metodă de analiză statistică.

Metodă Scară pentru măsurarea indicatorilor Numărul de populații comparate Scopul prelucrarii Distribuția datelor
Testul t al elevului cantitativ 2 normal
Testul t al elevului cu corecția Bonferroni cantitativ 3 sau mai multe compararea populațiilor neînrudite normal
Testul t al studentului asociat cantitativ 2 normal
Analiza unidirecțională a varianței (ANOVA) cantitativ 3 sau mai multe compararea populațiilor neînrudite normal
Analiza unidirecțională a varianței (ANOVA) cu măsuri repetate cantitativ 3 sau mai multe compararea populațiilor înrudite normal
Testul U Mann-Whitney cantitativ, clasament 2 compararea populațiilor neînrudite orice
Testul Rosenbaum Q cantitativ, clasament 2 compararea populațiilor neînrudite orice
Testul Kruskell-Wallis cantitativ 3 sau mai multe compararea populațiilor neînrudite orice
Testul Wilcoxon cantitativ, clasament 2 compararea populațiilor înrudite orice
Semne G-test cantitativ, clasament 2 compararea populațiilor înrudite orice
criteriul Friedman cantitativ, clasament 3 sau mai multe compararea populațiilor înrudite orice
Criteriul χ 2 Pearson nominal 2 sau mai multe compararea populațiilor neînrudite orice
Testul exact al lui Fisher nominal 2 compararea populațiilor neînrudite orice
Testul McNemar nominal 2 compararea populațiilor înrudite orice
Q-test Cochran nominal 3 sau mai multe compararea populațiilor înrudite orice
Risc relativ (Rata de risc, RR) nominal 2 compararea populațiilor neînrudite în studiile de cohortă orice
Rata cotelor (OR) nominal 2 compararea populațiilor neînrudite în studiile caz-control orice
Coeficientul de corelație Pearson cantitativ 2 rânduri de măsurători normal
Coeficientul de corelare a rangului lui Spearman cantitativ, clasament 2 rânduri de măsurători identificarea relaţiilor dintre caracteristici orice
Coeficientul de corelație al lui Kendall cantitativ, clasament 2 rânduri de măsurători identificarea relaţiilor dintre caracteristici orice
Coeficientul de concordanță al lui Kendall cantitativ, clasament 3 sau mai multe rânduri de măsurători identificarea relaţiilor dintre caracteristici orice
Calcularea valorilor medii (M) și a erorilor medii (m) cantitativ 1 Statisticile descriptive orice
Calculul medianelor (Me) și percentilelor (quartiles) clasament 1 Statisticile descriptive orice
Calcularea valorilor relative (P) și a erorilor medii (m) nominal 1 Statisticile descriptive orice
Criteriul Shapiro-Wilk cantitativ 1 analiza distributiei orice
criteriul Kolmogorov-Smirnov cantitativ 1 analiza distributiei orice
Criteriul ω 2 Smirnov-Kramer-von Mises cantitativ 1 analiza distributiei orice
Metoda Kaplan-Meier orice 1 analiza supraviețuirii orice
Modelul de riscuri proporționale Cox orice 1 analiza supraviețuirii orice

Mari statisticieni

Karl Pearson (27 martie 1857 - 27 aprilie 1936)

27 martie 1857 s-a născut Karl Pearson - marele matematician, statistician, biolog și filozof englez; fondatorul statisticii matematice, unul dintre fondatorii biometriei.

După ce a primit o profesie de profesor în matematică aplicată la University College London la vârsta de 27 de ani, Karl Pearson a început să studieze statistica, pe care a perceput-o ca un instrument științific general, în concordanță cu ideile sale departe de convenționale despre necesitatea de a oferi studenților o perspectivă largă. .

Principalele realizări ale lui Pearson în domeniul statisticii includ dezvoltarea fundamentelor teoriei corelației și contingenței caracteristicilor, introducerea „curbelor Pearson” pentru a descrie distribuțiile empirice și testul chi-pătrat extrem de important și compilarea unui mare numărul de tabele statistice. Pearson a aplicat metoda statistică și mai ales teoria corelației în multe ramuri ale științei.

Iată una dintre afirmațiile sale: "Prima introducere de amatori a metodelor statistice moderne în știința consacrată i se opune disprețul tipic. Dar am trăit pe vremea când mulți dintre ei au început să aplice pe ascuns chiar metodele pe care le-au condamnat inițial."

Și deja în 1920, Pearson a scris o notă în care a afirmat că scopul școlii biometrice era „de a transforma statistica într-o ramură a matematicii aplicate, de a generaliza, renunța sau justifica metodele slabe ale vechii școli de statisticieni politici și sociali. , și, în general, să transforme statisticile din terenul de sport pentru amatori și dezbateri într-o ramură serioasă a științei.A fost necesar să se critice metodele imperfecte și adesea eronate din medicină, antropologie, craniometrie, psihologie, criminologie, biologie, sociologie, pentru a oferi acestor științe mijloace noi și mai puternice.Bătălia a durat aproape douăzeci de ani, dar multe semne că vechea ostilitate a trecut în urmă și noile metode sunt universal acceptate.

Karl Pearson avea interese foarte versatile: a studiat fizica la Heidelberg, a fost interesat de rolul social și economic al religiei și chiar a ținut prelegeri despre istoria și literatura germană la Cambridge și Londra.

Este un fapt puțin cunoscut faptul că, la vârsta de 28 de ani, Karl Pearson a ținut prelegeri despre „întrebarea femeilor” și chiar a fondat Clubul bărbaților și femeilor, care a existat până în 1889, în care tot ce ține de femei, inclusiv relațiile dintre sexe, a fost discutat liber și fără restricții.

Clubul era format dintr-un număr egal de bărbați și femei, în mare parte din clasa de mijloc liberală, socialiști și feministe.

Subiectul discuțiilor clubului a fost cea mai largă gamă de probleme: de la relațiile sexuale în Grecia antică din Atena până la poziția călugărițelor budiste, de la atitudini față de căsătorie la problemele prostituției. În esență, „Clubul bărbaților și femeilor” a contestat normele de interacțiune de lungă durată între bărbați și femei, precum și ideile despre sexualitatea „corectă”. În Anglia victoriană, unde mulți au perceput sexualitatea ca ceva „scăzut” și „animal”, iar ignoranța cu privire la educația sexuală era larg răspândită, discuția despre astfel de probleme a fost cu adevărat radicală.

În 1898, Pearson a primit medalia Darwin a Societății Regale, pe care a refuzat-o, considerând că premiile „trebuie acordate tinerilor pentru a-i încuraja”.

Florence Nightingale (12 mai 1820 - 13 august 1910)

Florence Nightingale (1820-1910) - sora milei și personalitate publică a Marii Britanii, de ziua căreia sărbătorim astăzi Ziua Internațională a Asistentelor.

S-a născut la Florența într-o familie aristocratică bogată, a primit o educație excelentă, cunoștea șase limbi. De mică a visat să devină o soră a milei, în 1853 a primit o educație medicală în comunitatea surorilor pastorului Flender din Kaiserwerth și a devenit managerul unui mic spital privat din Londra.

În octombrie 1854, în timpul războiului din Crimeea, Florența, împreună cu 38 de asistenți, a mers la spitalele de campanie din Crimeea. Organizând îngrijirea răniților, ea a implementat cu consecvență principiile de salubritate și igienă. Drept urmare, în mai puțin de șase luni, rata mortalității în spitale a scăzut de la 42 la 2,2%!

Punându-și sarcina de a reforma serviciul medical în armată, Nightingale s-a asigurat ca spitalele să fie dotate cu sisteme de ventilație și canalizare; Personalul spitalului trebuie să fi primit pregătirea necesară. A fost organizată o școală de medicină militară și s-a desfășurat lucrări explicative în rândul soldaților și ofițerilor cu privire la importanța prevenirii bolilor.

Contribuția lui Florence Nightingale la statisticile medicale este grozavă!

  • Cartea ei de 800 de pagini, Notes on the Factors Influencing the Health, Efficiency, and Administration of the Hospitals of the British Army (1858), conținea o întreagă secțiune dedicată statisticilor și ilustrată cu diagrame.
  • Nightingale a fost un inovator în utilizarea imaginilor grafice în statistică. Ea a inventat diagramele cu plăci, pe care le-a numit „pieguri de cocoș” și le-a folosit pentru a descrie tiparele mortalității. Multe dintre diagramele ei au fost incluse în raportul comisiei pentru problemele de sănătate din armată, datorită căruia s-a luat decizia de a reforma medicina armatei.
  • Ea a dezvoltat primul formular de colectare a statisticilor în spitale, care este precursorul formularelor moderne de raportare a activităților spitalului.

În 1859 a fost aleasă membru al Societății Regale de Statistică și ulterior a devenit membru de onoare al Asociației Americane de Statistică.

Johann Carl Friedrich Gauss (30 aprilie 1777 - 23 februarie 1855)

La 30 aprilie 1777, la Braunschweig s-a născut marele matematician, mecanic, fizician, astronom, geodez și statistician german Johann Carl Friedrich Gauss.

Este considerat unul dintre cei mai mari matematicieni ai tuturor timpurilor, „Regele matematicienilor”. Laureat al medaliei Copley (1838), membru străin al Academiilor de Științe Suedeze (1821) și Ruse (1824), ale Societății Regale Engleze.

Deja la vârsta de trei ani, Karl știa să citească și să scrie, chiar și corectând greșelile de numărare ale tatălui său. Potrivit legendei, un profesor de matematică din școală, pentru a-i ține ocupați pe copii mult timp, i-a invitat să numere suma numerelor de la 1 la 100. Tânărul Gauss a observat că sumele perechi de la capete opuse sunt aceleași: 1+100= 101, 2+99=101 etc. etc. și a obținut instantaneu rezultatul: 50×101=5050. Până la bătrânețe, obișnuia să facă majoritatea calculelor în minte.

Principalele realizări științifice ale lui Carl Gauss în statistică sunt crearea metodei celor mai mici pătrate, care stă la baza analizei de regresie.

De asemenea, a studiat în detaliu legea distribuției normale obișnuite în natură, al cărei grafic de atunci a fost adesea numit Gaussian. Regula trei sigma (regula Gauss) care descrie distribuția normală a devenit cunoscută pe scară largă.

Lev Semyonovich Kaminsky (1889 - 1962)

La cea de-a 75-a aniversare a Victoriei în Marele Război Patriotic, aș dori să-mi amintesc și să vorbesc despre remarcabilul om de știință, unul dintre fondatorii statisticii medicale și sanitare militare din URSS - Lev Semyonovich Kaminsky (1889-1962).

S-a născut la 27 mai 1889 la Kiev. După ce a absolvit cu onoare în 1918 facultatea de medicină a Universității din Petrograd, Kaminsky a fost în rândurile Armatei Roșii, din aprilie 1919 până la sfârșitul anului 1920 a servit ca medic șef al celui de-al 136-lea spital de evacuare consolidat al Frontului de Sud-Est.

Din 1922, Lev Semyonovich a fost responsabil de departamentul sanitar și epidemiologic al serviciului medical și sanitar al Căii Ferate de Nord-Vest. În acești ani, activitatea științifică a lui Kaminsky a început sub îndrumarea prof. S.A.Novoselsky. În lucrarea lor fundamentală comună „Pierderi în războaiele trecute”, a fost analizat material statistic privind pierderile umane în războaiele diferitelor armate ale lumii din 1756 până în 1918. În lucrările ulterioare, Kaminsky a dezvoltat și fundamentat o nouă clasificare mai precisă a pierderilor militare. .

În monografia „Nutriția națională și sănătatea publică” (1929), aspectele sanitare și igienice ale impactului războaielor asupra sănătății populației, precum și organizarea asistenței medicale pentru populație și armată în anii de război, au fost luate în considerare în detaliu.

Din 1935 până în 1943, Lev Semenovich a condus departamentul de statistică sanitară (din 1942 - medicală) al Comisariatului Poporului de Sănătate al URSS. În octombrie 1943, prof. Kaminsky a devenit șeful Departamentului de Statistică Medicală Militară al Academiei Medicale Militare. S.M. Kirov, iar din 1956 este profesor la Departamentul de Statistică și Contabilitate a Universității de Stat din Leningrad.

Lev Semyonovich a susținut introducerea pe scară largă a metodelor cantitative în practica statisticii sanitare și medicale. În 1959, sub paternitatea sa, a fost publicat un manual „Prelucrarea statistică a datelor de laborator și clinice: utilizarea statisticii în munca științifică și practică a unui medic”, care a devenit timp de mulți ani unul dintre cele mai bune manuale interne de statistică medicală. În prefață, L.S. Kaminsky notează:
„... Pare important ca medicii curant să știe să se apuce de treabă, să poată colecta și procesa numerele corecte, potrivite pentru comparații și comparații”.

Criterii și metode

Testul t al lui Student pentru populații independente

Testul t al lui Student este un nume general pentru o clasă de metode de testare statistică a ipotezelor (teste statistice) bazate pe distribuția lui Student. Cele mai frecvente cazuri de aplicare a testului t sunt legate de verificarea egalității mediilor în două eșantioane.

Acest criteriu a fost elaborat William Seeley Gosset

2. Pentru ce este folosit testul t Student?

Testul t al lui Student este utilizat pentru a determina semnificația statistică a diferențelor medii. Poate fi utilizat atât în ​​cazul comparării probelor independente (de exemplu, grupuri de pacienți cu diabet zaharat și grupuri de persoane sănătoase), cât și în cazul comparării populațiilor înrudite (de exemplu, frecvența medie a pulsului la aceiași pacienți înainte și după administrare). un medicament antiaritmic). În acest din urmă caz, se calculează testul t Student pereche

3. Când poate fi folosit testul t al Studentului?

Pentru a aplica testul t al Studentului, este necesar ca datele originale să aibă o distribuție normală. De asemenea, importantă este egalitatea dispersiunilor (distribuțiilor) grupurilor comparate (homoscedasticitatea). Pentru variațiile inegale, se folosește testul t al lui Welch (Welch "s t).

În absența unei distribuții normale a eșantioanelor comparate, în locul testului t Student se folosesc metode similare de statistică neparametrică, dintre care cea mai cunoscută este Testul U Mann-Whitney.

4. Cum se calculează testul t al lui Student?

Pentru a compara mediile, testul t al lui Student este calculat folosind următoarea formulă:

Unde M 1- media aritmetică a primei populații (grup) comparate; M 2- media aritmetică a celei de-a doua populații (grup) comparate; m 1- eroarea medie a primei medii aritmetice, m2- eroarea medie a celei de-a doua medii aritmetice.

Valoarea rezultată a testului t al lui Student trebuie interpretată corect. Pentru a face acest lucru, trebuie să cunoaștem numărul de subiecți din fiecare grupă (n 1 și n 2). Aflarea numărului de grade de libertate f după următoarea formulă:

F \u003d (n 1 + n 2) - 2

După aceea, determinăm valoarea critică a testului t Student pentru nivelul necesar de semnificație (de exemplu, p=0,05) și pentru un număr dat de grade de libertate f conform tabelului (vezi mai jos).

  • Dacă valoarea calculată a testului t al Studentului este egală sau mai mare decât valoarea critică găsită în tabel, ajungem la concluzia că diferențele dintre valorile comparate sunt semnificative statistic.
  • Dacă valoarea testului t Student calculat este mai mică decât cea tabelară, atunci diferențele dintre valorile comparate nu sunt semnificative statistic.

Pentru a studia eficacitatea unui nou preparat de fier, au fost selectate două grupuri de pacienți cu anemie. În primul grup, pacienții au primit un nou medicament timp de două săptămâni, iar în al doilea grup au primit un placebo. După aceea, a fost măsurat nivelul hemoglobinei din sângele periferic. În primul grup, nivelul mediu al hemoglobinei a fost de 115,4±1,2 g/l, iar în al doilea - 103,7±2,3 g/l (datele sunt prezentate în format M±m), populațiile comparate au o distribuție normală. Numărul primului grup a fost de 34, iar al doilea - 40 de pacienți. Este necesar să se tragă o concluzie despre semnificația statistică a diferențelor obținute și eficacitatea noului preparat de fier.

Soluţie: Pentru a evalua semnificația diferențelor, folosim testul t al lui Student, calculat ca diferența dintre medii împărțite la suma erorilor pătrate:

După efectuarea calculelor, valoarea testului t a fost egală cu 4,51. Găsim numărul de grade de libertate ca (34 + 40) - 2 = 72. Comparăm valoarea obținută a testului t Student 4,51 cu valoarea critică la p=0,05 indicată în tabel: 1,993. Deoarece valoarea calculată a criteriului este mai mare decât valoarea critică, concluzionăm că diferențele observate sunt semnificative statistic (nivel de semnificație p<0,05).


Testul t al ELEVULUI PERECHE

Testul t al lui Student în pereche este una dintre modificările metodei Student utilizate pentru a determina semnificația statistică a diferențelor în măsurătorile pereche (repetate).

1. Istoricul dezvoltării testului t

a fost dezvoltat testul t William Gosset pentru a evalua calitatea berii la Guinness. În legătură cu obligațiile față de companie de a nu dezvălui secrete comerciale, articolul lui Gosset a fost publicat în 1908 în revista Biometrics sub pseudonimul „Student” (Student).

2. Pentru ce este folosit testul t Student pereche?

Testul t al lui Paired Student este utilizat pentru a compara două mostre dependente (pereche). Dependente sunt măsurătorile efectuate la aceiași pacienți, dar la momente diferite, de exemplu, tensiunea arterială la pacienții hipertensivi înainte și după administrarea unui medicament antihipertensiv. Ipoteza nulă afirmă că nu există diferențe între eșantioanele comparate, în timp ce ipoteza alternativă afirmă că există diferențe semnificative statistic.

3. Când poate fi folosit testul t Student asociat?

Condiția principală este dependența probelor, adică valorile comparate ar trebui obținute prin măsurători repetate ale unui parametru la aceiași pacienți.

Ca și în cazul comparării probelor independente, pentru a aplica testul t pereche, este necesar ca datele originale să aibă o distribuție normală. Dacă această condiție nu este îndeplinită, metodele statistice neparametrice, cum ar fi Semne G-test sau Testul t Wilcoxon.

Testul t împerecheat poate fi utilizat numai atunci când se compară două mostre. Dacă doriți să comparați trei sau mai multe măsurători repetate, ar trebui să utilizați analiza unidirecțională a varianței (ANOVA) pentru măsuri repetate.

4. Cum se calculează testul t Student pereche?

Testul t Student pereche este calculat folosind următoarea formulă:

Unde M d- media aritmetică a diferențelor dintre indicatorii măsurați înainte și după; σd- abaterea standard a diferenţelor de indicatori, n- numărul de subiecte.

5. Cum se interpretează valoarea testului t Student?

Interpretarea valorii obținute a testului t Student pereche nu diferă de evaluarea testului t pentru populații neînrudite. În primul rând, este necesar să găsiți numărul de grade de libertate f după următoarea formulă:

F = n - 1

După aceea, determinăm valoarea critică a testului t al lui Student pentru nivelul de semnificație necesar (de exemplu, p<0,05) и при данном числе степеней свободы f conform tabelului (vezi mai jos).

Comparăm valorile critice și calculate ale criteriului:

  • Dacă valoarea calculată a testului t Student pereche este egală sau mai mare decât valoarea critică găsită în tabel, ajungem la concluzia că diferențele dintre valorile comparate sunt semnificative statistic.
  • Dacă valoarea testului t Student calculat pereche este mai mică decât valoarea tabelului, atunci diferențele dintre valorile comparate nu sunt semnificative statistic.

6. Un exemplu de calcul al testului t Student

Pentru a evalua eficacitatea unui nou agent hipoglicemiant, nivelurile de glucoză din sânge au fost măsurate la pacienții cu diabet zaharat înainte și după administrarea medicamentului. Ca urmare, au fost obținute următoarele date:

Soluţie:

1. Calculați diferența fiecărei perechi de valori (d):

Pacientul N Nivelul glucozei din sânge, mmol/l Diferența de valoare (d)
înainte de a lua medicamentul după administrarea medicamentului
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Aflați media aritmetică a diferențelor folosind formula:

3. Găsiți abaterea standard a diferențelor față de medie prin formula:

4. Calculați testul t Student pereche:

5. Să comparăm valoarea obţinută a testului t Student 8.6 cu valoarea tabelară, care, cu numărul de grade de libertate f egal cu 10 - 1 = 9 şi nivelul de semnificaţie p=0.05, este 2.262. Deoarece valoarea obținută este mai mare decât cea critică, concluzionăm că există diferențe semnificative statistic în nivelurile de glucoză din sânge înainte și după administrarea noului medicament.

Afișați tabelul cu valorile critice ale testului t Student

CRITERIU U MANN-WHITNEY

Testul U Mann-Whitney este un test statistic neparametric utilizat pentru a compara două eșantioane independente în ceea ce privește nivelul oricărei trăsături, măsurat cantitativ. Metoda se bazează pe determinarea dacă aria de intersectare a valorilor dintre două serii variaționale este suficient de mică (o serie variată de valori ale parametrilor în prima probă și aceeași în a doua probă). Cu cât valoarea criteriului este mai mică, cu atât este mai probabil ca diferențele dintre valorile parametrilor din eșantioane să fie semnificative.

1. Istoricul dezvoltării testului U

Această metodă de detectare a diferențelor dintre probe a fost propusă în 1945 de un chimist și statistician american. Frank Wilcoxon.
În 1947, a fost revizuit și extins substanțial de către matematicieni H.B. Mann(H.B. Mann) și D.R. Whitney(D.R. Whitney), sub ale cărui nume este de obicei numit astăzi.

2. Pentru ce este folosit testul U Mann-Whitney?

Testul U Mann-Whitney este utilizat pentru a evalua diferențele dintre două eșantioane independente în ceea ce privește nivelul oricărei trăsături cantitative.

3. Când poate fi utilizat testul Mann-Whitney U?

Testul U Mann-Whitney este un test neparametric, prin urmare, spre deosebire Testul t al elevului

Testul U este potrivit pentru compararea eșantioanelor mici: fiecare probă trebuie să conțină cel puțin 3 valori caracteristice. Este permis ca într-o probă să fie 2 valori, dar în a doua atunci trebuie să fie cel puțin cinci.

Condiția pentru aplicarea testului U Mann-Whitney este absența în grupurile comparate a valorilor de atribute coincidente (toate numerele sunt diferite) sau un număr foarte mic de astfel de potriviri.

Un analog al testului U Mann-Whitney pentru compararea a trei sau mai multe grupuri este Testul Kruskal-Wallis.

4. Cum se calculează testul U Mann-Whitney?

În primul rând, din ambele eșantioane comparate, un singur rând clasat, prin aranjarea unităţilor de observaţie în funcţie de gradul de creştere a atributului şi atribuirea unei valori mai mici unui rang inferior. În cazul valorilor de atribute egale pentru mai multe unități, fiecăreia dintre ele i se atribuie media aritmetică a valorilor de rang succesive.

De exemplu, două unități care ocupă locurile 2 și 3 (rang) într-un singur rând clasat au aceleași valori. Prin urmare, fiecăruia dintre ei i se atribuie un rang egal cu (3 + 2) / 2 = 2,5.

În seria compilată cu un singur clasament, numărul total de ranguri va fi egal cu:

N = n 1 + n 2

unde n 1 este numărul de elemente din prima probă și n 2 este numărul de elemente din a doua probă.

În continuare, împărțim din nou seria unică clasificată în două, constând, respectiv, din unitățile primului și celui de-al doilea eșantion, amintindu-ne în același timp valorile rangurilor pentru fiecare unitate. Se calculează separat suma rangurilor care au căzut pe ponderea elementelor din primul eșantion și separat - pe ponderea elementelor din al doilea eșantion. Determinați cea mai mare dintre cele două sume de rang (T x) corespunzătoare eșantionului cu n x elemente.

În cele din urmă, găsim valoarea testului U Mann-Whitney folosind formula:

5. Cum se interpretează valoarea testului U Mann-Whitney?

Valoarea obținută a criteriului U este comparată conform tabelului pentru nivelul de semnificație statistic ales (p=0,05 sau p=0,01) cu valoarea critică a lui U pentru un număr dat de eșantioane comparate:

  • Dacă valoarea rezultată U Mai puțin tabelar sau egală lui, atunci se recunoaşte semnificaţia statistică a diferenţelor dintre nivelurile trăsăturii din eşantioanele considerate (se acceptă o ipoteză alternativă). Semnificația diferențelor este mai mare, cu atât valoarea lui U este mai mică.
  • Dacă valoarea rezultată U Mai mult tabulară, se acceptă ipoteza nulă.
Afișați tabelul cu valorile critice ale testului U Mann-Whitney la p=0,05

CRITERIU WILCOXON

Testul Wilcoxon pentru probe legate (cunoscut și sub denumirea de testul T Wilcoxon, testul Wilcoxon, testul de rang semnat Wilcoxon, testul sumei de rang Wilcoxon) este un test statistic neparametric utilizat pentru a compara două eșantioane legate (pereche) după nivelul oricărei trăsături cantitative măsurată pe o scară continuă sau ordinală.

Esența metodei este că se compară valorile absolute ale severității schimbărilor într-o direcție sau alta. Pentru a face acest lucru, mai întâi sunt clasate toate valorile absolute ale schimburilor, apoi sunt însumate rândurile. Dacă schimbările într-o direcție sau alta au loc întâmplător, atunci sumele rangurilor lor vor fi aproximativ egale. Dacă intensitatea deplasărilor într-o direcție este mai mare, atunci suma rândurilor valorilor absolute ale deplasărilor în direcția opusă va fi semnificativ mai mică decât ar putea fi cu modificări aleatorii.

1. Istoricul dezvoltării testului Wilcoxon pentru probe legate

Testul a fost propus pentru prima dată în 1945 de statisticianul și chimistul american Frank Wilcoxon (1892-1965). În aceeași lucrare științifică, autorul a descris un alt criteriu utilizat în cazul comparării probelor independente.

2. Pentru ce este folosit testul Wilcoxon?

Testul t Wilcoxon este utilizat pentru a evalua diferențele dintre două seturi de măsurători efectuate pe aceeași populație de subiecți, dar în condiții diferite sau în momente diferite. Acest test este capabil să dezvăluie direcția și severitatea schimbărilor - adică dacă indicatorii sunt mai deplasați într-o direcție decât în ​​cealaltă.

Un exemplu clasic de situație în care poate fi aplicat testul Wilcoxon T pentru populații înrudite este un studiu înainte-după, în care se compară scorurile pre și post-tratament. De exemplu, atunci când se studiază eficacitatea unui agent antihipertensiv, tensiunea arterială este comparată înainte de a lua medicamentul și după administrarea acestuia.

3. Condiții și restricții privind utilizarea testului T Wilcoxon

  1. Testul Wilcoxon este un test neparametric, prin urmare, spre deosebire de testul t al Studentului pereche, nu necesită prezența unei distribuții normale a populațiilor comparate.
  2. Numărul de subiecți când se utilizează testul Wilcoxon T trebuie să fie de cel puțin 5.
  3. Trăsătura studiată poate fi măsurată atât pe o scară cantitativă continuă (tensiune arterială, ritm cardiac, număr de leucocite la 1 ml de sânge), cât și pe o scară ordinală (număr de puncte, severitatea bolii, gradul de contaminare cu microorganisme).
  4. Acest criteriu este utilizat numai atunci când se compară două serii de măsurători. Un analog al testului T Wilcoxon pentru compararea a trei sau mai multe populații înrudite este criteriul Friedman.

4. Cum se calculează testul Wilcoxon T pentru probele aferente?

  1. Calculați diferența dintre valorile măsurătorilor perechi pentru fiecare subiect. Schimbările zero nu sunt luate în considerare în continuare.
  2. Determinați care dintre diferențe sunt tipice, adică corespund direcției de schimbare a indicatorului care predomină în frecvență.
  3. Clasează diferențele perechilor după valorile lor absolute (adică fără a ține cont de semn), în ordine crescătoare. O valoare absolută mai mică a diferenței i se atribuie un rang inferior.
  4. Calculați suma rangurilor corespunzătoare deplasărilor atipice.

Astfel, testul Wilcoxon T pentru probele înrudite este calculat prin următoarea formulă:

unde ΣRr este suma rangurilor corespunzătoare modificărilor atipice ale indicatorului.

5. Cum se interpretează valoarea testului Wilcoxon?

Valoarea obținută a testului Wilcoxon T este comparată cu valoarea critică conform tabelului pentru nivelul de semnificație statistic selectat ( p=0,05 sau p=0,01) pentru un număr dat de probe comparate n:

  • Dacă valoarea calculată (empiric) a Temp. mai mic decât T cr tabular. sau egal cu acesta, atunci se recunoaște semnificația statistică a modificărilor indicatorului în direcția tipică (se acceptă o ipoteză alternativă). Semnificația diferențelor este mai mare, cu atât valoarea lui T este mai mică.
  • Dacă Temp. mai mult T cr. , se acceptă ipoteza nulă despre absența semnificației statistice a modificărilor indicatorului.

Un exemplu de calcul al testului Wilcoxon pentru probe aferente

O companie farmaceutică efectuează cercetări asupra unui nou medicament din grupul de medicamente antiinflamatoare nesteroidiene. Pentru aceasta a fost selectat un grup de 10 voluntari care suferă de infecții virale respiratorii acute cu hipertermie. Temperatura corpului lor a fost măsurată înainte și la 30 de minute după administrarea noului medicament. Este necesar să se tragă o concluzie despre semnificația scăderii temperaturii corpului ca urmare a luării medicamentului.

  1. Datele inițiale sunt prezentate sub forma următorului tabel:
  2. Pentru a calcula testul T Wilcoxon, calculăm diferențele dintre indicatorii perechi și ierarhăm valorile absolute ale acestora. În același timp, rangurile atipice vor fi evidențiate cu roșu:
    N Nume de familie t a corpului înainte de a lua medicamentul t a organismului după administrarea medicamentului Diferența de indicatori, d |d| Rang
    1. Ivanov 39.0 37.6 -1.4 1.4 7
    2. Petrov 39.5 38.7 -0.8 0.8 5
    3. Sidorov 38.6 38.7 0.1 0.1 1.5
    4. Popov 39.1 38.5 -0.6 0.6 4
    5. Nikolaev 40.1 38.6 -1.5 1.5 8
    6. Kozlov 39.3 37.5 -1.8 1.8 9
    7. Ignatiev 38.9 38.8 -0.1 0.1 1.5
    8. Semenov 39.2 38.0 -1.2 1.2 6
    9. Egorov 39.8 39.8 0
    10. Alekseev 38.8 39.3 0.5 0.5 3
    După cum vedem schimbare tipică indicatorul este scăderea acestuia, observată în 7 cazuri din 10. Într-un caz (la pacientul Egorov), temperatura nu s-a schimbat după administrarea medicamentului și, prin urmare, acest caz nu a fost utilizat în analize ulterioare. În două cazuri (la pacienții Sidorov și Alekseev) schimbare atipica temperatura în sus. Rangurile corespunzătoare schimbării atipice sunt 1,5 și 3.
  3. Calculăm testul Wilcoxon T, care este egal cu suma rangurilor corespunzătoare deplasării atipice a indicatorului:

    T = ΣRr = 3 + 1,5 = 4,5

  4. Compara temp. cu T cr. , care la nivelul de semnificație p=0,05 și n=9 este egal cu 8. Prin urmare, T emp.
  5. Concluzionăm că scăderea temperaturii corpului la pacienții cu ARVI ca urmare a luării unui nou medicament este semnificativă statistic (p.<0.05).
Afișați tabelul cu valorile critice ale testului T Wilcoxon

Testul lui PEARSON CHI-SQUARE

Testul Pearson χ2 este o metodă neparametrică care vă permite să evaluați semnificația diferențelor dintre numărul real (dezvăluit ca urmare a studiului) de rezultate sau caracteristicile calitative ale eșantionului care se încadrează în fiecare categorie și numărul teoretic care poate fi de aşteptat în loturile studiate dacă ipoteza nulă este adevărată. În termeni mai simpli, metoda vă permite să evaluați semnificația statistică a diferențelor dintre doi sau mai mulți indicatori relativi (frecvențe, acțiuni).

1. Istoricul dezvoltării criteriului χ 2

Testul chi-pătrat pentru analiza tabelelor de contingență a fost dezvoltat și propus în 1900 de un matematician, statistician, biolog și filozof englez, fondatorul statisticii matematice și unul dintre fondatorii biometriei. Karl Pearson(1857-1936).

2. Pentru ce este folosit criteriul χ 2 al lui Pearson?

Testul chi-pătrat poate fi aplicat în analiză tabele de contingență conținând informații despre frecvența rezultatelor în funcție de prezența unui factor de risc. De exemplu, un tabel de contingență cu patru câmpuri arată astfel:

Exodul este (1) Fără ieșire (0) Total
Există un factor de risc (1) A B A+B
Fără factor de risc (0) C D C+D
Total A+C B+D A+B+C+D

Cum să completezi un astfel de tabel de urgență? Să luăm în considerare un mic exemplu.

Un studiu este în curs de desfășurare privind efectul fumatului asupra riscului de a dezvolta hipertensiune arterială. Pentru aceasta, au fost selectate două grupe de subiecți - primul a inclus 70 de persoane care fumează cel puțin 1 pachet de țigări zilnic, al doilea - 80 de nefumători de aceeași vârstă. În primul grup, 40 de persoane aveau hipertensiune arterială. În al doilea - hipertensiunea arterială a fost observată la 32 de persoane. În consecință, tensiunea arterială normală la grupul de fumători a fost la 30 de persoane (70 - 40 = 30) și la grupul de nefumători - la 48 (80 - 32 = 48).

Completăm tabelul de contingență cu patru câmpuri cu datele inițiale:

În tabelul de contingență rezultat, fiecare linie corespunde unui grup specific de subiecți. Coloane - arată numărul de persoane cu hipertensiune arterială sau cu tensiune arterială normală.

Provocarea pentru cercetător este: există diferențe semnificative statistic între frecvența persoanelor cu tensiune arterială între fumători și nefumători? Puteți răspunde la această întrebare calculând testul chi-pătrat al lui Pearson și comparând valoarea rezultată cu cea critică.

  1. Indicatorii comparabili trebuie măsurați pe o scară nominală (de exemplu, sexul pacientului - bărbat sau femeie) sau pe o scară ordinală (de exemplu, gradul de hipertensiune arterială, care ia valori de la 0 la 3).
  2. Această metodă permite analiza nu numai a tabelelor cu patru câmpuri, atunci când atât factorul, cât și rezultatul sunt variabile binare, adică au doar două valori posibile (de exemplu, masculin sau feminin, prezența sau absența unei anumite boli in istorie ...). Testul chi-pătrat al lui Pearson poate fi folosit și în cazul analizei tabelelor cu mai multe câmpuri, când factorul și (sau) rezultatul iau trei sau mai multe valori.
  3. Grupurile de potrivire ar trebui să fie independente, adică testul chi-pătrat nu trebuie utilizat atunci când se compară observațiile înainte-după. Testul McNemar(când se compară două populații înrudite) sau calculate Q-test Cochran(în cazul comparării a trei sau mai multe grupuri).
  4. La analizarea tabelelor cu patru câmpuri valorile asteptateîn fiecare dintre celule trebuie să fie cel puțin 10. În cazul în care în cel puțin o celulă fenomenul așteptat ia o valoare de la 5 la 9, trebuie calculat testul chi-pătrat cu corectie Yates. Dacă în cel puțin o celulă fenomenul așteptat este mai mic de 5, atunci analiza ar trebui să fie utilizată Testul exact al lui Fisher.
  5. În cazul analizei tabelelor cu mai multe câmpuri, numărul așteptat de observații nu trebuie să ia valori mai mici de 5 în mai mult de 20% din celule.

4. Cum se calculează testul chi-pătrat al lui Pearson?

Pentru a calcula testul chi-pătrat, trebuie să:

Acest algoritm este aplicabil atât pentru tabelele cu patru câmpuri, cât și pentru tabelele cu mai multe câmpuri.

5. Cum se interpretează valoarea testului chi-pătrat al lui Pearson?

În cazul în care valoarea obținută a criteriului χ 2 este mai mare decât cea critică, concluzionăm că există o relație statistică între factorul de risc studiat și rezultatul la nivelul corespunzător de semnificație.

6. Un exemplu de calcul al testului chi-pătrat Pearson

Să determinăm semnificația statistică a influenței factorului de fumat asupra incidenței hipertensiunii arteriale conform tabelului de mai sus:

  1. Calculăm valorile așteptate pentru fiecare celulă:
  2. Aflați valoarea testului chi-pătrat al lui Pearson:

    χ 2 \u003d (40-33,6) 2 / 33,6 + (30-36,4) 2 / 36,4 + (32-38,4) 2 / 38,4 + (48-41,6) 2 / 41,6 \u003d 4,396.

  3. Numărul de grade de libertate f = (2-1)*(2-1) = 1. Găsim din tabel valoarea critică a testului chi-pătrat Pearson, care, la un nivel de semnificație de p=0,05 și numărul de grade de libertate 1, este 3.841.
  4. Comparăm valoarea obţinută a testului chi-pătrat cu cea critică: 4,396 > 3,841, prin urmare, dependenţa incidenţei hipertensiunii arteriale de prezenţa fumatului este semnificativă statistic. Nivelul de semnificație al acestei relații corespunde p<0.05.
Afișați tabelul cu valorile critice ale testului chi-pătrat al lui Pearson

CRITERIU EXACT AL LUI FISHER

Testul exact al lui Fisher este un test care este utilizat pentru a compara doi indicatori relativi care caracterizează frecvența unei anumite trăsături care are două valori. Datele inițiale pentru calcularea testului exact al lui Fisher sunt de obicei grupate sub forma unui tabel cu patru câmpuri.

1. Istoricul dezvoltării criteriului

Criteriul a fost propus mai întâi Ronald Fisherîn cartea sa Design of Experiments. Acest lucru s-a întâmplat în 1935. Fisher însuși a susținut că Muriel Bristol a determinat această idee. La începutul anilor 1920, Ronald, Muriel și William Roach se aflau în Anglia la o stație agricolă experimentală. Muriel a pretins că poate determina succesiunea în care ceaiul și laptele au fost turnate în ceașca ei. La acel moment, nu a fost posibil să se verifice corectitudinea declarației sale.

Acest lucru a dat naștere ideii lui Fisher despre „ipoteza nulă”. Scopul nu a fost să încerce să demonstreze că Muriel putea face diferența dintre ceștile de ceai preparate diferit. S-a decis să se infirme ipoteza că o femeie face o alegere la întâmplare. S-a stabilit că ipoteza nulă nu poate fi nici dovedită, nici fundamentată. Dar poate fi respins în timpul experimentelor.

S-au făcut 8 căni. În primele patru se toarnă mai întâi laptele, în celelalte patru - ceaiul. Cupele erau încurcate. Bristol a fost invitat să guste din ceai și să împartă ceștile după metoda de preparare a ceaiului. Rezultatul ar fi trebuit să fie două grupuri. Istoria spune că experimentul a fost un succes.

Datorită testului Fisher, probabilitatea ca Bristol să acționeze intuitiv a fost redusă la 0,01428. Adică s-a putut determina corect cupa într-un caz din 70. Dar totuși, nu există nicio modalitate de a reduce la zero șansele pe care doamna le determină întâmplător. Chiar dacă măriți numărul de cești.

Această poveste a dat impuls dezvoltării „ipotezei nule”. În același timp, a fost propus testul exact al lui Fisher, a cărui esență este enumerarea tuturor combinațiilor posibile de variabile dependente și independente.

2. Pentru ce este folosit exact testul lui Fisher?

Testul exact al lui Fisher este utilizat în principal pentru a compara eșantioane mici. Există două motive semnificative pentru aceasta. În primul rând, calcularea criteriului este destul de greoaie și poate dura mult timp sau necesită resurse de calcul puternice. În al doilea rând, criteriul este destul de precis (ceea ce se reflectă chiar și în numele său), ceea ce îi permite să fie utilizat în studii cu un număr mic de observații.

Un loc special este acordat criteriului exact al lui Fisher în medicină. Aceasta este o metodă importantă de prelucrare a datelor medicale, care și-a găsit aplicarea în multe studii științifice. Datorită acesteia, este posibil să se investigheze relația anumitor factori și rezultate, să se compare frecvența stărilor patologice între două grupuri de subiecți etc.

3. În ce cazuri poate fi folosit testul exact al lui Fisher?

  1. Variabilele comparabile trebuie măsurate pe o scară nominală și să aibă doar două valori, de exemplu, tensiunea arterială este normală sau crescută, rezultatul este favorabil sau nefavorabil, există complicații postoperatorii sau nu.
  2. Testul exact al lui Fisher este conceput pentru a compara două grupuri independente împărțite prin factor. În consecință, factorul trebuie să aibă, de asemenea, doar două valori posibile.
  3. Testul este potrivit pentru compararea eșantioanelor foarte mici: testul exact al lui Fisher poate fi utilizat pentru a analiza tabele cu patru complete în cazul unor fenomene așteptate cu valori mai mici de 5, ceea ce este o limitare pentru aplicare Testul chi-pătrat al lui Pearson, chiar și cu corecția Yates.
  4. Testul exact al lui Fisher poate fi unilateral sau bilateral. Cu o opțiune unilaterală, se știe exact unde se va abate unul dintre indicatori. De exemplu, un studiu compară câți pacienți s-au recuperat în comparație cu un grup de control. Se presupune că terapia nu poate înrăutăți starea pacienților, ci doar fie vindeca, fie nu.
    Testul cu două cozi evaluează diferențele de frecvență în două moduri. Adică, se estimează probabilitatea atât a unei frecvențe mai mari, cât și a unei frecvențe mai scăzute a fenomenului în lotul experimental comparativ cu grupul martor.

Un analog al testului exact al lui Fisher este Testul chi-pătrat al lui Pearson, în timp ce testul exact al lui Fisher are o putere mai mare, mai ales atunci când se compară eșantioane mici și, prin urmare, are un avantaj în acest caz.

4. Cum se calculează testul exact al lui Fisher?

De exemplu, studiem dependența frecvenței de naștere a copiilor cu malformații congenitale (CMD) de fumatul matern în timpul sarcinii. Pentru aceasta, au fost selectate două grupe de gravide, dintre care una experimentală, formată din 80 de femei care au fumat în primul trimestru de sarcină, iar al doilea este un grup de comparație, incluzând 90 de femei care duc un stil de viață sănătos pe toată durata sarcinii. Numărul de cazuri de MC fetală în lotul experimental a fost de 10, în lotul de comparație - 2.

Mai întâi, alcătuim un tabel de contingență cu patru câmpuri:

Testul exact al lui Fisher se calculează folosind următoarea formulă:

unde N este numărul total de subiecți din cele două grupuri; ! - factorial, care este produsul unui număr și a unei secvențe de numere, fiecare dintre ele mai mic decât precedentul cu 1 (de exemplu, 4! = 4 3 2 1)

Ca rezultat al calculelor, constatăm că P = 0,0137.

5. Cum se interpretează valoarea testului exact al lui Fisher?

Avantajul metodei este corespondența criteriului obținut cu valoarea exactă a nivelului de semnificație p. Adică, valoarea de 0,0137 obținută în exemplul nostru este nivelul de semnificație al diferențelor dintre loturile comparate în ceea ce privește incidența CM fetală. Este necesar doar să comparăm acest număr cu nivelul critic de semnificație, de obicei luat în cercetarea medicală ca fiind 0,05.

  • Dacă valoarea testului exact al lui Fisher este mai mare decât cea critică, se acceptă ipoteza nulă și se ajunge la concluzia că nu există diferențe semnificative statistic în frecvența rezultatului în funcție de prezența unui factor de risc.
  • Dacă valoarea testului exact al lui Fisher este mai mică decât cea critică, se acceptă o ipoteză alternativă și se face o concluzie despre prezența unor diferențe semnificative statistic în frecvența rezultatului în funcție de impactul factorului de risc.

În exemplul nostru P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


Raportul de cote

Odds ratio este un indicator statistic (în rusă numele său este de obicei prescurtat ca OSH, iar în engleză - OR de la „odds ratio”), una dintre principalele modalități de a descrie în termeni numerici cât de mult este absența sau prezența unui anumit rezultat. este asociată cu prezența sau absența unui anumit factor într-un anumit grup statistic.

1. Istoricul dezvoltării indicatorului odds ratio

Termenul de „șansă” provine din teoria jocurilor de noroc, unde cu ajutorul acestui concept au desemnat raportul dintre pozițiile câștigătoare și cele pierdute. În literatura medicală științifică, indicatorul odds ratio a fost menționat pentru prima dată în 1951 în lucrarea lui J. Kornfield. Ulterior, acest cercetător a publicat lucrări care au remarcat necesitatea de a calcula un interval de încredere de 95% pentru raportul cotelor. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269–1275.)

2. La ce se folosește cota de cote?

Raportul de cote vă permite să evaluați relația dintre un anumit rezultat și un factor de risc.

Raportul de cote vă permite să comparați grupuri de subiecți în ceea ce privește frecvența identificării unui anumit factor de risc. Este important ca rezultatul aplicării raportului de cote să nu fie doar determinarea semnificației statistice a relației dintre factor și rezultat, ci și evaluarea cantitativă a acestuia.

3. Condiții și restricții privind aplicarea raportului de cote

  1. Indicatorii de performanță și factori ar trebui măsurați la o scară nominală. De exemplu, semnul rezultat este prezența sau absența unei malformații congenitale la făt, factorul studiat este fumatul mamei (fumat sau nu).
  2. Această metodă permite analiza doar a tabelelor cu patru câmpuri, atunci când atât factorul, cât și rezultatul sunt variabile binare, adică au doar două valori posibile (de exemplu, sex - masculin sau feminin, hipertensiune arterială - prezență sau absență , rezultatul bolii - cu sau fără ameliorare ...).
  3. Grupurile potrivite ar trebui să fie independente, adică raportul de cote nu este potrivit pentru compararea observațiilor înainte-după.
  4. Indicatorul odds ratio este utilizat în studiile caz-control (de exemplu, primul grup - pacienți cu hipertensiune arterială, al doilea - persoane relativ sănătoase). Pentru studiile prospective, atunci când grupurile sunt formate pe baza prezenței sau absenței unui factor de risc (de exemplu, primul grup - fumători, al doilea grup - nefumători), poate fi de asemenea calculat risc relativ.

4. Cum se calculează raportul de cote?

Odds ratio este valoarea fracției, în numărătorul căreia sunt șansele unui anumit eveniment pentru prima grupă, iar la numitor sunt șansele aceluiași eveniment pentru a doua grupă.

şansă este raportul dintre numărul de subiecți care au o anumită caracteristică (rezultat sau factor) și numărul de subiecți care nu au această caracteristică.

De exemplu, a fost selectat un grup de pacienți operați de necroză pancreatică, numărul cărora a fost de 100 de persoane. După 5 ani, 80 dintre ei au supraviețuit. În consecință, șansa de supraviețuire a fost de 80 până la 20 sau 4.

O modalitate convenabilă este de a calcula raportul de cote cu date rezumate într-un tabel 2x2:

Exodul este (1) Fără ieșire (0) Total
Există un factor de risc (1) A B A+B
Fără factor de risc (0) C D C+D
Total A+C B+D A+B+C+D

Pentru acest tabel, raportul de cote este calculat folosind următoarea formulă:

Este foarte important să se evalueze semnificația statistică a relației identificate între rezultat și factorul de risc. Acest lucru se datorează faptului că, chiar și cu valori scăzute ale cotelor apropiate de unu, relația, cu toate acestea, se poate dovedi a fi semnificativă și ar trebui luată în considerare în concluziile statistice. În schimb, la valori mari OR, indicatorul se dovedește a fi nesemnificativ statistic și, prin urmare, relația dezvăluită poate fi neglijată.

Pentru a evalua semnificația odds ratio, se calculează limitele intervalului de încredere de 95% (se folosește abrevierea 95% CI sau 95% CI din engleza „interval de încredere”). Formula pentru găsirea valorii limitei superioare a 95% CI:

Formula pentru găsirea valorii limitei inferioare a 95% CI:

5. Cum se interpretează valoarea cotelor?

  • Dacă raportul de șanse este mai mare de 1, atunci aceasta înseamnă că șansele de a găsi un factor de risc sunt mai mari în grupul cu un rezultat. Acestea. factorul are o relație directă cu probabilitatea unui rezultat.
  • Un raport de șanse mai mic de 1 indică faptul că șansele de a găsi un factor de risc sunt mai mari în al doilea grup. Acestea. factorul are o relație inversă cu probabilitatea rezultatului.
  • Cu o cotă egală cu unu, șansele de a găsi un factor de risc în grupurile comparate sunt aceleași. În consecință, factorul nu are niciun efect asupra probabilității rezultatului.

În plus, în fiecare caz, semnificația statistică a raportului de cote este în mod necesar evaluată pe baza valorilor intervalului de încredere de 95%.

  • Dacă intervalul de încredere nu include 1, i.e. ambele valori ale limitelor sunt fie peste, fie sub 1, se face o concluzie despre semnificația statistică a relației identificate dintre factor și rezultat la un nivel de semnificație de p<0,05.
  • Dacă intervalul de încredere include 1, i.e. limita sa superioară este mai mare decât 1, iar limita inferioară este mai mică de 1, se ajunge la concluzia că nu există o semnificație statistică a relației dintre factor și rezultat la un nivel de semnificație de p>0,05.
  • Valoarea intervalului de încredere este invers proporțională cu nivelul de semnificație al relației dintre factor și rezultat, i.e. cu cât este mai mic IC de 95%, cu atât este mai semnificativă relația identificată.

6. Un exemplu de calcul al indicatorului odds ratio

Imaginează-ți două grupuri: primul era format din 200 de femei care au fost diagnosticate cu o malformație congenitală a fătului (Rezultat+). Dintre aceștia, fumat în timpul sarcinii (Factor+) - 50 de persoane (A), au fost nefumători (Factor-) - 150 persoane (CU).

Al doilea grup a fost format din 100 de femei fără semne de malformații fetale (Rezultat -), dintre care 10 persoane au fumat în timpul sarcinii (Factor +) (B), nu a fumat (Factor-) - 90 de persoane (D).

1. Alcătuiește un tabel de contingență cu patru câmpuri:

2. Calculați valoarea cotelor:

SAU = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Găsiți limitele IC 95%. Valoarea limitei inferioare calculată conform formulei de mai sus a fost 1,45, iar limita superioară a fost 6,21.

Astfel, studiul a arătat că șansele de a întâlni o femeie fumătoare în rândul pacienților diagnosticați cu MC fetală sunt de 3 ori mai mari decât în ​​rândul femeilor fără semne de MC fetală. Dependența observată este semnificativă statistic, deoarece 95% din CI nu include 1, valorile limitelor sale inferioare și superioare sunt mai mari decât 1.


RISC RELATIV

Riscul este probabilitatea unui anumit rezultat, cum ar fi o boală sau o rănire. Riscul poate lua valori de la 0 (nu există probabilitate de rezultat) la 1 (se așteaptă un rezultat nefavorabil în toate cazurile). În statisticile medicale, de regulă, sunt studiate modificări ale riscului unui rezultat în funcție de un anumit factor. Pacienții sunt împărțiți condiționat în 2 grupuri, dintre care unul este afectat de factor, celălalt nu.

Riscul relativ este raportul dintre frecvența rezultatelor în rândul subiecților afectați de factorul studiat și frecvența rezultatelor în rândul subiecților neafectați de acel factor. În literatura științifică, denumirea prescurtată a indicatorului este adesea folosită - RR sau RR (din engleză „risc relativ”).

1. Istoricul dezvoltării indicatorului de risc relativ

Calculul riscului relativ este împrumutat de statisticile medicale din economie. O evaluare corectă a influenței factorilor politici, economici și sociali asupra cererii pentru un produs sau serviciu poate duce la succes, iar o subestimare a acestor factori poate duce la eșecuri financiare și falimentul întreprinderii.

2. Pentru ce se utilizează riscul relativ?

Riscul relativ este utilizat pentru a compara probabilitatea unui rezultat în funcție de prezența unui factor de risc. De exemplu, atunci când se evaluează efectul fumatului asupra incidenței hipertensiunii, când se studiază dependența incidenței cancerului de sân de contraceptivele orale etc. Riscul relativ este cel mai important indicator în prescrierea anumitor tratamente sau efectuarea de studii cu posibile efecte secundare.

3. Condiții și restricții privind utilizarea riscului relativ

  1. Măsurile factorilor și ale rezultatului trebuie măsurate pe o scară nominală (de exemplu, sexul pacientului, bărbat sau femeie, hipertensiune arterială prezentă sau nu).
  2. Această metodă permite analiza numai a tabelelor cu patru câmpuri atunci când atât factorul, cât și rezultatul sunt variabile inare, adică au doar două valori posibile (de exemplu, vârsta sub sau peste 50 de ani, prezența sau absența unui anumit boala din istorie).
  3. Riscul relativ este utilizat în studiile prospective, atunci când grupurile de studiu se formează pe baza prezenței sau absenței unui factor de risc. În studiile caz-control, riscul relativ ar trebui înlocuit cu indicator cota de cote.

4. Cum se calculează riscul relativ?

Pentru a calcula riscul relativ, este necesar:

5. Cum se interpretează valoarea relativă a riscului?

Scorul de risc relativ este comparat cu 1 pentru a determina natura relației dintre factor și rezultat:

  • Dacă RR este 1, se poate concluziona că factorul studiat nu afectează probabilitatea rezultatului (nicio relație între factor și rezultat).
  • La valori mai mari de 1, se concluzionează că factorul crește frecvența rezultatelor (relație directă).
  • La valori mai mici de 1 - aproximativ o scădere a probabilității unui rezultat sub influența unui factor (feedback).

Valorile limitelor intervalului de încredere de 95% sunt, de asemenea, estimate în mod necesar. Dacă ambele valori - atât limita inferioară, cât și limita superioară - sunt de aceeași parte a lui 1 sau, cu alte cuvinte, intervalul de încredere nu include 1, atunci se face o concluzie despre semnificația statistică a relației identificate dintre factor și rezultatul cu probabilitatea de eroare p<0,05.

Dacă limita inferioară a IC de 95% este mai mică de 1, iar limita superioară este mai mare, atunci se ajunge la concluzia că nu există o semnificație statistică a influenței factorului asupra ratei rezultatului, indiferent de valoarea RR (p> 0,05).

6. Un exemplu de calcul al indicatorului de risc relativ

În 1999, în Oklahoma au fost efectuate studii privind incidența bărbaților cu ulcer gastric. Consumul regulat de fast-food a fost ales ca factor de influență. În primul grup au fost 500 de bărbați care mănâncă constant fast-food, printre care ulcere gastrice au fost diagnosticate la 96 de persoane. Al doilea grup a inclus 500 de susținători ai unei diete sănătoase, printre care a fost diagnosticat un ulcer gastric în 31 de cazuri. Pe baza datelor obținute s-a construit următorul tabel de urgență:


CRITERIU DE CORELARE PEARSON

Testul de corelație al lui Pearson este o metodă statistică parametrică care vă permite să determinați prezența sau absența unei relații liniare între doi indicatori cantitativi, precum și să evaluați apropierea și semnificația statistică a acesteia. Cu alte cuvinte, testul de corelație Pearson vă permite să determinați dacă un indicator se modifică (crește sau scade) ca răspuns la schimbările din altul? În calculele statistice și inferențe, coeficientul de corelație este de obicei notat ca r xy sau R xy .

1. Istoricul dezvoltării criteriului de corelare

Testul de corelație Pearson a fost dezvoltat de o echipă de oameni de știință britanici condusă de Karl Pearson(1857-1936) în anii 90 ai secolului al XIX-lea, pentru a simplifica analiza covarianței a două variabile aleatoare. Pe lângă Karl Pearson, s-a lucrat și testul de corelație al lui Pearson Francis EdgeworthȘi Raphael Weldon.

2. Pentru ce este folosit testul de corelație Pearson?

Criteriul de corelare Pearson vă permite să determinați care este apropierea (sau puterea) corelației dintre doi indicatori măsurați pe o scară cantitativă. Cu ajutorul unor calcule suplimentare, puteți determina și cât de semnificativă este statistic relația identificată.

De exemplu, folosind criteriul de corelare Pearson, se poate răspunde la întrebarea dacă există o relație între temperatura corpului și conținutul de leucocite din sânge în infecțiile respiratorii acute, între înălțimea și greutatea pacientului, între conținutul de fluor. în apa potabilă şi incidenţa cariilor în populaţie.

3. Condiții și restricții privind utilizarea testului chi-pătrat al lui Pearson

  1. Indicatorii comparabili trebuie măsurați pe o scară cantitativă (de exemplu, ritmul cardiac, temperatura corpului, numărul de leucocite la 1 ml de sânge, tensiunea arterială sistolica).
  2. Prin intermediul criteriului de corelație Pearson, este posibil să se determine doar prezența și puterea unei relații liniare între cantități. Alte caracteristici ale conexiunii, inclusiv direcția (directă sau inversă), natura modificărilor (dreaptă sau curbilinie), precum și dependența unei variabile de alta, sunt determinate folosind analiza regresiei.
  3. Numărul de valori care trebuie comparate trebuie să fie egal cu două. În cazul analizei relației dintre trei sau mai mulți parametri, ar trebui să utilizați metoda analiza factorilor.
  4. Testul de corelație Pearson este parametric și, prin urmare, condiția pentru aplicarea lui este distribuția normală a fiecăreia dintre variabilele comparate. Dacă este necesar să se efectueze o analiză de corelare a indicatorilor a căror distribuție diferă de cea normală, inclusiv a celor măsurați la scară ordinală, ar trebui să se folosească Coeficientul de corelare a rangului lui Spearman.
  5. Este necesar să se facă distincția clară între conceptele de dependență și corelație. Dependența valorilor determină prezența unei corelații între ele, dar nu invers.

De exemplu, creșterea unui copil depinde de vârsta lui, adică cu cât copilul este mai mare, cu atât este mai înalt. Dacă luăm doi copii de vârste diferite, atunci cu un grad mare de probabilitate creșterea copilului mai mare va fi mai mare decât cea a celui mai mic. Acest fenomen se numește dependență, implicând o relație cauzală între indicatori. Desigur, există și o corelație între ele, ceea ce înseamnă că modificările unui indicator sunt însoțite de modificări ale altui indicator.

Într-o altă situație, luați în considerare relația dintre creșterea copilului și ritmul cardiac (HR). După cum știți, ambele aceste valori depind direct de vârstă, prin urmare, în cele mai multe cazuri, copiii de statură mai mare (și, prin urmare, cei mai în vârstă) vor avea valori mai scăzute ale ritmului cardiac. Adică se va observa o corelație și poate avea o etanșeitate destul de mare. Totuși, dacă luăm copii de aceeași vârstă, dar înălțimi diferite, atunci, cel mai probabil, ritmul cardiac al acestora va diferi nesemnificativ și, prin urmare, putem concluziona că ritmul cardiac este independent de creștere.

Acest exemplu arată cât de important este să se facă distincția între conceptele de conexiune și dependență ale indicatorilor, care sunt fundamentale în statistică, pentru a trage concluzii corecte.

4. Cum se calculează coeficientul de corelație Pearson?

Coeficientul de corelație al lui Pearson se calculează folosind următoarea formulă:

5. Cum se interpretează valoarea coeficientului de corelație Pearson?

Valorile coeficientului de corelație Pearson sunt interpretate pe baza valorilor sale absolute. Valorile posibile ale coeficientului de corelație variază de la 0 la ±1. Cu cât valoarea absolută a lui r xy este mai mare, cu atât este mai mare apropierea relației dintre cele două mărimi. r xy = 0 indică o lipsă completă de conexiune. r xy = 1 - indică prezența unei conexiuni absolute (funcționale). Dacă valoarea criteriului de corelație Pearson s-a dovedit a fi mai mare de 1 sau mai mică de -1, a fost făcută o eroare în calcule.

Pentru a evalua apropierea sau puterea corelației, se folosesc criterii general acceptate, conform cărora valorile absolute ale rxy< 0.3 свидетельствуют о slab conexiune, valorile r xy de la 0,3 la 0,7 - despre conexiune mijloc etanșeitate, valori r xy > 0,7 - o puternic conexiuni.

O evaluare mai precisă a puterii corelației poate fi obținută folosind tabelul Chaddock:

Evaluarea semnificației statistice a coeficientului de corelație r xy se realizează cu ajutorul unui test t calculat folosind următoarea formulă:

Se compară valoarea t r obţinută cu valoarea critică la un anumit nivel de semnificaţie şi cu numărul de grade de libertate n-2. Dacă t r depășește t crit, atunci se face o concluzie despre semnificația statistică a corelației identificate.

6. Un exemplu de calcul al coeficientului de corelație Pearson

Scopul studiului a fost de a identifica, determina etanșeitatea și semnificația statistică a corelației dintre doi indicatori cantitativi: nivelul de testosteron din sânge (X) și procentul de masă musculară din organism (Y). Datele inițiale pentru un eșantion format din 5 subiecți (n = 5) sunt rezumate în tabel:


CRITERUL SPEERMAN

Coeficientul de corelație a rangului lui Spearman este o metodă neparametrică care este utilizată pentru a studia statistic relația dintre fenomene. În acest caz, se determină gradul real de paralelism între cele două serii cantitative ale trăsăturilor studiate și se estimează strângerea relației stabilite folosind un coeficient exprimat cantitativ.

1. Istoricul dezvoltării coeficientului de corelație de rang

Acest criteriu a fost dezvoltat și propus pentru analiza corelației în 1904 Charles Edward Spearman, psiholog englez, profesor la universitățile din Londra și Chesterfield.

2. Pentru ce este folosit raportul Spearman?

Coeficientul de corelație a rangului lui Spearman este utilizat pentru a identifica și a evalua strânsoarea relației dintre două serii de indicatori cantitativi comparați. În cazul în care rândurile indicatorilor, sortați după gradul de creștere sau scădere, în cele mai multe cazuri coincid (o valoare mai mare a unui indicator corespunde unei valori mai mari a altui indicator - de exemplu, când se compară înălțimea unui pacient și greutatea corporală a acestuia) , se face o concluzie despre prezenta Drept corelație. Dacă rândurile indicatorilor au direcția opusă (o valoare mai mare a unui indicator corespunde unei valori mai mici a celuilalt - de exemplu, când se compară vârsta și ritmul cardiac), atunci vorbesc despre verso legături între indicatori.

    Coeficientul de corelație Spearman are următoarele proprietăți:
  1. Coeficientul de corelație poate lua valori de la minus unu la unu, iar la rs=1 există o relație strict directă, iar la rs= -1 - relație strict inversă.
  2. Dacă coeficientul de corelație este negativ, atunci există o relație inversă; dacă este pozitiv, atunci există o relație directă.
  3. Dacă coeficientul de corelație este egal cu zero, atunci relația dintre cantități este practic absentă.
  4. Cu cât modulul coeficientului de corelație este mai aproape de unitate, cu atât relația dintre valorile măsurate este mai puternică.

3. În ce cazuri poate fi utilizat coeficientul Spearman?

Datorită faptului că coeficientul este o metodă de analiză neparametrică, nu este necesară verificarea normalității distribuției.

Indicatorii comparabili pot fi măsurați atât pe o scară continuă (de exemplu, numărul de eritrocite în 1 μl de sânge), cât și pe o scară ordinală (de exemplu, scoruri de evaluare de la 1 la 5).

Eficacitatea și calitatea estimării lui Spearman este redusă dacă diferența dintre diferitele valori ale oricăreia dintre cantitățile măsurate este suficient de mare. Nu se recomandă utilizarea coeficientului Spearman dacă există o distribuție neuniformă a valorilor măsurate.

4. Cum se calculează raportul lui Spearman?

Calculul coeficientului de corelare a rangului Spearman include următorii pași:

5. Cum se interpretează valoarea coeficientului Spearman?

Atunci când se utilizează coeficientul de corelare a rangului, apropierea conexiunii dintre semne este estimată condiționat, luând în considerare valorile coeficientului mai mici de 0,3 - un semn de apropiere slabă a conexiunii; valorile mai mari de 0,3 dar mai mici de 0,7 sunt un semn de apropiere moderată de asociere, iar valorile de 0,7 sau mai mari sunt un semn de apropiere mare de asociere.

De asemenea, pentru a evalua proximitatea conexiunii, se poate folosi scara Chaddock.

Semnificația statistică a coeficientului obținut este evaluată cu ajutorul testului t Student. Dacă valoarea calculată a criteriului t este mai mică decât valoarea tabelară pentru un număr dat de grade de libertate, semnificația statistică a relației observate este absentă. Dacă mai mult, atunci corelația este considerată semnificativă statistic.


METODA KOLMOGOROV-SMIRNOV

Testul Kolmogorov-Smirnov este un test neparametric de bunătate a potrivirii, în sensul clasic, conceput pentru a testa ipoteze simple despre eșantionul analizat aparținând unei legi de distribuție cunoscute. Cea mai cunoscută aplicare a acestui criteriu este testarea populațiilor studiate pentru distribuția normală.

1. Istoricul dezvoltării criteriului Kolmogorov-Smirnov

Criteriul Kolmogorov-Smirnov a fost dezvoltat de matematicienii sovietici Andrei Nikolaevici KolmogorovȘi Nikolai Vasilievici Smirnov.
Kolmogorov A.N. (1903-1987) - Erou al Muncii Socialiste, profesor la Universitatea de Stat din Moscova, academician al Academiei de Științe a URSS - cel mai mare matematician al secolului XX, este unul dintre fondatorii teoriei probabilităților moderne.
Smirnov N.V. (1900-1966) Membru corespondent al Academiei de Științe a URSS, unul dintre fondatorii metodelor neparametrice de statistică matematică și a teoriei distribuțiilor limită a statisticii de ordine.

Ulterior, testul de bunătate Kolmogorov-Smirnov a fost modificat pentru a fi utilizat pentru a testa populațiile pentru distribuția normală de către un statistician american, profesor la Universitatea George Washington. Hubert Lilliefors(Hubert Whitman Lilliefors, 1928-2008). Profesorul Lilliefors a fost unul dintre pionierii în utilizarea tehnologiei computerizate în calculele statistice.

Hubert Lilliefors

2. Pentru ce este folosit criteriul Kolmogorov-Smirnov?

Acest criteriu face posibilă evaluarea semnificației diferențelor dintre distribuțiile a două eșantioane, inclusiv posibila sa utilizare pentru a evalua dacă distribuția eșantionului studiat corespunde legii distribuției normale.

3. În ce cazuri poate fi utilizat criteriul Kolmogorov-Smirnov?

Testul Kolmogorov-Smirnov este conceput pentru a testa normalitatea distribuției seturilor de date cantitative.

Pentru o mai mare fiabilitate a datelor obținute, volumele eșantioanelor considerate ar trebui să fie suficient de mari: n ≥ 50. Cu dimensiunea populației estimate de la 25 la 50 de elemente, este recomandabil să se folosească corecția Bolșev.

4. Cum se calculează criteriul Kolmogorov-Smirnov?

Criteriul Kolmogorov-Smirnov este calculat folosind programe statistice speciale. Se bazează pe statistici de forma:

Unde sup S este cea mai mică limită superioară a mulțimii S, F n- functia de distributie a populatiei studiate, F(x)- functie de distributie normala

Valorile probabilității deduse se bazează pe ipoteza că media și abaterea standard a distribuției normale sunt cunoscute a priori și nu sunt estimate din date.

Cu toate acestea, în practică, parametrii sunt de obicei calculați direct din date. În acest caz, testul de normalitate include o ipoteză complexă („cât de probabil este să se obțină o statistică D de semnificație dată sau mai mare, în funcție de media și deviația standard calculate din date”) și probabilitățile Lilliefors (Lilliefors, 1967) sunt date.

5. Cum se interpretează valoarea criteriului Kolmogorov-Smirnov?

Dacă D statistica Kolmogorov-Smirnov este semnificativă (p<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


Ca urmare a stăpânirii acestui capitol, studentul trebuie să: stiu

  • indicatori de variație și relația lor;
  • legile de bază ale distribuției caracteristicilor;
  • esența criteriilor de consimțământ; a fi capabil să
  • calculați ratele de variație și bunătatea potrivirii;
  • determinați caracteristicile distribuțiilor;
  • evaluarea principalelor caracteristici numerice ale serii de distribuție statistică;

proprii

  • metode de analiză statistică a seriilor de distribuție;
  • elementele de bază ale analizei dispersiei;
  • metode de verificare a seriilor de distribuţie statistică pentru respectarea legilor de bază ale distribuţiei.

Indicatori de variație

În studiul statistic al caracteristicilor diferitelor populații statistice, este de mare interes să se studieze variația caracteristicii unităților statistice individuale ale populației, precum și natura distribuției unităților în funcție de această caracteristică. Variație - acestea sunt diferențele dintre valorile individuale ale trăsăturii între unitățile populației studiate. Studiul variației este de mare importanță practică. După gradul de variație, se pot judeca limitele variației trăsăturii, omogenitatea populației pentru această trăsătură, tipicitatea mediei, relația factorilor care determină variația. Indicatorii de variație sunt utilizați pentru a caracteriza și organiza populațiile statistice.

Rezultatele sintetizării și grupării materialelor de observație statistică, întocmite sub formă de serii de distribuție statistică, reprezintă o distribuție ordonată a unităților populației studiate pe grupe după un atribut (variabil) de grupare. Dacă o trăsătură calitativă este luată ca bază pentru grupare, atunci se numește o astfel de serie de distribuție atributiv(distribuirea pe profesie, gen, culoare etc.). Dacă seria de distribuție este construită pe o bază cantitativă, atunci se numește o astfel de serie variațională(distribuția pe înălțime, greutate, salariu etc.). A construi o serie variațională înseamnă a ordona distribuția cantitativă a unităților de populație în funcție de valorile atributului, a număra numărul de unități de populație cu aceste valori (frecvență), a aranja rezultatele într-un tabel.

În locul frecvenței unei variante, este posibil să se folosească raportul acesteia la volumul total de observații, care se numește frecvență (frecvență relativă).

Există două tipuri de serie de variații: discrete și interval. Serii discrete- aceasta este o astfel de serie variațională, a cărei construcție se bazează pe semne cu schimbare discontinuă (semne discrete). Acestea din urmă includ numărul de angajați din întreprindere, categoria salarială, numărul de copii din familie etc. O serie variațională discretă este un tabel care constă din două coloane. Prima coloană indică valoarea specifică a atributului, iar a doua - numărul de unități de populație cu o anumită valoare a atributului. Dacă un semn are o schimbare continuă (valoarea venitului, vechimea în muncă, costul activelor fixe ale unei întreprinderi etc., care în anumite limite poate lua orice valoare), atunci pentru acest semn este posibil să se construiască serie de variații de interval. Tabelul când se construiește o serie de variații de interval are și două coloane. Primul indică valoarea caracteristicii în intervalul „de la - la” (opțiuni), al doilea - numărul de unități incluse în interval (frecvență). Frecvență (frecvența de repetare) - numărul de repetări ale unei anumite variante a valorilor atributelor. Intervalele pot fi închise și deschise. Intervalele închise sunt limitate pe ambele părți, adică au o margine atât inferioară („de la”), cât și superioară („la”). Intervalele deschise au orice margine: fie superioară, fie inferioară. Dacă opțiunile sunt aranjate în ordine crescătoare sau descrescătoare, atunci rândurile sunt apelate clasat.

Pentru seriile variaționale, există două tipuri de opțiuni de răspuns în frecvență: frecvența cumulată și frecvența cumulativă. Frecvența cumulativă arată câte observații a luat valoarea caracteristicii la valori mai mici decât valoarea specificată. Frecvența cumulativă este determinată prin însumarea valorilor frecvenței caracteristice pentru un grup dat cu toate frecvențele grupurilor anterioare. Frecvența acumulată caracterizează proporția de unități de observație în care valorile caracteristicii nu depășesc limita superioară a grupului de zile. Astfel, frecvența acumulată arată ponderea specifică a variantei în agregat, care au o valoare nu mai mare decât cea dată. Frecvența, frecvența, densitățile absolute și relative, frecvența cumulativă și frecvența sunt caracteristici ale mărimii variantei.

Variațiile semnului unităților statistice ale populației, precum și natura distribuției, sunt studiate folosind indicatori și caracteristici ale seriei de variații, care includ nivelul mediu al seriei, abaterea liniară medie, abaterea standard, dispersia. , coeficienți de oscilație, variație, asimetrie, curtoză etc.

Valorile medii sunt folosite pentru a caracteriza centrul de distribuție. Media este o caracteristică statistică generalizantă, în care se cuantifică nivelul tipic al unei trăsături deținute de membrii populației studiate. Cu toate acestea, pot exista cazuri în care mediile aritmetice coincid cu o natură diferită a distribuției, prin urmare, ca caracteristici statistice ale seriei de variații, sunt calculate așa-numitele medii structurale - mod, mediană, precum și cuantile care împart distribuția. serie în părți egale (cuartile, decile, percentile etc.).

Modă - aceasta este valoarea caracteristicii care apare mai frecvent în seria de distribuție decât celelalte valori ale acesteia. Pentru seriale discrete, aceasta este varianta cu cea mai mare frecvență. În serii variaționale de interval, pentru a determina modul, este necesar în primul rând să se determine intervalul în care se află, așa-numitul interval modal. Într-o serie variațională cu intervale egale, intervalul modal este determinat de cea mai mare frecvență, în seria cu intervale inegale - dar de cea mai mare densitate de distribuție. Apoi, pentru a determina modul în rânduri cu intervale egale, aplicați formula

unde Mo este valoarea modei; x Mo - limita inferioară a intervalului modal; h- lățimea intervalului modal; / Mo - frecvența intervalului modal; / Mo j - frecvența intervalului pre-modal; / Mo+1 este frecvența intervalului post-modal, iar pentru o serie cu intervale inegale în această formulă de calcul, în locul frecvențelor / Mo, / Mo, / Mo trebuie folosite densitățile de distribuție. Minte 0 _| , Minte 0> UMO+"

Dacă există un singur mod, atunci distribuția de probabilitate a variabilei aleatoare se numește unimodală; dacă există mai multe moduri, se numește multimodal (polimodal, multimodal), în cazul a două moduri - bimodal. De regulă, multimodalitatea indică faptul că distribuția studiată nu respectă legea distribuției normale. Populațiile omogene, de regulă, sunt caracterizate prin distribuții unimodale. Multivertixul indică, de asemenea, eterogenitatea populației studiate. Apariția a două sau mai multe vârfuri face necesară regruparea datelor pentru a izola grupuri mai omogene.

Într-o serie de variații de interval, modul poate fi determinat grafic folosind o histogramă. Pentru a face acest lucru, două linii care se intersectează sunt trasate de la punctele superioare ale celei mai înalte coloane a histogramei până la punctele superioare ale două coloane adiacente. Apoi, din punctul de intersecție a acestora, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristică de pe abscisă corespunzătoare perpendicularei este modul. În multe cazuri, când se caracterizează populația ca indicator generalizat, se acordă preferință modului, mai degrabă decât mediei aritmetice.

Mediana - aceasta este valoarea centrală a caracteristicii; este deținută de membrul central al seriei de distribuție clasificată. În seria discretă, pentru a găsi valoarea medianei, se determină mai întâi numărul de serie al acesteia. Pentru a face acest lucru, cu un număr impar de unități, se adaugă una la suma tuturor frecvențelor, numărul este împărțit la doi. Dacă există un număr par de 1, vor exista 2 1 mediani în serie, deci în acest caz mediana este definită ca media valorilor celor 2 1 mediani. Astfel, mediana într-o serie de variații discrete este valoarea care împarte seria în două părți care conțin același număr de opțiuni.

În seria de intervale, după determinarea numărului ordinal al medianei, intervalul median este găsit de frecvențele (frecvențele) acumulate și apoi, folosind formula de calcul a mediei, se determină valoarea medianei în sine:

unde Me este valoarea medianei; x eu - limita inferioară a intervalului median; h- lățimea mediană a intervalului; - suma frecventelor seriei de distributie; /D - frecvența acumulată a intervalului pre-median; / Me - frecvența intervalului median.

Mediana poate fi găsită grafic folosind cumulat. Pentru a face acest lucru, pe scara frecvențelor (frecvențelor) acumulate ale cumulatului, din punctul corespunzător numărului ordinal al medianei, se trasează o dreaptă paralelă cu axa absciselor până se intersectează cu cumulul. În plus, din punctul de intersecție a dreptei indicate cu cumulul, o perpendiculară este coborâtă pe axa absciselor. Valoarea caracteristicii de pe axa x corespunzătoare ordonatei desenate (perpendiculară) este mediana.

Mediana este caracterizată de următoarele proprietăți.

  • 1. Nu depinde de acele valori de atribut care sunt situate pe ambele părți ale acestuia.
  • 2. Are proprietatea de minimalitate, ceea ce înseamnă că suma abaterilor absolute ale valorilor atributelor de la mediană este valoarea minimă în comparație cu abaterea valorilor atributelor de la orice altă valoare.
  • 3. Când se combină două distribuții cu mediane cunoscute, este imposibil să se prezică în avans valoarea mediană a noii distribuții.

Aceste proprietăți ale medianei sunt utilizate pe scară largă în proiectarea locației punctelor de serviciu public - școli, clinici, benzinării, pompe de apă etc. De exemplu, dacă se plănuiește construirea unei policlinici într-un anumit cartier al orașului, atunci este mai oportun să o amplasăm într-un punct al cartierului care nu traversează lungimea cartierului, ci numărul de locuitori.

Raportul dintre mod, mediană și medie aritmetică indică natura distribuției trăsăturii în agregat, vă permite să evaluați simetria distribuției. Dacă x Me atunci există o asimetrie dreapta a seriei. Cu o distribuție normală X - Notificare.

K. Pearson, pe baza alinierii diferitelor tipuri de curbe, a determinat că pentru distribuțiile moderat asimetrice sunt valabile următoarele relații aproximative între media aritmetică, mediană și mod:

unde Me este valoarea medianei; Mo - valoarea modei; x aritmetică - valoarea mediei aritmetice.

Dacă este nevoie de a studia mai detaliat structura seriei de variații, atunci se calculează valorile caracteristice, similare cu mediana. Astfel de valori caracteristice împart toate unitățile de distribuție în numere egale, ele se numesc cuantile sau gradienți. Quantilele sunt împărțite în quartile, decile, percentile etc.

Quartilele împart populația în patru părți egale. Prima cuartilă este calculată în mod similar cu mediana folosind formula de calcul a primei cuartile, după ce a determinat în prealabil primul interval trimestrial:

unde Qi este valoarea primei quartile; xQ^- limita inferioară a primului interval de quartile; h- lăţimea primului interval trimestrial; /, - frecvențele seriei de intervale;

Frecvența acumulată în intervalul care precede primul interval de quartile; Jq ( - frecvența primului interval de quartile.

Prima quartila arată că 25% din unitățile populației sunt mai mici decât valoarea sa, iar 75% sunt mai multe. A doua cuartilă este egală cu mediana, adică. Q2 = pe mine.

Prin analogie, se calculează a treia cuartilă, după ce a fost găsit anterior al treilea interval trimestrial:

unde este limita inferioară a intervalului al treilea quartil; h- lăţimea intervalului al treilea quartil; /, - frecvențele seriei de intervale; /X"- frecventa acumulata in intervalul precedent

G

intervalul al treilea quartila; Jq - frecvența intervalului al treilea quartil.

A treia quartila arată că 75% din unitățile populației sunt mai mici decât valoarea sa, iar 25% sunt mai multe.

Diferența dintre al treilea și primul quartile este intervalul intercuartil:

unde Aq este valoarea intervalului intercuartil; Q 3 - valoarea celui de-al treilea quartile; Q, - valoarea primei quartile.

Decilele împart populația în 10 părți egale. Un decil este o valoare a unei caracteristici dintr-o serie de distribuție care corespunde unor zecimi din populație. Prin analogie cu quartilele, prima decilă arată că 10% din unitățile populației sunt mai mici decât valoarea sa, iar 90% sunt mai multe, iar a noua decilă arată că 90% din unitățile populației sunt mai mici decât valoarea sa, iar 10% sunt Mai mult. Raportul dintre al nouălea și primul decil, adică coeficientul decil, utilizat pe scară largă în studiul diferențierii veniturilor pentru a măsura raportul dintre nivelurile de venit a 10% din populația cea mai bogată și 10% din populația cea mai puțin bogată. Percentilele împart populația clasată în 100 de părți egale. Calculul, semnificația și utilizarea percentilelor sunt similare cu decilele.

Quartilele, decilele și alte caracteristici structurale pot fi determinate grafic prin analogie cu mediana folosind cumulat.

Pentru a măsura mărimea variației, se folosesc următorii indicatori: intervalul de variație, abaterea liniară medie, abaterea standard și varianța. Mărimea intervalului de variație depinde în întregime de aleatorietatea distribuției membrilor extremi ai seriei. Acest indicator este de interes în cazurile în care este important să știți care este amplitudinea fluctuațiilor valorilor atributului:

Unde R- valoarea intervalului de variație; x max - valoarea maximă a caracteristicii; x tt - valoarea minimă a caracteristicii.

La calcularea intervalului de variație nu se ia în considerare valoarea marii majorități a membrilor seriei, în timp ce variația este asociată cu fiecare valoare a membrului seriei. Acest neajuns este lipsit de indicatori care sunt medii obținute din abaterile valorilor individuale ale unei trăsături de la valoarea lor medie: abaterea liniară medie și abaterea standard. Există o relație directă între abaterile individuale de la medie și fluctuația unei anumite trăsături. Cu cât volatilitatea este mai puternică, cu atât dimensiunea absolută a abaterilor de la medie este mai mare.

Abaterea liniară medie este media aritmetică a valorilor absolute ale abaterilor opțiunilor individuale de la valoarea lor medie.

Abaterea liniară medie pentru date negrupate

unde / pr - valoarea abaterii liniare medii; x, - - valoarea caracteristicii; X - P - numărul de unități de populație.

Seria grupată Abaterea liniară medie

unde / vz - valoarea abaterii liniare medii; x, - valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; / - numărul de unități de populație dintr-o grupă separată.

Semnele de abatere sunt ignorate în acest caz, în caz contrar, suma tuturor abaterilor va fi egală cu zero. Abaterea liniară medie în funcție de gruparea datelor analizate se calculează folosind diferite formule: pentru date grupate și negrupate. Abaterea liniară medie, datorită condiționalității sale, separat de alți indicatori de variație, este utilizată relativ rar în practică (în special, pentru a caracteriza îndeplinirea obligațiilor contractuale în ceea ce privește uniformitatea ofertei; în analiza cifrei de afaceri din comerțul exterior, compoziția angajaților, ritmul producției, calitatea produsului, ținând cont de caracteristicile tehnologice ale producției etc.).

Abaterea standard caracterizează cât de mult se abate valorile individuale ale trăsăturii studiate în medie de la valoarea medie a populației și este exprimată în unități ale trăsăturii studiate. Abaterea standard, fiind una dintre principalele măsuri de variație, este utilizată pe scară largă în aprecierea limitelor variației unei trăsături într-o populație omogenă, în determinarea valorilor ordonatelor curbei de distribuție normală, precum și în calcule legate de organizarea observării eșantionului și stabilirea acurateței caracteristicilor eșantionului. Abaterea standard pentru datele negrupate se calculează conform următorului algoritm: fiecare abatere de la medie este pătrată, toate pătratele sunt însumate, după care suma pătratelor este împărțită la numărul de termeni din serie și rădăcina pătrată este luată din coeficientul:

unde a Iip - valoarea abaterii standard; Xj- valoarea caracteristicii; X- valoarea medie a atributului pentru populaţia studiată; P - numărul de unități de populație.

Pentru datele analizate grupate, abaterea standard a datelor este calculată folosind formula ponderată

Unde - valoarea abaterii standard; Xj- valoarea caracteristicii; X - valoarea medie a trăsăturii pentru populația studiată; fx- numărul de unități de populație dintr-un anumit grup.

Expresia de sub rădăcină în ambele cazuri se numește varianță. Astfel, varianța este calculată ca pătratul mediu al abaterilor valorilor trăsăturilor de la valoarea lor medie. Pentru valorile caracteristicilor neponderate (simple), varianța este definită după cum urmează:

Pentru valorile caracteristice ponderate

Există, de asemenea, o modalitate simplificată specială de a calcula varianța: în termeni generali

pentru valorile caracteristice neponderate (simple). pentru valorile caracteristice ponderate
folosind metoda numărării de la zero condiționat

unde a 2 - valoarea dispersiei; x, - - valoarea caracteristicii; X - valoarea medie a caracteristicii, h- valoarea intervalului de grup, t 1 - greutate (A =

Dispersia are o expresie independentă în statistică și este unul dintre cei mai importanți indicatori ai variației. Se măsoară în unități corespunzătoare pătratului unităților de măsură ale trăsăturii studiate.

Dispersia are următoarele proprietăți.

  • 1. Dispersia unei valori constante este zero.
  • 2. Reducerea tuturor valorilor caracteristicii cu aceeași valoare a lui A nu modifică valoarea varianței. Aceasta înseamnă că pătratul mediu al abaterilor poate fi calculat nu din valorile date ale atributului, ci din abaterile acestora de la un număr constant.
  • 3. Scăderea tuturor valorilor caracteristicii în k ori reduce dispersia în k de 2 ori, iar abaterea standard - in k ori, adica toate valorile atributelor pot fi împărțite la un număr constant (să zicem, la valoarea intervalului serie), abaterea standard poate fi calculată și apoi înmulțită cu un număr constant.
  • 4. Dacă calculăm pătratul mediu al abaterilor de la orice valoare Și la diferă într-o oarecare măsură de media aritmetică, atunci aceasta va fi întotdeauna mai mare decât pătratul mediu al abaterilor calculate de la media aritmetică. În acest caz, pătratul mediu al abaterilor va fi mai mare cu o valoare bine definită - cu pătratul diferenței dintre medie și această valoare luată condiționat.

Variația unei trăsături alternative este prezența sau absența proprietății studiate în unitățile populației. Cantitativ, variația unui atribut alternativ se exprimă prin două valori: prezența proprietății studiate într-o unitate se notează cu unu (1), iar absența acestuia se notează cu zero (0). Proporția unităților care au proprietatea în studiu se notează cu P, iar proporția unităților care nu au această proprietate se notează cu G. Astfel, varianța unui atribut alternativ este egală cu produsul dintre proporția de unități care au o proprietate dată (P) cu proporția de unități care nu au această proprietate (G). Cea mai mare variație a populației se realizează în cazurile în care o parte a populației, care reprezintă 50% din volumul total al populației, are o caracteristică, iar cealaltă parte a populației, tot egală cu 50%, nu are această caracteristică, în timp ce varianța atinge o valoare maximă de 0,25, m .e. P = 0,5, G= 1 - P \u003d 1 - 0,5 \u003d 0,5 și o 2 \u003d 0,5 0,5 \u003d 0,25. Limita inferioară a acestui indicator este egală cu zero, ceea ce corespunde unei situații în care nu există variații în agregat. Aplicația practică a varianței unei caracteristici alternative este de a construi intervale de încredere atunci când se efectuează o observație eșantion.

Cu cât varianța și abaterea standard sunt mai mici, cu atât populația este mai omogenă și media va fi mai tipică. În practica statisticii, devine adesea necesară compararea variațiilor diferitelor caracteristici. De exemplu, este interesant de comparat variațiile vârstei lucrătorilor și calificărilor acestora, vechimea în muncă și salariile, costul și profitul, vechimea în muncă și productivitatea muncii etc. Pentru astfel de comparații, indicatorii variabilității absolute a caracteristicilor sunt nepotriviți: este imposibil să se compare variabilitatea experienței de muncă, exprimată în ani, cu variația salariilor, exprimată în ruble. Pentru a efectua astfel de comparații, precum și comparații ale fluctuației aceluiași atribut în mai multe populații cu medii aritmetice diferite, se folosesc indicatori de variație - coeficientul de oscilație, coeficientul liniar de variație și coeficientul de variație, care arată măsura de fluctuații ale valorilor extreme în jurul mediei.

Factorul de oscilație:

Unde V R - valoarea coeficientului de oscilație; R- valoarea intervalului de variație; X -

Coeficientul liniar de variație”.

Unde vj- valoarea coeficientului liniar de variație; eu- valoarea abaterii liniare medii; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de variație:

Unde va- valoarea coeficientului de variație; a - valoarea abaterii standard; X - valoarea medie a trăsăturii pentru populaţia studiată.

Coeficientul de oscilație este procentul dintre intervalul de variație față de valoarea medie a trăsăturii studiate, iar coeficientul liniar de variație este raportul dintre deviația liniară medie și valoarea medie a trăsăturii studiate, exprimat ca procent. Coeficientul de variație este procentul abaterii standard față de valoarea medie a trăsăturii studiate. Ca valoare relativă, exprimată în procente, coeficientul de variație este utilizat pentru a compara gradul de variație a diferitelor trăsături. Cu ajutorul coeficientului de variație se estimează omogenitatea populației statistice. Dacă coeficientul de variație este mai mic de 33%, atunci populația studiată este omogenă, iar variația este slabă. Dacă coeficientul de variație este mai mare de 33%, atunci populația studiată este eterogenă, variația este puternică, iar valoarea medie este atipică și nu poate fi folosită ca indicator generalizator al acestei populații. În plus, coeficienții de variație sunt utilizați pentru a compara fluctuația unei trăsături în diferite populații. De exemplu, pentru a evalua variația vechimii în muncă a lucrătorilor la două întreprinderi. Cu cât valoarea coeficientului este mai mare, cu atât variația caracteristicii este mai semnificativă.

Pe baza quartilelor calculate, este de asemenea posibil să se calculeze indicatorul relativ al variației trimestriale folosind formula

unde Q 2 Și

Intervalul intercuartil este determinat de formula

Abaterea quartilei este utilizată în locul intervalului de variație pentru a evita dezavantajele asociate utilizării valorilor extreme:

Pentru seriile variaționale cu intervale inegale, se calculează și densitatea distribuției. Este definit ca câtul dintre frecvența sau frecvența corespunzătoare împărțit la valoarea intervalului. În serii de intervale inegale se utilizează densitățile de distribuție absolute și relative. Densitatea de distribuție absolută este frecvența pe unitatea de lungime a intervalului. Densitatea de distribuție relativă - frecvența pe unitatea de lungime a intervalului.

Toate cele de mai sus sunt valabile pentru seriile de distribuție a căror lege de distribuție este bine descrisă de legea distribuției normale sau este apropiată de aceasta.

Serii de variații: definiție, tipuri, caracteristici principale. Metoda de calcul
modă, mediană, medie aritmetică în studii medicale și statistice
(Afișați pe un exemplu condiționat).

O serie variațională este o serie de valori numerice ale trăsăturii studiate, care diferă unele de altele prin mărimea lor și sunt aranjate într-o anumită succesiune (în ordine crescătoare sau descrescătoare). Fiecare valoare numerică a seriei se numește variantă (V), iar numerele care arată cât de des apare cutare sau cutare variantă în componența acestei serii se numesc frecvență (p).

Numărul total de cazuri de observații, din care constă seria de variații, se notează cu litera n. Diferența de semnificație a caracteristicilor studiate se numește variație. Dacă semnul variabil nu are o măsură cantitativă, variația se numește calitativă, iar seria de distribuție se numește atributivă (de exemplu, distribuția după rezultatul bolii, starea de sănătate etc.).

Dacă un semn variabil are o expresie cantitativă, o astfel de variație se numește cantitativă, iar seria de distribuție se numește variațională.

Serii variaționale se împart în discontinue și continue - după natura trăsăturii cantitative, simple și ponderate - în funcție de frecvența de apariție a variantei.

Într-o serie variațională simplă, fiecare variantă apare o singură dată (p=1), într-una ponderată, aceeași variantă apare de mai multe ori (p>1). Exemple de astfel de serii vor fi discutate mai târziu în text. Dacă atributul cantitativ este continuu, i.e. între valori întregi există valori fracționale intermediare, seria variațională se numește continuă.

De exemplu: 10.0 - 11.9

14,0 - 15,9 etc.

Dacă semnul cantitativ este discontinuu, i.e. valorile sale individuale (opțiunile) diferă între ele printr-un număr întreg și nu au valori fracționale intermediare, seria de variații se numește discontinuă sau discretă.

Folosind datele din exemplul anterior despre ritmul cardiac

pentru 21 de elevi, vom construi o serie de variații (Tabelul 1).

tabelul 1

Distribuția studenților la medicină în funcție de frecvența pulsului (bpm)

Astfel, a construi o serie variațională înseamnă a sistematiza, eficientiza valorile numerice existente (opțiuni), adică. aranjați într-o anumită succesiune (în ordine crescătoare sau descrescătoare) cu frecvențele corespunzătoare. În exemplul luat în considerare, opțiunile sunt aranjate în ordine crescătoare și sunt exprimate ca numere întregi discontinue (discrete), fiecare opțiune apare de mai multe ori, i.e. avem de-a face cu o serie variațională ponderată, discontinuă sau discretă.

De regulă, dacă numărul de observații din populația statistică pe care o studiem nu depășește 30, atunci este suficient să aranjam toate valorile trăsăturii studiate într-o serie variațională în ordine crescătoare, ca în tabel. 1, sau în ordine descrescătoare.

Cu un număr mare de observații (n>30), numărul de variante care apar poate fi foarte mare, în acest caz se alcătuiește un interval sau o serie variațională grupată, în care, pentru a simplifica prelucrarea ulterioară și a clarifica natura distribuției, variantele sunt combinate în grupuri.

De obicei, numărul de opțiuni de grup variază de la 8 la 15.

Trebuie să fie cel puțin 5, pentru că. în caz contrar, va fi o mărire prea aspră, excesivă, care distorsionează imaginea generală a variației și afectează foarte mult acuratețea valorilor medii. Când numărul de opțiuni de grup este mai mare de 20-25, acuratețea calculării valorilor medii crește, dar caracteristicile variației atributului sunt distorsionate semnificativ, iar procesarea matematică devine mai complicată.

La compilarea unei serii grupate, este necesar să se țină cont

− grupurile de variante trebuie plasate într-o anumită ordine (crescător sau descrescător);

- intervalele din grupele de variante sa fie aceleasi;

− valorile limitelor intervalelor nu trebuie să coincidă, deoarece nu va fi clar în ce grupuri să atribuie opțiuni individuale;

- este necesar să se țină cont de caracteristicile calitative ale materialului colectat la stabilirea limitelor intervalelor (de exemplu, la studierea greutății adulților, este acceptabil un interval de 3-4 kg, iar pentru copii în primele luni de viață nu trebuie să depășească 100 g.)

Să construim o serie grupată (interval) care caracterizează datele privind frecvența pulsului (numărul de bătăi pe minut) pentru 55 de studenți la medicină înainte de examen: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Pentru a construi o serie grupată, aveți nevoie de:

1. Determinați valoarea intervalului;

2. Determinați mijlocul, începutul și sfârșitul grupelor variantei seriei de variații.

● Valoarea intervalului (i) este determinată de numărul de grupuri așteptate (r), al căror număr este stabilit în funcție de numărul de observații (n) conform unui tabel special

Numărul de grupuri în funcție de numărul de observații:

În cazul nostru, pentru 55 de elevi, este posibil să se alcătuiască de la 8 până la 10 grupe.

Valoarea intervalului (i) este determinată de următoarea formulă -

i = Vmax-Vmin/r

În exemplul nostru, valoarea intervalului este 82-58/8= 3.

Dacă valoarea intervalului este un număr fracționar, rezultatul trebuie rotunjit la un număr întreg.

Există mai multe tipuri de medii:

● medie aritmetică,

● medie geometrică,

● medie armonică,

● rădăcină medie pătrată,

● mediu progresiv,

● mediană

În statistica medicală, mediile aritmetice sunt cel mai des folosite.

Media aritmetică (M) este o valoare generalizantă care determină valoarea tipică care este caracteristică întregii populații. Principalele metode de calcul a lui M sunt: ​​metoda mediei aritmetice și metoda momentelor (abaterile condiționate).

Metoda mediei aritmetice este utilizată pentru a calcula media aritmetică simplă și media aritmetică ponderată. Alegerea metodei de calcul a valorii medii aritmetice depinde de tipul seriei de variații. În cazul unei serii variaționale simple, în care fiecare variantă apare o singură dată, media aritmetică simplă este determinată de formula:

unde: М – valoarea medie aritmetică;

V este valoarea caracteristicii variabilei (opțiuni);

Σ - indică acţiunea - însumare;

n este numărul total de observații.

Un exemplu de calcul al mediei aritmetice este simplu. Frecvența respiratorie (numărul de respirații pe minut) la 9 bărbați cu vârsta de 35 de ani: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Pentru a determina nivelul mediu al frecvenței respiratorii la bărbații în vârstă de 35 de ani, este necesar:

1. Construiți o serie variațională, plasând toate opțiunile în ordine crescătoare sau descrescătoare. Am obținut o serie variațională simplă, deoarece valorile variantei apar o singură dată.

M = ∑V/n = 171/9 = 19 respirații pe minut

Concluzie. Frecvența respiratorie la bărbații în vârstă de 35 de ani este în medie de 19 respirații pe minut.

Dacă valorile individuale ale unei variante sunt repetate, nu este nevoie să scrieți fiecare variantă într-o linie; este suficient să enumerați dimensiunile variantei care apar (V) și apoi să indicați numărul repetărilor lor (p ). o astfel de serie variațională, în care opțiunile sunt, parcă, ponderate în funcție de numărul de frecvențe care le corespund, se numește serie variațională ponderată, iar valoarea medie calculată este media ponderată aritmetică.

Media ponderată aritmetică este determinată de formula: M= ∑Vp/n

unde n este numărul de observații egal cu suma frecvențelor - Σr.

Un exemplu de calcul a mediei ponderate aritmetice.

Durata invalidității (în zile) la 35 de pacienți cu afecțiuni respiratorii acute (IRA) tratați de un medic local în primul trimestru al anului curent a fost: 6, 7, 5, 3, 9, 8, 7, 5, 6 , 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6 , 7 zile .

Metodologia de determinare a duratei medii a invalidității la pacienții cu infecții respiratorii acute este următoarea:

1. Să construim o serie variațională ponderată, deoarece valorile variantelor individuale se repetă de mai multe ori. Pentru a face acest lucru, puteți aranja toate opțiunile în ordine crescătoare sau descrescătoare cu frecvențele corespunzătoare.

În cazul nostru, opțiunile sunt în ordine crescătoare.

2. Calculați media ponderată aritmetică folosind formula: M = ∑Vp/n = 233/35 = 6,7 zile

Distribuția pacienților cu infecții respiratorii acute în funcție de durata dizabilității:

Durata incapacității de muncă (V) Număr de pacienți (p) vp
∑p = n = 35 ∑Vp = 233

Concluzie. Durata dizabilității la pacienții cu boli respiratorii acute a fost în medie de 6,7 zile.

Modul (Mo) este cea mai comună variantă din seria de variații. Pentru distribuția prezentată în tabel, modul corespunde variantei egale cu 10, apare mai des decât altele - de 6 ori.

Distribuția pacienților după durata șederii într-un pat de spital (în zile)

V
p

Uneori este dificil să se determine valoarea exactă a modului, deoarece pot exista mai multe observații în datele studiate care apar „cel mai des”.

Mediana (Me) este un indicator neparametric care împarte seria de variații în două jumătăți egale: același număr de opțiuni este situat de ambele părți ale medianei.

De exemplu, pentru distribuția prezentată în tabel, mediana este 10 deoarece pe ambele părți ale acestei valori se află pe a 14-a opțiune, adică numărul 10 ocupă o poziție centrală în această serie și este mediana acestuia.

Având în vedere că numărul de observații din acest exemplu este par (n=34), mediana poate fi determinată după cum urmează:

Eu = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Aceasta înseamnă că mijlocul seriei cade pe a șaptesprezecea opțiune, care corespunde unei mediane de 10. Pentru distribuția prezentată în tabel, media aritmetică este:

M = ∑Vp/n = 334/34 = 10,1

Deci, pentru 34 de observații din tabel. 8, avem: Mo=10, Me=10, media aritmetică (M) este 10,1. În exemplul nostru, toți cei trei indicatori s-au dovedit a fi egali sau apropiați unul de celălalt, deși sunt complet diferiți.

Media aritmetică este suma rezultată a tuturor influențelor; la formarea ei iau parte toate variantele, fără excepție, inclusiv cele extreme, adesea atipice pentru un anumit fenomen sau mulțime.

Modul și mediana, spre deosebire de media aritmetică, nu depind de valoarea tuturor valorilor individuale ale atributului variabil (valorile variantelor extreme și gradul de împrăștiere al seriei). Media aritmetică caracterizează întreaga masă de observații, modul și mediana caracterizează volumul

Rândurile construite dupa cantitate, sunt numite variațională.

Seria de distribuție consta în Opțiuni(valori caracteristice) şi frecvente(numar de grupuri). Se numesc frecvențele exprimate ca valori relative (acțiuni, procente). frecvente. Suma tuturor frecvențelor se numește volumul seriei de distribuție.

După tip, seriile de distribuție sunt împărțite în discret(construit pe valori discontinue ale caracteristicii) și interval(construit pe valorile caracteristice continue).

Seria de variații reprezintă două coloane (sau rânduri); dintre care unul oferă valori individuale ale atributului variabil, numite variante și notate cu X; iar în celălalt - numere absolute care arată de câte ori (cât de des) apare fiecare opțiune. Indicatorii celei de-a doua coloane se numesc frecvențe și sunt notați în mod convențional cu f. Încă o dată, observăm că în a doua coloană pot fi utilizați și indicatori relativi care caracterizează ponderea frecvenței variantelor individuale în cantitatea totală de frecvențe. Acești indicatori relativi se numesc frecvențe și se notează convențional cu ω. Suma tuturor frecvențelor în acest caz este egală cu unu. Cu toate acestea, frecvențele pot fi exprimate și ca procent, iar apoi suma tuturor frecvențelor dă 100%.

Dacă variantele seriei variaționale sunt exprimate ca valori discrete, atunci se numește o astfel de serie variațională discret.

Pentru caracteristici continue, serii de variații sunt construite ca interval, adică valorile atributului din ele sunt exprimate „de la ... la ...”. În acest caz, valorile minime ale atributului într-un astfel de interval se numesc limita inferioară a intervalului, iar maxima - limita superioară.

Serii variaționale cu intervale sunt, de asemenea, construite pentru caracteristici discrete care variază într-o gamă largă. Seria de intervale poate fi egalȘi inegal intervale.

Luați în considerare modul în care este determinată valoarea intervalelor egale. Să introducem următoarea notație:

i– valoarea intervalului;

- valoarea maximă a atributului pentru unităţi ale populaţiei;

- valoarea minimă a atributului pentru unităţi ale populaţiei;

n- numărul de grupuri alocate.

dacă n este cunoscut.

Dacă numărul de grupuri alocate este dificil de determinat în prealabil, atunci formula propusă de Sturgess în 1926 poate fi recomandată pentru a calcula dimensiunea optimă a intervalului cu o dimensiune suficientă a populației:

n = 1+ 3,322 log N, unde N este numărul celor din populație.

Valoarea intervalelor inegale este determinată în fiecare caz individual, ținând cont de caracteristicile obiectului de studiu.

Distribuția statistică a eșantionului apelați lista de opțiuni și frecvențele corespunzătoare (sau frecvențele relative).

Distribuția statistică a eșantionului poate fi specificată sub forma unui tabel, în prima coloană a căruia există opțiuni, iar în a doua - frecvențele corespunzătoare acestor opțiuni. ni, sau frecvențe relative Pi .

Distribuția statistică a eșantionului

Serii de intervale se numesc serii de variații în care valorile caracteristicilor care stau la baza formării lor sunt exprimate în anumite limite (intervale). Frecvențele în acest caz nu se referă la valori individuale ale atributului, ci la întregul interval.

Seriile de distribuție pe intervale sunt construite în funcție de caracteristici cantitative continue, precum și în funcție de caracteristici discrete, variind într-un interval semnificativ.

Seria de intervale poate fi reprezentată prin distribuția statistică a eșantionului, indicând intervalele și frecvențele corespunzătoare acestora. În acest caz, suma frecvențelor variantei care a intrat în acest interval este luată ca frecvență a intervalului.

La gruparea după caracteristici cantitative continue, este important să se determine dimensiunea intervalului.

Pe lângă media eșantionului și varianța eșantionului, sunt utilizate și alte caracteristici ale seriei de variații.

Modă numiți varianta care are cea mai mare frecvență.


închide