Словник статистичних термінів

Загальні питання статистики

ЩО ТАКЕ МЕДИЧНА СТАТИСТИКА?

Статистикою називають кількісний опис та вимір подій, явищ, предметів. Її розуміють як галузь практичної діяльності (збір, обробка та аналіз даних про масові явища), як галузь знання, тобто. спеціальну наукову дисципліну, і, як сукупність зведених, підсумкових цифрових показників, зібраних для характеристики будь-якої галузі суспільних явищ.

Статистика – наука, вивчає закономірності масових явищ шляхом узагальнюючих показників.

Медична статистика - самостійна громадська наука, що вивчає кількісний бік масових суспільних явищу нерозривному зв'язку з їх якісною стороною, що дозволяє методом узагальнюючих показниківвивчити закономірності цих явищ, найважливіших процесів у економічному, соціальному житті суспільства, його здоров'я, системі організації медичної допомоги населенню.

Статистичні методи - це сукупність прийомів обробки матеріалів масових спостережень, яких ставляться: угруповання, зведення, отримання показників, їх статистичний аналіз тощо.

Статистичні методи в медицині використовуються для:

  1. вивчення стану громадського здоров'я населення в цілому та його основних груп шляхом збору та аналізу статистичних даних про чисельність та склад населення, його відтворення, фізичний розвиток, поширеність та тривалість різних захворювань тощо;
  2. виявлення та встановлення зв'язків загального рівня захворюваності та смертності від будь-яких окремих хвороб з різними факторами навколишнього середовища;
  3. збір та вивчення числових даних про мережу медичних установ, їх діяльність та кадри для планування медико-санітарних заходів, контролю за виконанням планів розвитку мережі та діяльності закладів охорони здоров'я та оцінки якості роботи окремих медичних установ;
  4. оцінка ефективності заходів щодо попередження та лікування захворювань;
  5. визначення статистичної значущості результатів дослідження у клініці та експерименті.

Розділи медичної статистики:

  • загальнотеоретичні та методичні засади статистики,
  • статистика здоров'я населення,
  • статистика охорони здоров'я.

СТВОРЕННЯ БАЗИ ДАНИХ У MS EXCEL

Для того, щоб база даних була зручною для подальшої обробки, слід дотримуватися нехитрих принципів:

1) Оптимальною програмою створення бази даних є MS Excel. Дані з Excel у подальшому можуть без проблем переноситися в інші спеціалізовані статистичні пакети, такі як Statistica, SPSS та ін для більш складних маніпуляцій. Однак до 80-90% розрахунків можуть зручно проводитися в самій Excel з використанням надбудови "Аналіз даних".

2) Верхній рядок таблиці з базою даних оформляється як шапка, куди заносяться найменування тих показників, які враховуються у цьому стовпці. Небажано використовувати злиття осередків (ця вимога відноситься взагалі до всієї бази), тому що при цьому багато операцій стануть неприпустимими. Також не варто створювати "двоповерхову" шапку, в якій верхній рядок позначає назву групи однорідних показників, а нижня – конкретні показники. Для угруповання однорідних показників краще відзначити їх одноколірною заливкою або включити до їх найменування групуючу ознаку в дужках.

Наприклад, не так:

ЗАГАЛЬНИЙ АНАЛІЗ КРОВІ
ER LEU TR
ER(ОАК) LEU(ОАК) TR(ОАК)

в останньому варіанті забезпечена і одноповерховість шапки, і наочна однорідність даних (всі вони відносяться до показників ОАК).

3) У першому стовпці слід розміщувати порядковий номер пацієнта в цій базі, не прив'язуючи його до жодного з досліджуваних показників. Це дозволить у подальшому забезпечити легкий відкат до початкового порядку пацієнтів будь-якому етапі, навіть після численних сортувань списку.

4) Другий стовпець зазвичай заповнюється прізвищами (або П.І.Б.) пацієнтів.

5) Кількісні показники (ті, що вимірюються числами, наприклад - зростання, вага, артеріальний тиск, ЧСС тощо) вписуються в таблицю у числовому форматі. Здавалося б це і так зрозуміло, проте слід пам'ятати, що в Excel, починаючи з 2007 версії, дробові величини позначаються через точку: 4.5. Якщо записати число через кому, воно буде сприйнято як текст, і ці стовпці доведеться переписувати.

6) З якісними показниками складніше. Ті з них, які мають два варіанти значення (так звані, бінарні величини: Так-Ні, Є-Відсутня, Чоловічий-Жіночий), краще переводити в двійкову систему: 0 і 1. Значення 1 зазвичай присвоюється позитивному значенню (Так, Є) , 0 – негативному (Ні, Відсутня).

7) Якісні показники, що мають кілька значень, що відрізняються за ступенем вираженості, рівнем явища (Слабкий-Середній-Сильний; Холодний-Теплий-Гарячий) можуть бути ранжовані і, відповідно, також переведені до числа. Найменшому рівню явища надається найменший ранг - 0 або 1, наступні ступені позначаються значеннями рангів по порядку. Наприклад: Захворювання відсутнє - 0, легкого ступеня тяжкості -1, середнього ступеня - 2, тяжкого ступеня - 3.

8) Іноді одному якісному показнику відповідають кілька значень. Наприклад, у графі "Супутній діагноз" за наявності кількох захворювань ми хочемо вказати їх через кому. Робити так не слід, оскільки обробка таких даних дуже утруднена і не може бути автоматизована. Тому краще зробити кілька стовпців з конкретними групами захворювань ("захворювання ССС", "захворювання ШКТ" і т.д.) або певними нозологіями ("хр.гастрит", "ІХС" і т.д.), в які дані заносимо в бінарному, двійковому вигляді: 1 (що означає "Є дане захворювання") - 0 ("Немає даного захворювання").

9) Для розмежування окремих груп показників можна активно користуватися кольором: наприклад, стовпці з показниками ОАК виділяємо червоним кольором, дані ОАМ - жовтим і т.д.

10) Кожному пацієнту має відповідати один рядок таблиці.

Подібне оформлення бази даних дозволяє не лише значно спростити процес її статистичної обробки, а й полегшити її заповнення на етапі збирання матеріалу.

ЯКИЙ МЕТОД ВИБРАТИ ДЛЯ СТАТИСТИЧНОГО АНАЛІЗУ?

Після того, як зібрані всі дані, перед кожним дослідником постає питання вибору найбільш придатного способу статистичної обробки. І це не дивно: сучасна статистика поєднує величезну кількість різноманітних критеріїв та методів. Всі вони мають свої особливості, можуть підходити або не підходити для двох, начебто, схожих ситуацій. У цій статті ми постараємося систематизувати всі основні, найпоширеніші методи статистичного аналізу щодо їх призначення.

Проте спочатку кілька слів у тому, які бувають статистичні дані, оскільки саме від цього залежить вибір найбільш відповідного методу аналізу.

Шкала виміру

Під час проведення дослідження кожної одиниці спостереження визначаються значення різних ознак. Залежно від того, за якою шкалою вони вимірюються, всі ознаки поділяються на кількісніі якісні. Якісні показники в дослідженнях розподіляються за так званою номінальноюшкалою. Крім того, показники можуть бути представлені по ранговийшкалою.

Наприклад, проводиться порівняння показників серцевої діяльності у спортсменів та осіб, які ведуть малорухливий спосіб життя.

При цьому у досліджуваних визначалися такі ознаки:

  • підлога- є номінальнимпоказником, що приймає два значення - чоловічий чи жіночий.
  • вік - кількіснийпоказник,
  • заняття спортом - номінальнийпоказник, що приймає два значення: займається або не займається,
  • частота серцевих скорочень - кількіснийпоказник,
  • систолічний артеріальний тиск - кількіснийпоказник,
  • наявність скарг на біль у грудній клітці- є якіснимпоказником, значення якого можуть бути визначені як за номінальною(є скарги - немає скарг), так і по ранговийшкалі залежно від частоти (наприклад, якщо біль виникає кілька разів на день - показнику присвоюється ранг 3, кілька разів на місяць - ранг 2, кілька разів на рік - ранг 1, за відсутності скарг на біль у грудній клітці - ставиться ранг 0) .

Кількість зіставних сукупностей

Наступне питання, яке необхідно вирішити для вибору статистичного методу, полягає в кількості сукупностей, які можна порівняти в рамках дослідження.

  • У більшості випадків, у клінічних дослідженнях ми маємо справу з двома групами пацієнтів. Основнийі контрольної. Основний, або досвідченої, прийнято вважати групу, в якій був застосований метод діагностики або лікування, що вивчається, або в якій пацієнти страждають захворюванням, що є предметом даного дослідження. Контрольнугрупу, навпаки, складають пацієнти, які отримують звичайну медичну допомогу, плацебо, або особи, які не мають захворювання, що вивчається. Такі сукупності, представлені різними пацієнтами, називаються непов'язаними.
    Ще бувають пов'язані, або парні, сукупності, коли йдеться про одних і тих же людей, але порівнюються значення будь-якої ознаки, отримані до і післядослідження. Число порівнюваних сукупностей при цьому дорівнює 2, проте до них застосовуються інші методики, ніж до незв'язаних.
  • Іншим варіантом є опис однієїсукупності, що, слід визнати, взагалі є основою будь-якого дослідження. Навіть якщо основною метою роботи є порівняння двох чи більше груп, кожну їх необхідно попередньо охарактеризувати. Для цього використовуються методи описової статистики. Крім того, для однієї сукупності можуть застосовуватись методи кореляційного аналізу, що використовуються для знаходження зв'язку між двома або декількома ознаками, що вивчаються (наприклад, залежність росту від маси тіла або залежність частоти серцевих скорочень від температури тіла).
  • Нарешті, порівнюваних сукупностей може бути кілька. Стосовно медичних досліджень це трапляється дуже часто. Пацієнти можуть бути згруповані в залежності від застосування різних препаратів (наприклад, при порівнянні ефективності антигіпертензивних засобів: 1 група – інгібітори АПФ, 2 – бета-адреноблокатори, 3 – препарати центральної дії), за ступенем тяжкості захворювання (1 група – легкий ступінь, 2 - Середня, 3 - важка) і т.д.

Важливим також питання нормальності розподілудосліджуваних сукупностей. Від цього залежить, чи можна застосовувати методи параметричного аналізучи тільки непараметричного. Умовами, які повинні дотримуватись у нормально розподілених сукупностях, є:

  1. максимальна близькість або рівність значень середньої арифметичної, моди та медіани;
  2. дотримання правила "трьох сигм" (в інтервалі М±1σ знаходяться не менше 68,3% варіант, в інтервалі М±2σ - не менше 95,5% варіант, в інтервалі М±3σ знаходяться не менше 99,7% варіант;
  3. показники виміряні у кількісній шкалі;
  4. позитивні результати перевірки на нормальність розподілу за допомогою спеціальних критеріїв – Колмогорова-Смирнова чи Шапіро-Вилка.

Після визначення всіх зазначених нами ознак досліджуваних сукупностей пропонуємо скористатися наступною таблицею для вибору найбільш оптимального методу статистичного аналізу.

Метод Шкала вимірювання показників Кількість порівнюваних сукупностей Ціль обробки Розподіл даних
t-критерій Стьюдента кількісна 2 нормальне
t-критерій Стьюдента з поправкою Бонфероні кількісна 3 і більше порівняння непов'язаних сукупностей нормальне
Парний t-критерій Стьюдента кількісна 2 нормальне
Однофакторний дисперсійний аналіз (ANOVA) кількісна 3 і більше порівняння непов'язаних сукупностей нормальне
Однофакторний дисперсійний аналіз (ANOVA) із повторними вимірами кількісна 3 і більше порівняння пов'язаних сукупностей нормальне
U-критерій Манна-Уітні кількісна, рангова 2 порівняння непов'язаних сукупностей будь-яке
Q-критерій Розенбауму кількісна, рангова 2 порівняння непов'язаних сукупностей будь-яке
Критерій Краскелла-Уолліса кількісна 3 і більше порівняння непов'язаних сукупностей будь-яке
Критерій Вілкоксона кількісна, рангова 2 порівняння пов'язаних сукупностей будь-яке
G-критерій знаків кількісна, рангова 2 порівняння пов'язаних сукупностей будь-яке
Критерій Фрідмана кількісна, рангова 3 і більше порівняння пов'язаних сукупностей будь-яке
Критерій χ 2 Пірсона номінальна 2 і більше порівняння непов'язаних сукупностей будь-яке
Точний критерій Фішера номінальна 2 порівняння непов'язаних сукупностей будь-яке
Тест Мак-Немара номінальна 2 порівняння пов'язаних сукупностей будь-яке
Q-критерій Кохрена номінальна 3 і більше порівняння пов'язаних сукупностей будь-яке
Відносний ризик (Risk Ratio, RR) номінальна 2 порівняння непов'язаних сукупностей у когортних дослідженнях будь-яке
Відношення шансів (Odds Ratio, OR) номінальна 2 порівняння незв'язаних сукупностей у дослідженнях на кшталт «випадок-контроль» будь-яке
Коефіцієнт кореляції Пірсона кількісна 2 ряди вимірів нормальне
Коефіцієнт рангової кореляції Спірмена кількісна, рангова 2 ряди вимірів виявлення зв'язку між ознаками будь-яке
Коефіцієнт кореляції Кендала кількісна, рангова 2 ряди вимірів виявлення зв'язку між ознаками будь-яке
Коефіцієнт конкордації Кендалл кількісна, рангова 3 і більше рядів вимірів виявлення зв'язку між ознаками будь-яке
Розрахунок середніх величин (M) та середніх помилок (m) кількісна 1 описова статистика будь-яке
Розрахунок медіан (Ме) та перцентилів (квартилів) рангова 1 описова статистика будь-яке
Розрахунок відносних величин (Р) та середніх помилок (m) номінальна 1 описова статистика будь-яке
Критерій Шапіро-Вілка кількісна 1 аналіз розподілу будь-яке
Критерій Колмогорова-Смирнова кількісна 1 аналіз розподілу будь-яке
Критерій ω 2 Смирнова-Крамера-фон Мізеса кількісна 1 аналіз розподілу будь-яке
Метод Каплана-Мейєра будь-яка 1 аналіз виживання будь-яке
Модель пропорційних ризиків Коксу будь-яка 1 аналіз виживання будь-яке

Великі вчені-статистики

Карл Пірсон (27 березня 1857 – 27 квітня 1936)

27 березня 1857 року народився Карл Пірсон - великий англійський математик, статистик, біолог та філософ; засновник математичної статистики, один із основоположників біометрики.

Отримавши у віці 27 років посаду професора прикладної математики в лондонському Університетському коледжі, Карл Пірсон почав вивчати статистику, яку сприйняв як загальнонауковий інструмент, який відповідає його зовсім не загальноприйнятим думкам щодо необхідності забезпечити студентам широкий кругозір.

До основних заслуг Пірсона в галузі статистики можна віднести розробку основ теорії кореляції та сполученості ознак, введення “кривих Пірсона” для опису емпіричних розподілів та винятково важливого критерію хі-квадрат, а також складання великої кількості статистичних таблиць. Пірсон застосовував статистичний метод і особливо теорію кореляції у багатьох галузях науки.

Ось одне з його висловлювань: "Першому аматорському впровадженню сучасних статистичних методів у науку протистоїть типова зневага. Але я дожив до того часу, коли багато хто з них почали потай застосовувати ті самі методи, які вони спочатку засуджували ".

І вже в 1920 р. Пірсон склав записку, в якій заявив, що мета біометричної школи "перетворити статистику на галузь прикладної математики, узагальнити, відкинути або обґрунтувати убогі методи старої школи політичних і соціальних статистиків, і, загалом, перетворити статистику зі спортмайданчика для любителів і сперечальників у серйозну галузь науки.Необхідно було критикувати недосконалі і часто помилкові методи в медицині, антропології, краніометрії, психології, кримінології, біології, соціології, щоб забезпечити ці науки новими і потужнішими засобами.Битва тривала майже двадцять років, але з'явилося багато ознак того, що колишня ворожість залишилася за, а нові методи прийняті повсюдно ".

Карл Пірсон відрізнявся досить різнобічними інтересами: вивчав фізику в Гейдельберзі, цікавився соціальною та економічною роллю релігії і навіть читав лекції з німецької історії та літератури у Кембриджі та Лондоні.

Маловідомий той факт, що у віці 28 років, Карл Пірсон читав лекції про "жіноче питання" і навіть заснував Клуб чоловіків і жінок, що проіснував до 1889 р., в якому вільно і необмежено обговорювалося все, що стосується жінок, включаючи взаємини між статями.

Клуб складався з рівної кількості чоловіків та жінок, в основному, ліберальних представників середнього класу, соціалістів та феміністок.

Предметом дискусій клубу були питання найширшого спектра: від сексуальних взаємин у давньогрецьких Афінах до становища буддійських черниць, від ставлення до шлюбу до проблем проституції. По суті, «Клуб чоловіків і жінок» кидав виклик давно встановленим нормам взаємодії чоловіків та жінок, а також уявленням про «правильну» сексуальність. В епоху вікторіанської Англії, де багато хто сприймав сексуальність як щось «низинне» і «тварини», а невігластво щодо статевого виховання було поширене повсюдно, обговорення таких питань було справді радикальним.

У 1898 р. Пірсон був нагороджений Королівським товариством Дарвінської медаллю, від якої відмовився, вважаючи, що нагороди “мають видаватися молодим людям, щоб заохотити їх”.

Флоренс Найтінгейл (12 травня 1820 – 13 серпня 1910)

Флоренс Найтінгейл (1820-1910) – сестра милосердя та громадська діячка Великобританії, у день народження якої ми сьогодні відзначаємо Міжнародний день медичної сестри.

Вона народилася у Флоренції в багатій аристократичній сім'ї, здобула блискучу освіту, знала шість мов. З юних років мріяла стати сестрою милосердя, в 1853 році здобула сестринську освіту в громаді сестер пастора Флендера в Кайзерверті і стала керуючою невеликою приватною лікарнею в Лондоні.

У жовтні 1854 року, в період Кримської війни, Флоренс разом із 38 помічницями вирушила до польових шпиталів до Криму. Організовуючи догляд за пораненими, вона послідовно проводила у життя принципи санітарії та гігієни. В результаті менш як за півроку смертність у лазаретах знизилася з 42 до 2,2%!

Поставивши собі завдання реформувати медичну службу в армії, Найтінгейл досягла того, щоб госпіталі були оснащені системами вентиляції та каналізації; лікарняний персонал обов'язково проходив необхідну підготовку. Було організовано військово-медичну школу, а серед солдатів і офіцерів велася роз'яснювальна робота про важливість профілактики хвороб.

Великі заслуги Флоренс Найтінгейл у медичній статистиці!

  • Її 800-сторінкова книга «Нотатки про фактори, що впливають на здоров'я, ефективність та управління шпиталями британської армії» (1858) містила цілий розділ, присвячений статистиці та ілюстрований діаграмами.
  • Найтінгейл стала новатором у використанні графічних зображень у статистиці. Вона винайшла кругові діаграми, які називала «півнячий гребінь» і використовувала для опису структури смертності. Багато її діаграм були включені до звіту комісії з проблем здоров'я в армії, завдяки якому було прийнято рішення про реформування армійської медицини.
  • Розробила першу форму для збору статистики у шпиталях, яка є попередником сучасних звітних форм про діяльність стаціонару.

У 1859 р. була обрана членом Королівського статистичного товариства та згодом стала почесним членом Американської статистичної асоціації.

Йоганн Карл Фрідріх Гаус (30 квітня 1777 – 23 лютого 1855)

30 квітня 1777 року у місті Брауншвейг народився великий німецький математик, механік, фізик, астроном, геодезист і статистик Йоганн Карл Фрідріх Гаусс.

Він вважається одним із найбільших математиків усіх часів, «королем математиків». Лауреат медалі Коплі (1838), іноземний член Шведської (1821) та Російської (1824) Академій наук, англійського Королівського товариства.

Вже три роки Карл умів читати і писати, навіть виправляв рахункові помилки батька. Згідно з легендою, шкільний вчитель математики, щоб зайняти дітей на довгий час, запропонував їм порахувати суму чисел від 1 до 100. Юний Гаусс зауважив, що попарні суми з протилежних кінців однакові: 1+100=101, 2+99=101 тощо. д., і миттєво отримав результат: 50 101 = 5050. До самої старості він звик більшу частину обчислень робити в думці.

Основними науковими заслугами Карла Гауса у статистиці є створення методу найменших квадратів, що є основою регресійного аналізу.

Також він докладно досліджував поширений у природі нормальний закон розподілу, графік якого відтоді часто називають гауссіаною. Широку популярність отримало правило «трьох сигм» (правило Гаусса), що описує нормальний розподіл.

Лев Семенович Камінський (1889 – 1962)

У 75-ті роковини Перемоги у Великій Вітчизняній війні хочеться згадати і розповісти про чудового вченого, одного із засновників військово-медичної та санітарної статистики в СРСР - Лева Семеновича Камінського (1889-1962).

Він народився 27 травня 1889 року у Києві. Після закінчення з відзнакою 1918 р. медичного факультету Петроградського університету Камінський перебував у лавах Червоної Армії, з квітня 1919 до кінця 1920 р. обіймав посаду головного лікаря 136-го зведеного евакогоспіталя Південно-Східного фронту.

З 1922 р. Лев Семенович завідував санітарно-епідеміологічним відділом лікарсько-санітарної служби Північно-Західної залізниці. У роки почалася наукова діяльність Камінського під керівництвом проф. С.А.Новосельського. У їх спільній фундаментальній праці «Втрати в минулих війнах» було проаналізовано статистичний матеріал про людські втрати у війнах різних армій світу з 1756 по 1918 р. У подальших роботах Камінським було розроблено та обґрунтовано нову, точнішу класифікацію військових втрат.

У монографії «Народне харчування та народне здоров'я» (1929) було детально розглянуто санітарно-гігієнічні аспекти впливу воєн на здоров'я населення, а також питання організації медичної допомоги населенню та армії у роки війни.

З 1935 по 1943 рік Лев Семенович очолює відділ санітарної (з 1942 р. – медичної) статистики Наркомздоров'я СРСР. У жовтні 1943 р. проф.Камінський стає начальником кафедри військово-медичної статистики Військово-медичної академії ім. С.М.Кірова, а з 1956 р. обіймає посаду професора кафедри статистики та обліку в Ленінградському державному університеті.

Лев Семенович виступав за широке впровадження кількісних методів у практику санітарної та медичної статистики. У 1959 р. під його авторством було видано навчальний посібник «Статистична обробка лабораторних та клінічних даних: застосування статистики в науковій та практичній роботі лікаря», який на довгі роки став одним із найкращих вітчизняних підручників з медичної статистики. У передмові Л.С.Камінський зазначає:
«... Здається важливим, щоб лікарі знали, як взятися за справу, вміли збирати і обробляти вірні цифри, придатні для порівнянь і зіставлень».

Критерії та методи

t-КРИТЕРІЙ СТЬЮДЕНТА ДЛЯ НЕЗАЛЕЖНИХ СУКУПНОСТЕЙ

t-критерій Стьюдента – загальна назва класу методів статистичної перевірки гіпотез (статистичних критеріїв), заснованих на розподілі Стьюдента. Найчастіші випадки застосування t-критерію пов'язані з перевіркою рівності середніх значень у двох вибірках.

Цей критерій був розроблений Вільямом Сілі Держсетом

2. Навіщо використовується t-критерій Стьюдента?

t-критерій Стьюдента використовується визначення статистичної значимості відмінностей середніх величин. Може застосовуватися як у випадках порівняння незалежних вибірок (наприклад, групи хворих на цукровий діабет та групи здорових), так і при порівнянні пов'язаних сукупностей (наприклад, середня частота пульсу у тих самих пацієнтів до і після прийому антиаритмічного препарату). У разі розраховується парний t-критерій Стьюдента

3. У яких випадках можна використовувати t-критерій Стьюдента?

Для застосування t-критерію Стьюдента необхідно, щоб вихідні дані мали нормальний розподіл. Також має значення рівність дисперсій (розподілу) порівнюваних груп (гомоскедастичність). При нерівних дисперсіях застосовується t-критерій модифікації Уэлча (Welch"s t).

За відсутності нормального розподілу порівнюваних вибірок замість t-критерію Стьюдента використовуються аналогічні методи непараметричної статистики, серед яких найбільш відомими є U-критерій Манна - Вітні.

4. Як розрахувати t-критерій Стьюдента?

Для порівняння середніх величин t-критерій Стьюдента розраховується за такою формулою:

де М 1- середня арифметична першої порівнюваної сукупності (групи), М 2- середня арифметична другої порівнюваної сукупності (групи), m 1- середня помилка першої середньої арифметичної, m 2- Середня помилка другої середньої арифметичної.

Отримане значення t-критерію Стьюдента необхідно правильно інтерпретувати. Для цього нам необхідно знати кількість досліджуваних у кожній групі (n1 і n2). Знаходимо кількість ступенів свободи fза наступною формулою:

F = (n 1 + n 2) - 2

Після цього визначаємо критичне значення t-критерію Стьюдента для необхідного рівня значущості (наприклад, p=0,05) та при даному числі ступенів свободи fза таблицею (див. нижче).

  • Якщо розраховане значення t-критерію Стьюдента дорівнює або більше критичного, знайденого за таблицею, робимо висновок про статистичну значущість відмінностей між величинами, що порівнюються.
  • Якщо значення розрахованого t-критерію Стьюдента менше табличного, значить відмінності порівнюваних величин статистично не значущі.

Для вивчення ефективності нового препарату заліза було обрано дві групи пацієнтів із анемією. У першій групі пацієнти протягом двох тижнів отримували новий препарат, а у другій групі – отримували плацебо. Після цього було проведено вимірювання рівня гемоглобіну у периферичній крові. У першій групі середній рівень гемоглобіну становив 115,4±1,2 г/л, а у другій - 103,7±2,3 г/л (дані представлені у форматі M±m), порівнювані сукупності мають нормальний розподіл. У цьому чисельність першої групи становила 34, а другий - 40 пацієнтів. Необхідно зробити висновок про статистичну значущість отриманих відмінностей та ефективність нового препарату заліза.

Рішення:Для оцінки значущості відмінностей використовуємо t-критерій Стьюдента, що розраховується як різниця середніх значень, поділена на суму квадратів помилок:

Після виконання розрахунків значення t-критерію виявилося рівним 4,51. Знаходимо число ступенів свободи як (34 + 40) – 2 = 72. Порівнюємо отримане значення t-критерію Стьюдента 4,51 з критичним при р = 0,05 значенням, зазначеним у таблиці: 1,993. Так як розраховане значення критерію більше критичного, робимо висновок про те, що відмінності, що спостерігаються, статистично значущі (рівень значущості р<0,05).


ПАРНИЙ t-КРИТЕРІЙ СТЬЮДЕНТА

Парний t-критерій Стьюдента – одне з модифікацій методу Стьюдента, використовувана визначення статистичної значимості відмінностей парних (повторних) вимірів.

1. Історія розробки t-критерію

t-критерій був розроблений Вільямом Держсетомдля оцінки якості пива в компанії Гіннес. У зв'язку з зобов'язаннями перед компанією щодо нерозголошення комерційної таємниці, стаття Держсету вийшла 1908 року в журналі «Біометрика» під псевдонімом «Student» (Студент).

2. Навіщо використовується парний t-критерій Стьюдента?

Парний t-критерій Стьюдента використовується для порівняння двох залежних (парних) вибірок. Залежними є вимірювання, виконані в тих самих пацієнтів, але в різний час, наприклад, артеріальний тиск у хворих на гіпертонічну хворобу до і після прийому антигіпертензивного препарату. Нульова гіпотеза говорить про відсутність відмінностей між порівнюваними вибірками, альтернативна - наявність статистично значимих відмінностей.

3. У яких випадках можна використовувати парний t-критерій Стьюдента?

Основною умовою є залежність вибірок, тобто порівнювані значення мають бути отримані при повторних вимірах одного параметра в тих самих пацієнтів.

Як і для порівняння незалежних вибірок, для застосування парного t-критерію необхідно, щоб вихідні дані мали нормальний розподіл. При недотриманні цієї умови для порівняння середніх вибіркових повинні використовуватися методи непараметричної статистики, такі як G-критерій знаківабо Т-критерій Вілкоксону.

Парний t-критерій може використовуватися лише при порівнянні двовибірок. Якщо потрібно порівняти три і більше повторних вимірів, слід використовувати однофакторний дисперсійний аналіз (ANOVA) для повторних вимірів.

4. Як розрахувати парний t-критерій Стьюдента?

Парний t-критерій Стьюдента розраховується за такою формулою:

де М d- середня арифметична різниць показників, виміряних до і після, σ d- Середнє квадратичне відхилення різниць показників, n- Число досліджуваних.

5. Як інтерпретувати значення t-критерію Стьюдента?

Інтерпретація отриманого значення парного t-критерію Стьюдента не відрізняється від оцінки t-критерію для непов'язаних сукупностей. Насамперед, необхідно знайти число ступенів свободи fза наступною формулою:

F = n - 1

Після цього визначаємо критичне значення t-критерію Стьюдента для необхідного рівня значущості (наприклад, p<0,05) и при данном числе степеней свободы fза таблицею (див. нижче).

Порівнюємо критичне та розраховане значення критерію:

  • Якщо розраховане значення парного t-критерію Стьюдента дорівнює або більше критичного, знайденого за таблицею, робимо висновок про статистичну значущість відмінностей між величинами, що порівнюються.
  • Якщо значення розрахованого парного t-критерію Стьюдента менше табличного, значить відмінності порівнюваних величин статистично не значущі.

6. Приклад розрахунку t-критерію Стьюдента

Для оцінки ефективності нового гіпоглікемічного засобу були проведені вимірювання рівня глюкози в крові пацієнтів, які страждають на цукровий діабет, до та після прийому препарату. В результаті було отримано такі дані:

Рішення:

1. Розрахуємо різницю кожної пари значень (d):

N пацієнта Рівень глюкози у крові, ммоль/л Різниця значень (d)
до прийому препарату після прийому препарату
1 9.6 5.7 3.9
2 8.1 5.4 2.7
3 8.8 6.4 2.4
4 7.9 5.5 2.4
5 9.2 5.3 3.9
6 8.0 5.2 2.8
7 8.4 5.1 3.3
8 10.1 6.9 3.2
9 7.8 7.5 2.3
10 8.1 5.0 3.1

2. Знайдемо середню арифметичну різниці за формулою:

3. Знайдемо середнє квадратичне відхилення різниць від середньої за формулою:

4. Розрахуємо парний t-критерій Стьюдента:

5. Порівняємо отримане значення t-критерію Стьюдента 8.6 з табличним значенням, яке при числі ступенів свободи f 10 - 1 = 9 і рівні значимості p = 0.05 становить 2.262. Оскільки отримане значення більше критичного, робимо висновок про наявність статистично значимих відмінностей вмісту глюкози в крові до прийому і після прийому нового препарату.

Показати таблицю критичних значень t-критерію Стьюдента

U-КРИТЕРІЙ МАННА-УИТНІ

U-критерій Манна-Уітні – непараметричний статистичний критерій, що використовується для порівняння двох незалежних вибірок за рівнем будь-якої ознаки, виміряної кількісно. Метод заснований на визначенні того, чи досить мала зона значень, що перехрещуються, між двома варіаційними рядами (ранжованим рядом значень параметра в першій вибірці і таким же в другій вибірці). Чим менше значення критерію, тим швидше, що різницю між значеннями параметра у вибірках достовірні.

1. Історія розробки U-критерію

Даний метод виявлення відмінностей між вибірками було запропоновано у 1945 році американським хіміком та статистиком Френком Вілкоксоном.
У 1947 році він був суттєво перероблений та розширений математиками Х.Б. Манном(H.B. Mann) та Д.Р. Вітні(D.R. Whitney), за іменами яких сьогодні зазвичай називається.

2. Для чого використовується U-критерій Манна-Уітні?

U-критерій Манна-Уітні використовується для оцінки відмінностей між двома незалежними вибірками за рівнем будь-якої кількісної ознаки.

3. У яких випадках можна використовувати U-критерій Манна-Уітні?

U-критерій Манна-Уітні є непараметричним критерієм, тому, на відміну від t-критерію Стьюдента

U-критерій підходить для порівняння малих вибірок: у кожній із вибірок має бути не менше 3 значень ознаки. Допускається, щоб в одній вибірці було 2 значення, але в другій має бути не менше п'яти.

Умовою для застосування U-критерію Манна-Уітні є відсутність у порівнюваних групах значень ознаки, що збігаються (усі числа – різні) або дуже мале число таких збігів.

Аналогом U-критерію Манна-Уітні для порівняння трьох і більше груп є Критерій Краскела-Уолліса.

4. Як розрахувати U-критерій Манна-Уітні?

Спочатку з обох порівнюваних вибірок складається єдиний ранжований ряд, шляхом розставлення одиниць спостереження за ступенем зростання ознаки та присвоєння меншому значенню меншого рангу У разі рівних значень ознаки у кількох одиниць кожної з них надається середнє арифметичне послідовних значень рангів.

Наприклад, дві одиниці, які займають у єдиному ранжированном ряду 2 і 3 місце (ранг), мають однакові значення. Отже, кожній з них надається ранг рівний (3 + 2) / 2 = 2,5.

У складеному єдиному ранжованому ряду загальна кількість рангів вийде рівною:

N = n 1 + n 2

де n 1 - кількість елементів у першій вибірці, а n 2 - кількість елементів у другій вибірці.

Далі знову поділяємо єдиний ранжований ряд на два, що складаються відповідно з одиниць першої та другої вибірок, запам'ятовуючи значення рангів для кожної одиниці. Підраховуємо окремо суму рангів, що припали частку елементів першої вибірки, і окремо - частку елементів другої вибірки. Визначаємо велику із двох рангових сум (T x) відповідну вибірці з n x елементами.

Нарешті, знаходимо значення U-критерію Манна-Уітні за формулою:

5. Як інтерпретувати значення U-критерію Манна-Уітні?

Отримане значення U-критерію порівнюємо за таблицею для обраного рівня статистичної значущості (p=0.05 або p=0.01) з критичним значенням U при заданій чисельності порівнянних вибірок:

  • Якщо отримане значення U меншетабличного або однойому, то визнається статистична значимість відмінностей між рівнями ознаки у аналізованих вибірках (приймається альтернативна гіпотеза). Достовірність відмінностей тим вища, що менше значення U.
  • Якщо ж отримане значення U більшетабличного, приймається нульова гіпотеза.
Показати таблицю критичних значень U-критерію Манна-Уітні при p=0.05

КРИТЕРІЙ УІЛКОКСОНА

Критерій Вілкоксону для пов'язаних вибірок (також використовуються назви Т-критерій Вілкоксона, критерій Вілкоксона, критерій знакових рангів Вілкоксона, критерій суми рангів Вілкоксону) – непараметричний статистичний критерій, що використовується для порівняння двох пов'язаних (парних) вибірок за рівнем у безперервній чи порядковій шкалі.

Суть методу у тому, що зіставляються абсолютні величини вираженості зрушень у тому чи іншому напрямі. Для цього спочатку всі абсолютні величини зрушень ранжуються, а потім підсумовуються ранги. Якщо зрушення у той чи інший бік відбуваються випадково, то суми їх рангів виявляться приблизно рівні. Якщо ж інтенсивність зрушень в одну сторону більша, то сума рангів абсолютних значень зрушень у протилежний бік буде значно нижчою, ніж це могло бути при випадкових змінах.

1. Історія розробки критерію Вілкоксона для пов'язаних вибірок

Тест був уперше запропонований у 1945 році американським статистиком та хіміком Френком Вілкоксоном (1892-1965). У тій же науковій роботі автором було описано ще один критерій, який застосовується у разі порівняння незалежних вибірок.

2. Для чого використовується критерій Вілкоксона?

Т-критерій Вілкоксона використовується для оцінки відмінностей між двома рядами вимірювань, виконаних для однієї і тієї ж сукупності досліджуваних, але в різних умовах або в різний час. Даний тест здатний виявити спрямованість та вираженість змін - тобто, чи є показники більш зрушеними в одному напрямку, ніж в іншому.

Класичним прикладом ситуації, в якій може застосовуватися Т-критерій Вілкоксону для пов'язаних сукупностей, є дослідження "до-після", коли порівнюються показники до та після лікування. Наприклад, щодо ефективності антигіпертензивного засобу порівнюється артеріальний тиск до прийому препарату і після прийому.

3. Умови та обмеження застосування Т-критерію Вілкоксону

  1. Критерій Вілкоксона є непараметричним критерієм, тому, на відміну від парного t-критерію Стьюдентане вимагає наявності нормального розподілу порівнюваних сукупностей.
  2. Число досліджуваних при використанні T-критерію Вілкоксону повинно бути не менше ніж 5.
  3. Досліджуваний ознака може бути виміряний як у кількісній безперервній (артеріальний тиск, ЧСС, вміст лейкоцитів в 1 мл крові), так і в порядковій шкалі (число балів, ступінь тяжкості захворювання, ступінь обсіменіння мікроорганізмами).
  4. Цей критерій використовується лише у разі порівняння двох рядів вимірювань. Аналогом Т-критерію Вілкоксона для порівняння трьох і більше пов'язаних сукупностей є Критерій Фрідмана.

4. Як розрахувати Т-критерій Вілкоксона для пов'язаних вибірок?

  1. Обчислити різницю між значеннями парних вимірів кожного досліджуваного. Нульові зрушення далі не враховуються.
  2. Визначити, які з різниць є типовими, тобто відповідають переважному за частотою напряму зміни показника.
  3. Проранжувати різниці пар за їхніми абсолютними значеннями (тобто, без урахування знака), у порядку зростання. Найменшому абсолютному значенню різниці приписується менший ранг.
  4. Розрахувати суму рангів, що відповідають нетиповим зсувам.

Таким чином, Т-критерій Вілкоксону для пов'язаних вибірок розраховується за такою формулою:

де ΣRr - сума рангів, що відповідають нетиповим змінам показника.

5. Як інтерпретувати значення критерію Вілкоксона?

Отримане значення T-критерію Вілкоксона порівнюємо з критичним за таблицею для обраного рівня статистичної значущості ( p=0.05або p=0.01) при заданій чисельності зіставлюваних вибірок n:

  • Якщо розрахункове (емпіричне) значення Темп. менше табличного Т кр. або одно йому, то визнається статистична значущість змін показника в типовий бік (приймається альтернативна гіпотеза). Достовірність відмінностей тим вища, що менше значення Т.
  • Якщо Т емп. більше Т кр. , Приймається нульова гіпотеза про відсутність статистичної значущості змін показника

Приклад розрахунку критерію Вілкоксону для пов'язаних вибірок

Фармацевтичною компанією проводиться дослідження нового препарату із групи нестероїдних протизапальних засобів. Для цього відібрано групу з 10 добровольців, які страждають на ГРВІ з гіпертермією. У них було виміряно температуру тіла до і через 30 хвилин після прийому нового препарату. Потрібно зробити висновок про значущість зниження температури тіла внаслідок прийому препарату.

  1. Вихідні дані оформлені у вигляді таблиці:
  2. Для розрахунку Т-критерію Вілкоксона розрахуємо різниці парних показників та проранжуємо їх абсолютні значення. При цьому нетипові ранги виділимо червоним шрифтом:
    N Прізвище t тіла до прийому препарату t тіла після прийому препарату Різниця показників, d |d| Ранг
    1. Іванов 39.0 37.6 -1.4 1.4 7
    2. Петров 39.5 38.7 -0.8 0.8 5
    3. Сидорів 38.6 38.7 0.1 0.1 1.5
    4. Попов 39.1 38.5 -0.6 0.6 4
    5. Миколаїв 40.1 38.6 -1.5 1.5 8
    6. Козлів 39.3 37.5 -1.8 1.8 9
    7. Ігнатьєв 38.9 38.8 -0.1 0.1 1.5
    8. Семенов 39.2 38.0 -1.2 1.2 6
    9. Єгоров 39.8 39.8 0
    10. Алексєєв 38.8 39.3 0.5 0.5 3
    Як ми бачимо, типовим зрушеннямпоказника є його зниження, зазначене у 7 випадках з 10. В одному випадку (у пацієнта Єгорова) – температура після прийому препарату не змінилася, у зв'язку з чим цей випадок не використовувався у подальшому аналізі. У двох випадках (у пацієнтів Сидорова та Алексєєва) відзначався нетипове зрушеннятемператури у бік підвищення. Ранги, що відповідають нетиповому зрушенню, дорівнюють 1.5 і 3.
  3. Розрахуємо Т-критерій Вілкоксона, який дорівнює сумі рангів, що відповідають нетиповому зрушенню показника:

    T = ΣRr = 3 + 1.5 = 4.5

  4. Порівнюємо Т емп. з Т кр. , Що при рівні значимості p = 0.05 і n = 9 дорівнює 8. Отже, Т емп.
  5. Робимо висновок: зниження температури тіла у пацієнтів з ГРВІ в результаті прийому нового препарату є статистично значущим (р<0.05).
Показати таблицю критичних значень Т-критерію Вілкоксону

КРИТЕРІЙ ХІ-КВАДРАТ ПІРСОНА

Критерій χ 2 Пірсона – це непараметричний метод, який дозволяє оцінити значущість відмінностей між фактичною (виявленою в результаті дослідження) кількістю результатів або якісних характеристик вибірки, що потрапляють у кожну категорію, та теоретичною кількістю, яку можна очікувати в групах, що вивчаються при справедливості нульової гіпотези. Висловлюючись простіше, метод дозволяє оцінити статистичну значущість відмінностей двох чи кількох відносних показників (частот, часток).

1. Історія розробки критерію χ 2

Критерій хі-квадрат для аналізу таблиць сполученості був розроблений та запропонований у 1900 році англійським математиком, статистиком, біологом та філософом, засновником математичної статистики та одним із основоположників біометрики Карлом Пірсоном(1857-1936).

2. Для чого використовується критерій 2 Пірсона?

Критерій хі-квадрат може застосовуватися під час аналізу таблиць сполученості, що містять відомості про частоту наслідків залежно від наявності фактора ризику. Наприклад, чотирипільна таблиця сполученості виглядає так:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Як заповнити таку таблицю поєднання? Розглянемо невеликий приклад.

Проводиться дослідження впливу куріння на ризик розвитку гіпертонії. Для цього було відібрано дві групи досліджуваних – до першої увійшли 70 осіб, які щодня викурюють не менше 1 пачки цигарок, у другу – 80 некурців такого ж віку. У першій групі у 40 осіб відзначався підвищений артеріальний тиск. У другій – артеріальна гіпертонія спостерігалася у 32 осіб. Відповідно, нормальний артеріальний тиск у групі курців був у 30 осіб (70 – 40 = 30) а у групі некурців – у 48 (80 – 32 = 48).

Заповнюємо вихідними даними чотирипільну таблицю сполученості:

В отриманій таблиці спряженості кожен рядок відповідає певній групі досліджуваних. Стовпці - показують кількість осіб із артеріальною гіпертонією чи з нормальним артеріальним тиском.

Завдання, яке ставиться перед дослідником: чи є статистично значущі відмінності між частотою осіб з артеріальним тиском серед курців та некурців? Відповісти на це питання можна, розрахувавши критерій хі-квадрат Пірсона і порівнявши значення, що вийшло, з критичним.

  1. Порівняні показники повинні бути виміряні в номінальній шкалі (наприклад, стать пацієнта - чоловіча або жіноча) або в порядковій (наприклад, ступінь артеріальної гіпертензії, що приймає значення від 0 до 3).
  2. Даний метод дозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча чи жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.
  3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до" після. У цих випадках проводиться тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).
  4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.
  5. У разі аналізу багатопільних таблиць очікуване число спостережень має приймати значення менше 5 більш ніж 20% осередків.

4. Як розрахувати критерій хі-квадрат Пірсона?

Для розрахунку критерію хі-квадрату необхідно:

Даний алгоритм застосуємо як для чотирипольних, так багатопольних таблиць.

5. Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію χ 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язку між фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

6. Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значущість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

  1. Розраховуємо очікувані значення для кожного осередку:
  2. Знаходимо значення критерію хі-квадрат Пірсона:

    χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значення критерію хі-квадрат Пірсона, яке при рівні значущості p = 0.05 та числі ступенів свободи 1 становить 3.841.
  4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.
Показати таблицю критичних значень критерію хі-квадрат Пірсона

ТОЧНИЙ КРИТЕРІЙ ФІШЕРА

Точний критерій Фішера – це критерій, який використовується для порівняння двох відносних показників, що характеризують частоту певної ознаки, що має два значення. Вихідні дані до розрахунку точного критерію Фішера зазвичай групуються як чотирипольної таблиці.

1. Історія розробки критерію

Вперше критерій було запропоновано Рональдом Фішерому його книзі "Проектування експериментів". Це сталося 1935 року. Сам Фішер стверджував, що на цю думку наштовхнула його Муріель Брістоль. На початку 1920-х років Рональд, Муріель та Вільям Роуч перебували в Англії на дослідній сільськогосподарській станції. Муріель стверджувала, що може визначити, в якій послідовності наливали у її чашку чай та молоко. На той момент перевірити правильність її висловлювання неможливо.

Це дало поштовх ідеї Фішера про «нуль гіпотезу». Метою стала не спроба довести, що Муріель може визначити різницю між приготовленими по-різному чашками чаю. Вирішено було спростувати гіпотезу, що вибір жінка робить навмання. Було визначено, що нуль-гіпотезу не можна довести, ні обгрунтувати. Натомість її можна спростувати під час експериментів.

Було виготовлено 8 чашок. У перші чотири налито молоко спочатку, в інші чотири – чай. Чашки були схиблені. Брістоль запропонували випробувати чай на смак та розділити чашки за методом приготування чаю. В результаті мало вийти дві групи. Історія свідчить, що експеримент пройшов вдало.

Завдяки тесту Фішера ймовірність того, що Брістоль діє інтуїтивно, було зменшено до 0.01428. Тобто правильно визначити чашку можна було в одному випадку з 70. Але все ж таки немає можливості звести до нуля шанси того, що мадам визначає випадково. Навіть якщо збільшувати кількість чашок.

Ця історія дала поштовх розвитку «нуль гіпотези». Тоді ж було запропоновано точний критерій Фішера, суть якого у переборі всіх можливих комбінацій залежної та незалежної змінних.

2. Навіщо використовується точний критерій Фішера?

Точний критерій Фішера переважно застосовується порівняння малих вибірок. Цьому є дві вагомі причини. По-перше, обчислення критерію є досить громіздкими і можуть займати багато часу або вимагати потужних обчислювальних ресурсів. По-друге, критерій досить точний (що відбилося навіть у його назві), що дозволяє його використовувати в дослідженнях з невеликою кількістю спостережень.

Особливе місце приділяється точному критерію Фішера в медицині. Це важливий метод обробки медичних даних, який знайшов своє застосування у багатьох наукових дослідженнях. Завдяки йому можна дослідити взаємозв'язок певних факторів і результатів, порівнювати частоту патологічних станів між двома групами досліджуваних і т.д.

3. У яких випадках можна використати точний критерій Фішера?

  1. Змінні змінні повинні бути виміряні в номінальній шкалі і мати тільки два значення, наприклад, артеріальний тиск в нормі або підвищено, результат сприятливий або несприятливий, післяопераційні ускладнення є чи ні.
  2. Точний критерій Фішера призначено для порівняння двох незалежних груп, розділених за факторною ознакою. Відповідно, фактор також повинен мати лише два можливі значення.
  3. Критерій підходить для порівняння дуже малих вибірок: точний критерій Фішера може застосовуватися для аналізу чотириповних таблиць у разі значень очікуваного явища менше 5, що є обмеженням застосування критерію хі-квадрат Пірсонанавіть з урахуванням поправки Йейтса.
  4. Точний критерій Фішера буває одностороннім та двостороннім. При односторонньому варіанті точно відомо, куди відхилиться один із показників. Наприклад, під час дослідження порівнюють, скільки пацієнтів одужало порівняно з групою контролю. Припускають, що терапія неспроможна погіршити стан пацієнтів, лише чи вилікувати, чи ні.
    Двосторонній тест оцінює відмінності частот у двох напрямках. Тобто оцінюється ймовірність як більшої, і меншої частоти явища в експериментальної групі проти контрольної групою.

Аналогом точного критерію Фішера є Критерій хі-квадрат Пірсона, при цьому точний критерій Фішера має більш високу потужність, особливо при порівнянні малих вибірок, у зв'язку з чим у цьому випадку має перевагу.

4. Як розрахувати точний критерій Фішера?

Допустимо, вивчається залежність частоти народження дітей із вродженими вадами розвитку (ВПР) від куріння матері під час вагітності. Для цього вибрано дві групи вагітних жінок, одна з яких - експериментальна, що складається з 80 жінок, які курили в першому триместрі вагітності, а друга - група порівняння, що включає 90 жінок, які ведуть здоровий спосіб життя протягом усієї вагітності. Число випадків ВВР плода в експериментальній групі склало 10, у групі порівняння - 2.

Спочатку складаємо чотирипольну таблицю сполученості:

Точний критерій Фішера розраховується за такою формулою:

де N - загальна кількість досліджуваних у двох групах; ! - факторіал, що є добутком числа на послідовність чисел, кожне з яких менше попереднього на 1 (наприклад, 4! = 4 · 3 · 2 · 1)

В результаті обчислень знаходимо, що P = 0,0137.

5. Як інтерпретувати значення точного критерію Фішера?

Перевагою методу є відповідність отриманого критерію точного значення рівня значущості p. Тобто, отримане в прикладі значення 0,0137 і є рівень значущості відмінностей порівнюваних груп за частотою розвитку ВПР плода. Потрібно лише порівняти це число з критичним рівнем значущості, зазвичай прийнятим у медичних дослідженнях за 0,05.

  • Якщо значення точного критерію Фішера більше критичного, приймається нульова гіпотеза і робиться висновок про відсутність статистично значимих відмінностей частоти результату в залежності від фактору ризику.
  • Якщо значення точного критерію Фішера менше критичного, приймається альтернативна гіпотеза і робиться висновок про наявність статистично значимих відмінностей частоти результату в залежності від впливу фактора ризику.

У нашому прикладі P< 0,05, в связи с чем делаем вывод о наличии прямой взаимосвязи курения и вероятности развития ВПР плода. Частота возникновения врожденной патологии у детей курящих женщин статистически значимо выше, чем у некурящих.


СТАВЛЕННЯ ШАНСІВ

Ставлення шансів – статистичний показник (російською його назву прийнято скорочувати як ЗОШ, а англійською - OR від "odds ratio"), один з основних способів описати в чисельному вираженні те, наскільки відсутність або наявність певного результату пов'язана з присутністю або відсутністю певного фактора у конкретній статистичній групі.

1. Історія розробки показника відношення шансів

Термін "шанс" прийшов з теорії азартних ігор, де за допомогою цього поняття означали відношення виграшних позицій до програшних. У науковій медичній літературі показник відношення шансів було вперше згадано у 1951 році в роботі Дж. Корнфілда. Згодом даним дослідником були опубліковані роботи, в яких наголошувалося на необхідності розрахунку 95% довірчого інтервалу для відношення шансів. (Cornfield, J. A Method for Estimating Comparative Rates from Clinical Data. Applications to Cancer of the Lung, Breast, and Cervix // Journal of the National Cancer Institute, 1951. - N.11. - P.1269-1275.)

2. Для чого використовується показник відношення шансів?

Ставлення шансів дозволяє оцінити зв'язок між певним результатом та фактором ризику.

Ставлення шансів дозволяє порівняти групи досліджуваних за частотою виявлення певного чинника ризику. Важливо, що результатом застосування відношення шансів є не лише визначення статистичної значущості зв'язку між фактором та результатом, а й її кількісна оцінка.

3. Умови та обмеження застосування відносин шансів

  1. Результативні та факторні показники мають бути виміряні у номінальній шкалі. Наприклад, результативна ознака - наявність або відсутність вродженої вади розвитку у плода, фактор, що вивчається - куріння матері (курить або не курить).
  2. Даний метод дозволяє проводити аналіз тільки чотирипільних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, стать - чоловіча або жіноча, артеріальна гіпертонія - наявність або відсутність, результат захворювання - з поліпшенням або без поліпшення ...).
  3. Порівнювані групи мають бути незалежними, тобто показник відношення шансів не підходить для порівняння спостережень "до" після.
  4. Показник відношення шансів використовується в дослідженнях на кшталт "випадок-контроль" (наприклад, перша група - хворі на гіпертонічну хворобу, друга - відносно здорові люди). Для проспективних досліджень, коли групи формуються за ознакою наявності або відсутності фактора ризику (наприклад, перша група - курці, друга група - некурці) може також розраховуватися відносний ризик.

4. Як розрахувати ставлення шансів?

Відношення шансів – це значення дробу, у чисельнику якого, є шанси певної події першої групи, а знаменнику шанси тієї самої події другої групи.

Шансомє відношення числа досліджуваних, що мають певну ознаку (вихід або фактор), до досліджуваних, у яких дана ознака відсутня.

Наприклад, було відібрано групу пацієнтів, прооперованих з приводу панкреонекрозу, кількість яких склала 100 осіб. Через 5 років з їхнього числа живими залишилося 80 осіб. Відповідно, шанс вижити становив 80 до 20, або 4.

Зручним способом є розрахунок відношення шансів зі зведенням даних до таблиці 2х2:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Для даної таблиці відношення шансів розраховується за такою формулою:

Дуже важливо оцінити статистичну значущість виявленого зв'язку між результатом та фактором ризику. Пов'язано це з тим, що навіть при невисоких значеннях відношення шансів, близьких до одиниці, зв'язок може виявитися суттєвим і повинен враховуватися в статистичних висновках. І навпаки, при великих значеннях OR, показник виявляється статистично незначним, і, отже, виявленим зв'язком можна знехтувати.

Для оцінки значущості відношення шансів розраховуються межі 95% довірчого інтервалу (використовується абрревіатура 95% ДІ або 95% CI від англ. "confidence interval"). Формула для знаходження значення верхньої межі 95% CI:

Формула для знаходження значення нижньої межі 95% CI:

5. Як інтерпретувати значення шансів?

  • Якщо відношення шансів перевищує 1, це означає, що шанси виявити чинник ризику більше у групі з наявністю результату. Тобто. фактор має прямий зв'язок із ймовірністю настання результату.
  • Відношення шансів, що має значення менше 1, свідчить про те, що шанси виявити фактор ризику більший у другій групі. Тобто. фактор має зворотний зв'язок із ймовірністю настання результату.
  • Щодо шансів, що дорівнює одиниці, шанси виявити фактор ризику в порівнюваних групах однакова. Відповідно, фактор не впливає на ймовірність результату.

Додатково у кожному випадку обов'язково оцінюється статистична значущість відношення шансів, виходячи зі значень 95% довірчого інтервалу.

  • Якщо довірчий інтервал не включає 1, тобто. обидва значення меж або вище, або нижче 1, робиться висновок про статистичну значущість виявленого зв'язку між фактором і результатом при рівні значимості p<0,05.
  • Якщо довірчий інтервал включає 1, тобто. його верхня межа більше 1, а нижня - менше 1, робиться висновок про відсутність статистичної значущості зв'язку між фактором і результатом при рівні значущості p>0,05.
  • Величина довірчого інтервалу обернено пропорційна рівню значущості зв'язку чинника і результату, тобто. що менше 95% ДІ, то більш суттєвою є виявлена ​​залежність.

6. Приклад розрахунку показника відношення шансів

Представимо дві групи: перша складалася з 200 жінок, у яких було діагностовано вроджену ваду розвитку плода (Вихід+). З них курили під час вагітності (Фактор+) – 50 осіб (А), які були некурцями (Фактор-) - 150 осіб (С).

Другу групу склали 100 жінок без ознак ВВР плоду (Вихід -) серед яких курили під час вагітності (Фактор+) 10 осіб (B), не курили (Фактор-) - 90 осіб (D).

1. Складемо чотирипольну таблицю сполученості:

2. Розрахуємо значення відношення шансів:

OR = (A * D) / (B * C) = (50 * 90) / (150 * 10) = 3.

3. Знайдемо межі 95% CI. Значення нижньої межі, розрахованої за зазначеною вище формулою, склало 1,45, а верхньої - 6,21.

Таким чином, дослідження показало, що шанси зустріти жінку, що курить, серед пацієнток з діагностованим ВПР плода в 3 рази вище, ніж серед жінок без ознак ВПР плода. Залежність, що спостерігається, є статистично значущою, оскільки 95% CI не включає 1, значення його нижньої і верхньої меж більше 1.


ВІДНОСНИЙ РИЗИК

Ризик – це ймовірність появи певного результату, наприклад хвороби чи травми. Ризик може набувати значення від 0 (ймовірність настання результату відсутня) до 1 (у всіх випадках очікується несприятливий результат). У медичній статистиці, як правило, вивчаються зміни ризику настання результату залежно від будь-якого фактора. Пацієнти умовно поділяються на 2 групи, однією з яких чинник впливає, іншу – немає.

Відносний ризик - це відношення частоти результатів серед досліджуваних, на яких впливав фактор, що вивчається, до частоти результатів серед досліджуваних, які не піддавалися впливу цього фактора. У науковій літературі часто використовують скорочену назву показника – ОР або RR (від англ. Relative risk).

1. Історія розробки показника відносного ризику

Розрахунок відносного ризику запозичений медичною статистикою з економіки. Правильна оцінка впливу політичних, економічних та соціальних факторів на затребуваність товару чи послуги може призвести до успіху, а недооцінка цих факторів – до фінансових невдач та банкрутства підприємства.

2. Навіщо використовується відносний ризик?

Відносний ризик використовується порівняння ймовірності результату залежно від наявності чинника ризику. Наприклад, в оцінці впливу куріння на частоту гіпертонічної хвороби, щодо залежності частоти раку молочної залози від прийому оральних контрацептивів та інших. Відносний ризик - найважливіший показник у призначенні певних методів лікування чи проведенні досліджень із можливими побічними ефектами.

3. Умови та обмеження застосування відносного ризику

  1. Показники фактора та результату мають бути виміряні в номінальній шкалі (наприклад, стать пацієнта - чоловіча або жіноча, артеріальна гіпертонія - є чи ні).
  2. Даний метод дозволяє проводити аналіз тільки чотирипільних таблиць, коли і фактор, і результат є інарними змінними, тобто мають тільки два можливі значення (наприклад, вік молодше або старше 50 років, наявність або відсутність певного захворювання в анамнезі).
  3. Відносний ризик застосовується під час проспективних досліджень, коли досліджувані групи формуються за ознакою наявності чи відсутності фактора ризику. При дослідженнях за принципом "випадок-контроль" замість відносного ризику слід використовувати показник відносини шансів.

4. Як розрахувати відносний ризик?

Для розрахунку відносного ризику необхідно:

5. Як тлумачити значення відносного ризику?

Показник відносного ризику порівнюється з 1 для того, щоб визначити характер зв'язку фактора та результату:

  • Якщо ОР дорівнює 1, можна дійти невтішного висновку, що досліджуваний чинник впливає ймовірність результату (відсутність зв'язку між чинником і результатом).
  • При значеннях більше 1 робиться висновок у тому, що чинник підвищує частоту результатів (прямий зв'язок).
  • При значеннях менше 1 – про зниження ймовірності результату при впливі фактора (зворотний зв'язок).

Також обов'язково оцінюються значення меж 95% довірчого інтервалу. Якщо обидва значення - і нижньої, і верхньої межі - знаходяться по один бік від 1, або, іншими словами, довірчий інтервал не включає 1, робиться висновок про статистичну значущість виявленого зв'язку між фактором і результатом з ймовірністю помилки p<0,05.

Якщо нижня межа 95% ДІ менше 1, а верхня - більше, робиться висновок про відсутність статистичної значущості впливу фактора на частоту результату, незалежно від величини показника ОР (p>0,05).

6. Приклад розрахунку показника відносного ризику

У 1999 році в Оклахомі проводилися дослідження захворюваності чоловіків на виразку шлунка. Як фактор, що впливає, було обрано регулярне споживання фастфуду. У першій групі перебували 500 чоловіків, які постійно харчуються швидкою їжею, серед яких виразку шлунка діагностували у 96 осіб. У другу групу було відібрано 500 прихильників здорового харчування, серед яких виразка шлунка була діагностована у 31 випадку. Виходячи з отриманих даних, була побудована наступна таблиця сполученості:


КРИТЕРІЙ КОРРЕЛЯЦІЇ ПІРСОНУ

Критерій кореляції Пірсона – це метод параметричної статистики, що дозволяє визначити наявність або відсутність лінійного зв'язку між двома кількісними показниками, а також оцінити її тісноту та статистичну значимість. Інакше кажучи, критерій кореляції Пірсона дозволяє визначити, чи змінюється (збільшується чи зменшується) один показник у відповідь зміни інших? У статистичних розрахунках та висновках коефіцієнт кореляції зазвичай позначається як r xy або R xy.

1. Історія розробки критерію кореляції

Критерій кореляції Пірсона був розроблений командою британських учених на чолі з Карлом Пірсоном(1857-1936) у 90-х роках 19-го століття, для спрощення аналізу коваріації двох випадкових величин. Крім Карла Пірсона, над критерієм кореляції Пірсона працювали також Френсіс Еджуорті Рафаель Велдон.

2. Навіщо використовується критерій кореляції Пірсона?

Критерій кореляції Пірсона дозволяє визначити, яка тіснота (або сила) кореляційного зв'язку між двома показниками, виміряними у кількісній шкалі. За допомогою додаткових розрахунків можна також визначити, наскільки статистично значущий виявлений зв'язок.

Наприклад, за допомогою критерію кореляції Пірсона можна відповісти на питання про наявність зв'язку між температурою тіла та вмістом лейкоцитів у крові при гострих респіраторних інфекціях, між зростанням та вагою пацієнта, між вмістом у питній воді фтору та захворюваністю населення на карієс.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в кількісній шкалі (наприклад, частота серцевих скорочень, температура тіла, вміст лейкоцитів в 1 мл крові, артеріальний систолічний тиск).
  2. За допомогою критерію кореляції Пірсона можна визначити лише наявність та силу лінійного взаємозв'язку між величинами. Інші характеристики зв'язку, у тому числі напрямок (прямий або зворотний), характер змін (прямолінійний або криволінійний), а також наявність залежності однієї змінної від іншої - визначаються за допомогою регресійного аналізу.
  3. Кількість зіставлюваних величин має дорівнювати двом. У разі аналізу взаємозв'язку трьох і більше параметрів слід скористатися методом факторного аналізу.
  4. Критерій кореляції Пірсона є параметричним, у зв'язку з чим умовою його застосування є нормальний розподіл кожної зі змінних, що зіставляються. У разі потреби кореляційного аналізу показників, розподіл яких відрізняється від нормального, у тому числі виміряних у порядковій шкалі, слід використовувати коефіцієнт рангової кореляції Спірмена.
  5. Слід чітко розрізняти поняття залежності та кореляції. Залежність величин обумовлює наявність кореляційного зв'язку з-поміж них, але з навпаки.

Наприклад, зростання дитини залежить від її віку, тобто чим старша дитина, тим вона вища. Якщо ми візьмемо двох дітей різного віку, то з високою ймовірністю зростання старшої дитини буде більше, ніж у молодшого. Дане явище і називається залежністю, що передбачає причинно-наслідковий зв'язок між показниками. Зрозуміло, між ними є і кореляційний зв'язок, що означає, що зміни одного показника супроводжуються змінами іншого показника.

В іншій ситуації розглянемо зв'язок зростання дитини та частоти серцевих скорочень (ЧСС). Як відомо, обидві ці величини безпосередньо залежать від віку, тому в більшості випадків діти більшого зростання (а значить і старшого віку) матимуть менші значення ЧСС. Тобто кореляційний зв'язок спостерігатиметься і може мати досить високу тісноту. Однак, якщо ми візьмемо дітей одного віку, але різного зростання, то, швидше за все, ЧСС у них відрізнятиметься несуттєво, у зв'язку з чим можна зробити висновок про незалежність ЧСС від зростання.

Наведений приклад показує, наскільки важливо розрізняти фундаментальні у статистиці поняття зв'язку та залежності показників для побудови вірних висновків.

4. Як розрахувати коефіцієнт кореляції Пірсона?

Розрахунок коефіцієнта кореляції Пірсона здійснюється за такою формулою:

5. Як інтерпретувати значення коефіцієнта кореляції Пірсона?

Значення коефіцієнта кореляції Пірсона інтерпретуються з його абсолютних значень. Можливі значення коефіцієнта кореляції варіюють від 0 до ±1. Чим більше абсолютне значення r xy – тим вища тіснота зв'язку між двома величинами. r xy = 0 говорить про повну відсутність зв'язку. r xy = 1 – свідчить про наявність абсолютного (функціонального) зв'язку. Якщо значення критерію кореляції Пірсона виявилося більшим за 1 або менше -1 – у розрахунках допущена помилка.

Для оцінки тісноти або сили кореляційного зв'язку зазвичай використовують загальноприйняті критерії, згідно з якими абсолютні значення r xy< 0.3 свидетельствуют о слабкоюзв'язку, значення r xy від 0.3 до 0.7 - про зв'язок середньоїтісноти, значення r xy > 0.7 - о сильноюзв'язку.

Точнішу оцінку сили кореляційного зв'язку можна отримати, якщо скористатися таблицею Чеддока:

Оцінка статистичної значущості коефіцієнта кореляції r xy здійснюється за допомогою t-критерію, що розраховується за такою формулою:

Отримане значення t r порівнюється з критичним значенням за певного рівня значущості та числа ступенів свободи n-2. Якщо t r перевищує t критий, то робиться висновок про статистичну значущість виявленого кореляційного зв'язку.

6. Приклад розрахунку коефіцієнта кореляції Пірсона

Метою дослідження було виявлення, визначення тісноти та статистичної значущості кореляційного зв'язку між двома кількісними показниками: рівнем тестостерону в крові (X) та відсотком м'язової маси в тілі (Y). Вихідні дані для вибірки, що складається з 5 досліджуваних (n = 5), зведені в таблиці:


КРИТЕРІЙ СПІРМЕНА

p align="justify"> Коефіцієнт рангової кореляції Спірмена - це непараметричний метод, який використовується з метою статистичного вивчення зв'язку між явищами. У цьому випадку визначається фактичний ступінь паралелізму між двома кількісними рядами ознак, що вивчаються, і дається оцінка тісноти встановленого зв'язку за допомогою кількісно вираженого коефіцієнта.

1. Історія розробки коефіцієнта рангової кореляції

Цей критерій було розроблено та запропоновано для проведення кореляційного аналізу у 1904 році. Чарльзом Едвардом Спірменом, англійським психологом, професором Лондонського та Честерфілдського університетів.

2. Навіщо використовується коефіцієнт Спірмена?

Коефіцієнт рангової кореляції Спірмена використовується для виявлення та оцінки тісноти зв'язку між двома рядами кількісних показників, що зіставляються. У тому випадку, якщо ранги показників, упорядкованих за ступенем зростання або спадання, у більшості випадків збігаються (більшому значенню одного показника відповідає більше значення іншого показника - наприклад, при зіставленні зростання пацієнта та його маси тіла), робиться висновок про наявність прямийкореляційного зв'язку. Якщо ранги показників мають протилежну спрямованість (великому значенню одного показника відповідає менше значення іншого - наприклад, при зіставленні віку та частоти серцевих скорочень), то говорять про зворотнійзв'язок між показниками.

    Коефіцієнт кореляції Спірмена має такі властивості:
  1. Коефіцієнт кореляції може набувати значення від мінус одиниці до одиниці, причому при rs=1 має місце прямий зв'язок, а при rs= -1 – суворо зворотний зв'язок.
  2. Якщо коефіцієнт кореляції негативний, має місце зворотний зв'язок, якщо позитивний, то – прямий зв'язок.
  3. Якщо коефіцієнт кореляції дорівнює нулю, зв'язок між величинами практично відсутня.
  4. Чим ближче модуль коефіцієнта кореляції до одиниці, тим сильнішим є зв'язок між вимірюваними величинами.

3. У яких випадках можна використати коефіцієнт Спірмена?

У зв'язку з тим, що коефіцієнт є методом непараметричного аналізу, перевірка на нормальність розподілу не потрібна.

Порівняні показники можуть бути виміряні як у безперервній шкалі (наприклад, кількість еритроцитів в 1 мкл крові), так і в порядковій (наприклад, оцінки оцінки від 1 до 5).

Ефективність і якість оцінки методом Спірмена знижується, якщо різниця між різними значеннями якоїсь із вимірюваних величин досить велика. Не рекомендується використовувати коефіцієнт Спірмена, якщо є нерівномірний розподіл значень вимірюваної величини.

4. Як розрахувати коефіцієнт Спірмена?

Розрахунок коефіцієнта рангової кореляції Спірмена включає такі етапи:

5. Як інтерпретувати значення коефіцієнта Спірмена?

При використанні коефіцієнта рангової кореляції умовно оцінюють тісноту зв'язку між ознаками, вважаючи значення коефіцієнта менше 0,3 ознакою слабкої тісноти зв'язку; значення більше 0,3, але менше 0,7 - ознакою помірної тісноти зв'язку, а значення 0,7 і більше ознакою високої тісноти зв'язку.

Також для оцінки тісноти зв'язку може використовуватись шкала Чеддока.

Статистична значимість отриманого коефіцієнта оцінюється з допомогою t-критерію Стьюдента. Якщо розраховане значення t-критерію менше табличного при заданому числі ступенів свободи, статистична значимість взаємозв'язку, що спостерігається, - відсутня. Якщо більше, то кореляційний зв'язок вважається статистично значущим.


МЕТОД КОЛМОГОРОВА-СМИРНОВА

Критерій Колмогорова-Смирнова – непараметричний критерій згоди, у класичному розумінні призначений перевірки простих гіпотез про належність аналізованої вибірки деякому відомому закону розподілу. Найбільш відоме застосування даного критерію для перевірки досліджуваних сукупностей нормальності розподілу.

1. Історія розробки критерію Колмогорова-Смирнова

Критерій Колмогорова-Смирнова був розроблений радянськими математиками Андрієм Миколайовичем Колмогоровимі Миколою Васильовичем Смирновим.
Колмогоров А.М. (1903-1987) – Герой Соціалістичної Праці, професор Московського державного університету, академік АН СРСР – найбільший математик XX століття, є одним із основоположників сучасної теорії ймовірності.
Смирнов Н.В. (1900-1966) - член-кореспондент АН СРСР, один із творців непараметричних методів математичної статистики та теорії граничних розподілів порядкових статистик.

Згодом критерій згоди Колмогорова-Смирнова був доопрацьований з метою застосування для перевірки сукупностей на нормальність розподілу американським статистиком, професором Університету Джорджа Вашингтона Х'юбертом Ліллієфорсом(Hubert Whitman Lilliefors, 1928-2008). Професор Ліллієфорс був одним із піонерів застосування комп'ютерної техніки у статистичних розрахунках.

Х'юберт Ліллієфорс

2. Навіщо використовується критерій Колмогорова-Смирнова?

Цей критерій дозволяє оцінити суттєвість відмінностей між розподілами двох вибірок, у тому числі можливе його застосування для оцінки відповідності розподілу досліджуваної вибірки закону нормального розподілу.

3. У яких випадках можна використати критерій Колмогорова-Смирнова?

Критерій Колмогорова-Смирнова призначений для перевірки нормальності розподілу сукупностей кількісних даних.

Для більшої достовірності отриманих даних обсяги аналізованих вибірок має бути досить великими: n ≥ 50. При розмірах оцінюваної сукупності від 25 до 50 елементів доцільно застосування поправки Більшова.

4. Як розрахувати критерій Колмогорова-Смирнова?

Критерій Колмогорова-Смирнова розраховується з допомогою спеціальних статистичних програм. В основі лежить статистика виду:

де sup S- точна верхня грань множини S, F n- функція розподілу досліджуваної сукупності, F(x)- функція нормального розподілу

Значення ймовірності, що виводяться, засновані на припущенні, що середнє і стандартне відхилення нормального розподілу відомі апріорі і не оцінюються з даних.

Однак на практиці зазвичай параметри обчислюються безпосередньо з даних. У цьому випадку критерій нормальності включає складну гіпотезу ("наскільки ймовірно отримати D статистику даної або більшої значущості, яка залежить від середнього та стандартного відхилення, обчислених з даних"), і наводяться ймовірності Ліллієфорса (Lilliefors, 1967).

5. Як інтерпретувати значення критерію Колмогорова-Смирнова?

Якщо D статистика Колмогорова-Смирнова значуща (p<0,05), то гипотеза о том, что соответствующее распределение нормально, должна быть отвергнута.


В результаті освоєння дайного розділу студент повинен: знати

  • показники варіації та їх взаємозв'язок;
  • основні закони розподілу ознак;
  • сутність критеріїв згоди; вміти
  • розраховувати показники варіації та критерії згоди;
  • визначати характеристики розподілу;
  • оцінювати основні числові характеристики статистичних рядів розподілу;

володіти

  • методами статистичного аналізу рядів розподілу;
  • основами дисперсійного аналізу;
  • прийомами перевірки статистичних рядів розподілу відповідність основним законам розподілу.

Показники варіації

При статистичному дослідженні ознак різних статистичних сукупностей великий інтерес представляє вивчення варіації ознаки окремих статистичних одиниць сукупності, і навіть характеру розподілу одиниць за цією ознакою. Варіація -це відмінності індивідуальних значень ознаки в одиниць сукупності, що вивчається. Дослідження варіації має велике практичного значення. За рівнем варіації можна будувати висновки про межі варіації ознаки, однорідності сукупності за цією ознакою, типовості середньої, взаємозв'язку чинників, визначальних варіацію. Показники варіації використовуються для характеристики та впорядкування статистичних сукупностей.

Результати зведення та угруповання матеріалів статистичного спостереження, оформлені у вигляді статистичних рядів розподілу, являють собою впорядкований розподіл одиниць сукупності, що вивчається, на групи за групувальною (варіюючою) ознакою. Якщо за основу угруповання взято якісну ознаку, то такий ряд розподілу називають атрибутивним(Розподіл за професією, за статтю, за кольором і т.д.). Якщо ряд розподілу побудований за кількісною ознакою, то такий ряд називають варіаційним(розподіл за зростанням, вагою, за розміром заробітної плати тощо). Побудувати варіаційний ряд - отже впорядкувати кількісний розподіл одиниць сукупності за значеннями ознаки, підрахувати число одиниць сукупності із цими значеннями (частоту), результати оформити до таблиці.

Замість частоти варіанта можливе застосування її ставлення до загального обсягу спостережень, що називається частотою (відносною частотою).

Виділяють два види варіаційного ряду: дискретний та інтервальний. Дискретний ряд- це такий варіаційний ряд, основою побудови якого покладено ознаки з перервним зміною (дискретні ознаки). До останніх можна віднести кількість працівників на підприємстві, тарифний розряд, кількість дітей у сім'ї тощо. Дискретний варіаційний ряд представляє таблицю, що складається із двох граф. У першій графі вказується конкретне значення ознаки, тоді як у другий - число одиниць сукупності з певним значенням ознаки. Якщо ознака має безперервну зміну (розмір доходу, стаж роботи, вартість основних фондів підприємства тощо, які у певних межах можуть приймати будь-які значення), то для цієї ознаки можлива побудова інтервального варіаційного ряду.Таблиця під час побудови інтервального варіаційного ряду також має дві графи. У першій вказується значення ознаки в інтервалі від - до (варіанти), у другій - число одиниць, що входять в інтервал (частота). Частота (частота повторення) – число повторень окремого варіанта значень ознаки. Інтервали можуть бути закриті та відкриті. Закриті інтервали обмежені по обидва боки, тобто. мають межу як нижню («від»), і верхню («до»). Відкриті інтервали мають якусь одну межу: або верхню, або нижню. Якщо варіанти розташовані за зростанням або спаданням, то ряди називаються ранжованими.

Для варіаційних рядів існує два типи варіантів частотних характеристик: накопичена частота та накопичена частота. Накопичена частота показує, у скількох спостереженнях величина ознаки прийняла значення менше заданого. Накопичена частота визначається шляхом підсумовування значень частоти ознаки цієї групи з усіма частотами попередніх груп. Накопичена частина характеризує питому вагу одиниць спостереження, які мають значення ознаки перевищують верхню межу дайної групи. Таким чином, накопичена частина показує питому вагу варіант у сукупності, що мають значення не більше даного. Частота, частота, абсолютна та відносна щільності, накопичені частота та частота є характеристиками величини варіанта.

Варіації ознаки статистичних одиниць сукупності, і навіть характер розподілу вивчаються з допомогою показників і показників варіаційного ряду, до яких ставляться середній рівень низки, середнє лінійне відхилення, середнє квадратичне відхилення, дисперсія, коефіцієнти осциляції, варіації, асиметрії, ексцесу та інших.

Для характеристики центру розподілу використовуються середні величини. Середня являє собою узагальнюючу статистичну характеристику, в якій отримує кількісне вираження типовий рівень ознаки, яким володіють члени сукупності, що вивчається. Однак можливі випадки збігу середніх арифметичних при різному характері розподілу, тому як статистичні характеристики варіаційних рядів розраховуються так звані структурні середні - мода, медіана, а також квантили, які ділять ряд розподілу на рівні частини (квартилі, децилі, перцентілі тощо). ).

Модаце значення ознаки, що зустрічається у ряді розподілу частіше, ніж інші його значення. Для дискретних рядів – це варіанти, що мають найбільшу частоту. В інтервальних варіаційних рядах з метою визначення моди необхідно визначити насамперед інтервал, в якому вона знаходиться, так званий модальний інтервал. У варіаційному ряду з рівними інтервалами модальний інтервал визначається за найбільшою частотою, у рядах з нерівними інтервалами - але найбільшою густиною розподілу. Потім для визначення моди в рядах із рівними інтервалами застосовують формулу

де Мо – значення моди; х Мо - нижня межа модального інтервалу; h -ширина модального інтервалу; / Мо - частота модального інтервалу; / Mo j - частота домодального інтервалу; / Мо+1 - частота післямодального інтервалу, а для ряду з нерівними інтервалами в даній формулі розрахунку замість частот / Мо, / Мо, / Мо слід використовувати густини розподілу Розум 0 _| , Розум 0> Умо+"

Якщо є єдина мода, розподіл ймовірностей випадкової величини називається унімодальним; якщо є більш ніж одна мода, воно називається багатомодальним (полімодальним, мультимодальним), у разі двох мод – бімодальним. Як правило, багатомодальність вказує, що розподіл, що досліджується, не підпорядковується закону нормального розподілу. Для однорідних сукупностей, зазвичай, характерні одновершинні розподіли. Багатовершинність свідчить також про неоднорідність сукупності, що вивчається. Поява двох і більше вершин робить необхідним перегрупування даних з метою виділення однорідніших груп.

В інтервальному варіаційному ряді моду можна визначити графічно за допомогою гістограми. Для цього з верхніх точок найвищого стовпця гістограми до верхніх точок двох суміжних стовпців проводять дві лінії, що перетинаються. Потім із точки їх перетину опускають перпендикуляр на вісь абсцис. Значення ознаки на осі абсцис, що відповідає перпендикуляру, є модою. У багатьох випадках при характеристиці сукупності як узагальнений показник віддається перевагу моді, а не середній арифметичній.

Медіана -це центральне значення ознаки, ним має центральний член ранжованого ряду розподілу. У дискретних рядах, щоб знайти значення медіани, спочатку визначається її порядковий номер. Для цього при непарному числі одиниць до суми всіх частот додається одиниця, число поділяється на два. При парному числі одиниць у ряду буде дві медіані одиниці, тому в цьому випадку медіана визначається як середня із значень двох медіанних одиниць. Таким чином, медіаною в дискретному варіаційному ряду є значення, яке поділяє ряд на дві частини, що містять однакову кількість варіантів.

В інтервальних рядах після визначення порядкового номера медіани знаходиться медіальний інтервал за накопиченими частотами (частотами), а потім за допомогою формули розрахунку медіани визначається значення самої медіани:

де Me – значення медіани; х Ме -нижня межа медіанного інтервалу; h -ширина медіанного інтервалу; - Сума частот ряду розподілу; /Д - накопичена частота домедіанного інтервалу; / Ме – частота медіанного інтервалу.

Медіану можна знайти графічно за допомогою кумуляти. Для цього на шкалі накопичених частот (частин) кумуляти з точки, що відповідає порядковому номеру медіани, проводиться пряма, паралельна осі абсцис, до перетину з кумулятою. Далі з точки перетину зазначеної прямої з кумулятою опускається перпендикуляр на вісь абсцис. Значення ознаки на осі абсцис, що відповідає проведеній ординаті (перпендикуляру), є медіаною.

Медіана характеризується такими властивостями.

  • 1. Вона залежить від тих значень ознаки, які розташовані з обох боків від неї.
  • 2. Вона має властивість мінімальності, яка полягає в тому, що сума абсолютних відхилень значень ознаки від медіани є мінімальною величиною порівняно з відхиленням значень ознаки від будь-якої іншої величини.
  • 3. При об'єднанні двох розподілів із відомими медіанами неможливо заздалегідь передбачити величину медіани нового розподілу.

Ці властивості медіани широко використовуються при проектуванні розташування пунктів масового обслуговування – шкіл, поліклінік, автозаправних станцій, водозабірних колонок тощо. Наприклад, якщо у певному кварталі міста передбачається побудувати поліклініку, то розташувати її доцільніше у такій точці кварталу, яка ділить навпіл не довжину кварталу, а кількість жителів.

Співвідношення моди, медіани та середньої арифметичної вказує на характер розподілу ознаки в сукупності, що дозволяє оцінити симетричність розподілу. Якщо x Me має місце правостороння асиметрія ряду. При нормальному розподілі х - Me - Мо.

К. Пірсон на основі вирівнювання різних типів кривих визначив, що для помірно асиметричних розподілів справедливі такі наближені співвідношення між середньою арифметичною, медіаною та модою:

де Me – значення медіани; Мо – значення моди; х арифм - значення середньої арифметичної.

Якщо виникає необхідність вивчити структуру варіаційного ряду докладніше, то обчислюють значення ознаки, аналогічні медіані. Такі значення ознаки ділять усі одиниці розподілу на рівні чисельності, їх називають квантилями чи градієнтами. Квантилі поділяються на квартілі, децилі, перцентілі тощо.

Квартілі ділять сукупність чотирма рівні частини. Першу квартиль обчислюють аналогічно медіані за формулою розрахунку першої квартілі, попередньо визначивши перший квартальний інтервал:

де Qi – значення першої квартілі; x Q^-нижня межа першого квартильного інтервалу; h- Ширина першого квартального інтервалу; /, - Частоти інтервального ряду;

Накопичена частота в інтервалі, що передує першому квартільї інтервалу; Jq (- Частота першого квартильного інтервалу.

Перша квартиль показує, що 25% одиниць сукупності менше за її значення, а 75% - більше. Друга квартиль дорівнює медіані, тобто. Q 2 = Me.

За аналогією розраховують третю квартиль, попередньо знайшовши третій квартальний інтервал:

де – нижня межа третього квартильного інтервалу; h- Ширина третього квартильного інтервалу; /, - Частоти інтервального ряду; /X" -накопичена частота в інтервалі, що передує

г

третьому квартільйому інтервалу; Jq – частота третього квартильного інтервалу.

Третя квартиль показує, що 75% одиниць сукупності менше за її значення, а 25% - більше.

Різниця між третьою і першою квартилями є міжквартильний інтервал:

де Aq – значення міжквартильного інтервалу; Q 3 -значення третьої квартири; Q - значення першої квартілі.

Децилі ділять сукупність на 10 рівних частин. Дециль - це значення ознаки у ряді розподілу, якому відповідають десяті частки чисельності сукупності. За аналогією з квартилями перший дециль показує, що 10% одиниць сукупності менше його значення, а 90% - більше, а дев'ятий дециль виявляє, що 90% одиниць сукупності менше його значення, а 10% - більше. Співвідношення дев'ятого та першого децилей, тобто. децильний коефіцієнт, широко застосовується щодо диференціації доходів для виміру співвідношення рівнів доходів 10% найбільш забезпеченого і 10% найменш забезпеченого населення. Перцентілі ділять ранжовану сукупність на 100 рівних частин. Розрахунок, значення та застосування перцентилів аналогічні децилям.

Квартілі, децилі та інші структурні характеристики можна визначити графічно за аналогією з медіаною за допомогою кумуляти.

Для вимірювання розміру варіації застосовуються такі показники: розмах варіації, середнє лінійне відхилення, середнє квадратичне відхилення, дисперсія. Розмір розмаху варіації цілком залежить від випадковості розподілу крайніх членів низки. Цей показник становить інтерес у випадках, коли важливо знати, яка амплітуда коливань значень ознаки:

де R -значення розмаху варіації; х тах – максимальне значення ознаки; х тт -мінімальне значення ознаки.

При розрахунку розмаху варіації значення переважної більшості членів низки не враховується, тоді як варіація пов'язані з кожним значенням члена ряду. Цього недоліку позбавлені показники, що є середніми, отриманими з відхилень індивідуальних значень ознаки від їх середньої величини: середнє лінійне відхилення та середнє квадратичне відхилення. Між індивідуальними відхиленнями від середньої та коливання конкретної ознаки існує пряма залежність. Чим сильніша коливання, тим більші абсолютні розміри відхилень від середньої.

Середнє лінійне відхилення є середню арифметичну з абсолютних величин відхилень окремих варіантів від їх середньої величини.

Середнє лінійне відхилення для несгрупованих даних

де / пр – значення середнього лінійного відхилення; х, - значення ознаки; х - п -кількість одиниць сукупності.

Середнє лінійне відхилення згрупованого ряду

де / вз – значення середнього лінійного відхилення; х - значення ознаки; х -середнє значення ознаки для досліджуваної сукупності; / - Число одиниць сукупності в окремій групі.

Знаки відхилень у разі ігноруються, інакше сума всіх відхилень дорівнюватиме нулю. Середнє лінійне відхилення в залежності від угруповання аналізованих даних розраховується за різними формулами: для згрупованих та негрунірованих даних. Середнє лінійне відхилення в силу його умовності окремо від інших показників варіації застосовується на практиці порівняно рідко (зокрема, для характеристики виконання договірних зобов'язань щодо рівномірності постачання; в аналізі обороту зовнішньої торгівлі, складу працюючих, ритмічності виробництва, якості продукції з урахуванням технологічних особливостей виробництва та т.п.).

Середнє квадратичне відхилення характеризує, наскільки в середньому відхиляються індивідуальні значення ознаки, що вивчається від середнього значення за сукупністю, і виражається в одиницях вимірювання ознаки, що вивчається. Середнє квадратичне відхилення, будучи однією з основних заходів варіації, широко використовується в оцінці меж варіації ознаки в однорідної сукупності, щодо значень ординат кривої нормального розподілу, соціальній та розрахунках, що з організацією вибіркового спостереження і встановленням точності вибіркових характеристик. Середнє квадратичне відхилення але необгрунтованим даним обчислюється за наступним алгоритмом: кожне відхилення від середньої зводиться в квадрат, всі квадрати підсумовуються, після чого сума квадратів ділиться на число членів ряду і з приватного витягується квадратний корінь:

де a Iip – значення середнього квадратичного відхилення; Xj -значення ознаки; х- Середнє значення ознаки для досліджуваної сукупності; п -кількість одиниць сукупності.

Для згрупованих аналізованих даних середнє відхилення даних розраховується за зваженою формулою

де - значення середнього квадратичного відхилення; Xj -значення ознаки; х -середнє значення ознаки для досліджуваної сукупності; f x -кількість одиниць сукупності в окремій групі.

Вираз під коренем в обох випадках зветься дисперсією. Таким чином, дисперсія обчислюється як середній квадрат відхилень значень ознаки їх середньої величини. Для незважених (простих) значень ознаки дисперсія визначається так:

Для зважених значень ознаки

Існує також спеціальний спрощений спосіб розрахунку дисперсії: у загальному вигляді

для невважених (простих) значень ознаки для зважених значень ознаки
з використанням методу відліку від умовного нуля

де а 2 – значення дисперсії; х, - значення ознаки; х -середнє значення ознаки, h -величина групового інтервалу, т 1 -ваги (А =

Дисперсія має самостійний вираз у статистиці і належить до найважливіших показників варіації. Вона вимірюється в одиницях, що відповідають квадрату одиниць вимірювання ознаки, що вивчається.

Дисперсія має такі властивості.

  • 1. Дисперсія постійної величини дорівнює нулю.
  • 2. Зменшення всіх значень ознаки на ту саму величину Л не змінює величини дисперсії. Це означає, що середній квадрат відхилень можна обчислити за заданими значеннями ознаки, а, по відхиленням їх від якогось постійного числа.
  • 3. Зменшення вєх значень ознаки kраз зменшує дисперсію в k 2 рази, а середнє квадратичне відхилення - у kразів, тобто. всі значення ознаки можна розділити якесь постійне число (скажімо, на величину інтервалу ряду), обчислити середнє квадратичне відхилення, та був помножити їх у постійне число.
  • 4. Якщо обчислити середній квадрат відхилень від будь-якої величини А утією чи іншою мірою відрізняється від середньої арифметичної, він завжди буде більше середнього квадрата відхилень, обчисленого від середньої арифметичної. Середній квадрат відхилень при цьому буде більшим на цілком певну величину - на квадрат різниці середньої і цієї умовно взятої величини.

Варіація альтернативної ознаки полягає в наявності або відсутності досліджуваної властивості одиниць сукупності. Кількісно варіація альтернативної ознаки виражається двома значеннями: наявність у одиниці досліджуваної властивості позначається одиницею (1), яке відсутність - нулем (0). Частку одиниць, які мають досліджувану властивість, позначають через Р, а частку одиниць, що не володіють цією властивістю, - через G.Таким чином, дисперсія альтернативної ознаки дорівнює добутку частки одиниць, що володіють даною властивістю (Р), на частку одиниць, що даною властивістю не мають (G).Найбільша варіація сукупності досягається у випадках, коли частина сукупності, що становить 50% від усього обсягу сукупності, має ознаку, а інша частина сукупності, також рівна 50%, не має даної ознаки, при цьому дисперсія досягає максимального значення, що дорівнює 0,25, т .е. Р = 0,5, G = 1 - Р = 1 - 0,5 = 0,5 та про 2 = 0,5 0,5 = 0,25. Нижня межа цього показника дорівнює нулю, що відповідає ситуації, коли у сукупності відсутня варіація. Практичне застосування дисперсії альтернативної ознаки полягає у побудові довірчих інтервалів під час проведення вибіркового спостереження.

Чим менше значення дисперсії та середнього квадратичного відхилення, тим однорідніша сукупність і тим більш типовою буде середня величина. На практиці статистики часто виникає необхідність порівняння варіацій різних ознак. Наприклад, цікавим є порівняння варіацій віку робітників та їх кваліфікації, стажу роботи та розміру заробітної плати, собівартості та прибутку, стажу роботи та продуктивності праці тощо. Для таких зіставлень показники абсолютної коливань ознак непридатні: не можна порівнювати коливання стажу роботи, вираженого в роках, з варіацією заробітної плати, вираженої в рублях. Для здійснення таких порівнянь, а також порівнянь коливання однієї й тієї ж ознаки в кількох сукупностях з різними середніми арифметичними використовуються показники варіації - коефіцієнт осциляції, лінійний коефіцієнт варіації та коефіцієнт варіації, які показують міру коливань крайніх значень навколо середньої.

Коефіцієнт осциляції:

де V R -значення коефіцієнта осциляції; R- Значення розмаху варіації; х -

Лінійний коефіцієнт варіації.

де Vj -значення лінійного коефіцієнта варіації; I -значення середнього лінійного відхилення; х -середнє значення ознаки для досліджуваної сукупності.

Коефіцієнт варіації:

де V a -значення коефіцієнта варіації; а – значення середнього квадратичного відхилення; х -середнє значення ознаки для досліджуваної сукупності.

Коефіцієнт осциляції - це відсоткове відношення розмаху варіації до середнього значення ознаки, що досліджується, а лінійний коефіцієнт варіації - це відношення середнього лінійного відхилення до середнього значення досліджуваної ознаки, виражене у відсотках. Коефіцієнт варіації є відсоткове відношення середнього квадратичного відхилення до середнього значення досліджуваної ознаки. Як відносна величина, виражена у відсотках, коефіцієнт варіації застосовується для порівняння ступеня варіації різних ознак. З допомогою коефіцієнта варіації оцінюється однорідність статистичної сукупності. Якщо коефіцієнт варіації менше 33%, то досліджувана сукупність є однорідною, а варіація слабкою. Якщо коефіцієнт варіації більше 33%, то досліджувана сукупність є неоднорідною, варіація сильною, а середня величина – нетиповою і її не можна використовувати як узагальнюючий показник цієї сукупності. Крім того, коефіцієнти варіації використовуються для порівняння коливання однієї ознаки в різних сукупностях. Наприклад, з метою оцінки варіації стажу роботи працівників на двох підприємствах. Чим більше значення коефіцієнта, тим варіація ознаки суттєвіша.

На основі розрахованих квартилів є можливість розрахувати також відносний показник квартальної варіації за формулою

де Q 2 і

Міжквартильний розмах визначається за формулою

Квартильне відхилення застосовується замість розмаху варіації, щоб уникнути недоліків, пов'язаних із використанням крайніх значень:

Для нерівноінтервальпих варіаційних рядів розраховується також густина розподілу. Вона визначається як окреме від поділу відповідної частоти або частоти на величину інтервалу. У нерівноінтервальних рядах використовуються абсолютна та відносна щільності розподілу. Абсолютна щільність розподілу – це частота, що припадає на одиницю довжини інтервалу. Відносна густина розподілу - частота, що припадає на одиницю довжини інтервалу.

Все вищезазначене справедливо для розподілу, закон розподілу яких добре описується нормальним законом розподілу або близький до нього.

Варіаційні лави: визначення, види, основні характеристики. Методика розрахунку
моди, медіани, середньої арифметичної у медико-статистичних дослідженнях
(Показати на умовному прикладі).

Варіаційний ряд - це ряд числових значень досліджуваної ознаки, що відрізняються один від одного за своєю величиною і розташованих у певній послідовності (у висхідному або спадному порядку). Кожне числове значення ряду називають варіантом (V), а числа, що показують, як часто зустрічається та чи інша варіанта у складі цього ряду, називається частотою (р).

Загальна кількість випадків спостережень, у тому числі варіаційний ряд складається, позначають буквою n. Відмінність у значенні досліджуваних ознак називається варіацією. У разі якщо варіювальна ознака не має кількісної міри, варіацію називають якісною, а ряд розподілу – атрибутивним (наприклад, розподіл за результатом захворювання, станом здоров'я тощо).

Якщо ознака, що варіює, має кількісне вираження, таку варіацію називають кількісною, а ряд розподілу - варіаційним.

Варіаційні ряди діляться на перервні і безперервні – за характером кількісної ознаки, прості та зважені – за частотою варіант.

У простому варіаційному ряду кожна варіанта зустрічається лише один раз (р = 1), у зваженому - одна й та ж варіанта зустрічається кілька разів (р> 1). Приклади таких рядів будуть розглянуті далі за текстом. Якщо кількісний ознака має безперервний характер, тобто. між цілими величинами є проміжні дробові величини, варіаційний ряд називається безперервним.

Наприклад: 10,0 – 11,9

14,0 - 15,9 і т.д.

Якщо кількісний ознака має перервний характер, тобто. окремі значення (варіанти) відрізняються один від одного на ціле число і не мають проміжних дробових значень, варіаційний ряд називають перервним або дискретним.

Використовуючи дані попереднього прикладу про частоту пульсу

у 21 студентів, збудуємо варіаційний ряд (табл. 1).

Таблиця 1

Розподіл студентів-медиків за частотою пульсу (уд/хв)

Отже, побудувати варіаційний ряд – означає числові значення (варіанти) систематизувати, упорядкувати, тобто. розташувати у певній послідовності (у висхідному або спадному порядку) з відповідними частотами. У прикладі варіанти розташовані у висхідному порядку і виражені у вигляді цілих перервних (дискретних) чисел, кожна варіанта зустрічається кілька разів, тобто. ми маємо справу з виваженим, перервним чи дискретним варіаційним рядом.

Як правило, якщо кількість спостережень у вивчається нами статистичної сукупності не перевищує 30, то достатньо всі значення ознаки, що вивчається, розмістити в варіаційному ряду в наростаючому, як у табл. 1, або спадному порядку.

При великій кількості спостережень (n>30) кількість варіантів може бути дуже великим, в цьому випадку складається інтервальний або згрупований варіаційний ряд, в якому для спрощення подальшої обробки і з'ясування характеру розподілу варіанти об'єднані в групи.

Зазвичай число групових варіантів коливається від 8 до 15.

Їх має не менше 5, т.к. інакше це буде надто грубе, надмірне укрупнення, що спотворює загальну картину варіювання і дуже позначається на точності середніх величин. При числі групових варіант більше 20-25 збільшується точність обчислення середніх величин, але суттєво спотворюються особливості варіювання ознаки та ускладнюється математична обробка.

При складанні згрупованого ряду необхідно врахувати,

− групи варіант повинні розташовуватися в певному порядку (у висхідному або низхідному);

− інтервали у групах варіант мають бути однаковими;

− значення меж інтервалів нічого не винні збігатися, т.к. неясно буде, до яких груп відносити окремі варіанти;

− необхідно враховувати якісні особливості матеріалу, що збирається при встановленні меж інтервалів (наприклад, при вивченні ваги дорослих людей інтервал 3-4 кг допустимо, а для дітей перших місяців життя він не повинен перевищувати 100 г.)

Побудуємо згрупований (інтервальний) ряд, що характеризує дані про частоту пульсу (число ударів за хвилину) у 55 студентів-медиків перед іспитом: 64, 66, 60, 62,

64, 68, 70, 66, 70, 68, 62, 68, 70, 72, 60, 70, 74, 62, 70, 72, 72,

64, 70, 72, 76, 76, 68, 70, 58, 76, 74, 76, 76, 82, 76, 72, 76, 74,

79, 78, 74, 78, 74, 78, 74, 74, 78, 76, 78, 76, 80, 80, 80, 78, 78.

Для побудови згрупованого ряду необхідно:

1. Визначити величину інтервалу;

2. Визначити середину, початок та кінець груп варіант варіаційного ряду.

● Розмір інтервалу (i) визначається за кількістю передбачуваних груп (r), кількість яких встановлюється залежно від числа спостережень (n) за спеціальною таблицею

Число груп в залежності від числа спостережень:

У нашому випадку, для 55 студентів можна скласти від 8 до 10 груп.

Розмір інтервалу (i) визначається за такою формулою –

i = V max-V min/r

У прикладі величина інтервалу дорівнює 82- 58/8= 3.

Якщо величина інтервалу є дробовим числом, отриманий результат слід округлити до цілого числа.

Розрізняють кілька видів середніх величин:

● середня арифметична,

● середня геометрична,

● середня гармонійна,

● середня квадратична,

● середня прогресивна,

● медіана

У медичній статистиці найчастіше користуються середніми арифметичними величинами.

Середня арифметична величина (М) є узагальнюючою величиною, яка визначає те типове, що притаманно всієї сукупності. Основними способами розрахунку М є: середньоарифметичний спосіб та спосіб моментів (умовних відхилень).

Середньоарифметичний спосіб застосовується для обчислення середньої арифметичної простої та середньої арифметичної зваженої. Вибір методу розрахунку середньої арифметичної величини залежить від виду варіаційного ряду. У разі простого варіаційного ряду, в якому кожен варіант зустрічається лише один раз, визначається середня арифметична проста за формулою:

де: М - Середня арифметична величина;

V - значення варіює ознаки (варіанти);

Σ – вказує дію – підсумовування;

n – загальна кількість спостережень.

Приклад розрахунку середньої арифметичної простий. Частота дихання (число дихальних рухів за хвилину) у 9 чоловіків віком 35 років: 20, 22, 19, 15, 16, 21, 17, 23, 18.

Для визначення середнього рівня частоти дихання у чоловіків віком 35 років необхідно:

1. Побудувати варіаційний ряд, розташувавши всі варіанти у зростаючому чи спадному порядку Ми отримали простий варіаційний ряд, т.к. Значення варіант зустрічаються лише один раз.

M = ∑V/n = 171/9 = 19 дихальних рухів за хвилину

Висновок. Частота дихання у чоловіків віком 35 років у середньому дорівнює 19 дихальним рухам за хвилину.

Якщо окремі значення варіант повторюються, нема чого виписувати в лінію кожну варіанту, достатньо перерахувати розміри варіант (V), що зустрічаються, і поруч вказати число їх повторень (р). такий варіаційний ряд, у якому варіанти як би зважуються за кількістю відповідних їм частот, носить назву - зважений варіаційний ряд, а середня величина, що розраховується, - середньої арифметичної зваженої.

Середня арифметична зважена визначається за такою формулою: M= ∑Vp/n

де n – число спостережень, що дорівнює сумі частот – Σр.

Приклад розрахунку середньої арифметичної зваженої.

Тривалість непрацездатності (в днях) у 35 хворих на гострі респіраторні захворювання (ГРЗ), що лікувалися у дільничного лікаря протягом I-го кварталу поточного року склала: 6, 7, 5, 3, 9, 8, 7, 5, 6, 4, 9, 8, 7, 6, 6, 9, 6, 5, 10, 8, 7, 11, 13, 5, 6, 7, 12, 4, 3, 5, 2, 5, 6, 6, 7 днів .

Методика визначення середньої тривалості непрацездатності у хворих на ГРЗ наступна:

1. Побудуємо зважений варіаційний ряд, т.к. окремі значення варіанта повторюються кілька разів. Для цього можна розмістити всі варіанти у зростаючому або спадному порядку з відповідними частотами.

У нашому випадку варіанти розташовані у зростаючому порядку

2. Розрахуємо середню арифметичну виважену за формулою: M = ∑Vp/n = 233/35 = 6,7 днів

Розподіл хворих з ГРЗ за тривалістю непрацездатності:

Тривалість непрацездатності (V) Число хворих (p) Vp
∑p = n = 35 ∑Vp = 233

Висновок. Тривалість непрацездатності у хворих на гострі респіраторні захворювання склала в середньому 6,7 днів.

Мода (Мо) – варіанти, що найчастіше зустрічаються в варіаційному ряду. Для розподілу, представленого в таблиці, моді відповідає варіанта, що дорівнює 10, вона зустрічається частіше за інших - 6 разів.

Розподіл хворих за тривалістю перебування на лікарняному ліжку (в днях)

V
p

Іноді точну величину моди встановити важко, оскільки в даних може існувати кілька спостережень, що зустрічаються «найчастіше».

Медіана (Ме) - непараметричний показник, що ділить варіаційний ряд на дві рівні половини: в обидві сторони від медіани розташовується однакова кількість варіантів.

Наприклад, для розподілу, зазначеного в таблиці, медіана дорівнює 10 т.к. по обидві сторони цієї величини розташовується по 14 варіант, тобто. число 10 займає центральне положення у цьому ряду і є його медіаною.

Враховуючи, що кількість спостережень у цьому прикладі парна (n=34), медіану можна визначити таким чином:

Me = 2+3+4+5+6+5+4+3+2/2 = 34/2 = 17

Це означає, що середина ряду посідає сімнадцяту за рахунком варіанта, якій відповідає медіана, що дорівнює 10. Для розподілу, представленого в таблиці, середня арифметична дорівнює:

M = ∑Vp/n = 334/34 = 10,1

Отже, для 34 спостережень із табл. 8 ми отримали: Мо=10, Ме=10, середня арифметична (М) дорівнює 10,1. У нашому прикладі всі три показники виявилися рівними або близькими один до одного, хоча вони абсолютно різні.

Середня арифметична є результативною сумою всіх впливів, у формуванні її беруть участь усі без винятку варіанти, зокрема і крайні, часто нетипові для цього явища чи сукупності.

Мода і медіана, на відміну від середньої арифметичної, не залежать від величини всіх індивідуальних значень ознаки, що варіює (значень крайніх варіант і ступеня розсіювання ряду). Середня арифметична характеризує всю масу спостережень, мода та медіана – основну масу

Ряди, збудовані за кількісною ознакою, називаються варіаційним.

Ряди розподілів складаються з варіантів(значень ознаки) та частот(Кількості груп). Частоти, виражені як відносних величин (часток, відсотків) називаються частостями. Сума всіх частот називається обсягом низки розподілів.

На вигляд ряди розподілу поділяються на дискретні(побудовані за перервними значеннями ознаки) та інтервальні(Побудовані на безперервних значеннях ознаки).

Варіаційний рядє дві колонки (або рядки); в одній з яких наводяться окремі значення варіює ознаки, іменовані варіантами і позначаються Х; а в іншій - абсолютні числа, що показують скільки разів (як часто) зустрічається кожен варіант. Показники другої колонки називаються частотами та умовно позначають через f. Ще раз зауважимо, що у другій колонці можуть використовуватись і відносні показники, що характеризують частку частоти окремих варіантів у загальній сумі частот. Ці відносні показники називаються частостями і умовно позначають через ω Сума всіх частостей у разі дорівнює одиниці. Однак частоти можна виражати і у відсотках, і тоді сума всіх частостей дає 100%.

Якщо варіанти варіаційного ряду виражені як дискретних величин, такий варіаційний ряд називають дискретним.

Для безперервних ознак варіаційні ряди будуються як інтервальнітобто значення ознаки в них виражаються «від ... до ...». У цьому мінімальні значення ознаки у такому інтервалі називають нижньої межею інтервалу, а максимальне – верхньою кордоном.

Інтервальні варіаційні ряди будують і для дискретних ознак, що варіюють у великому діапазоні. Інтервальні ряди можуть бути з рівнимиі нерівнимиінтервалами.

Розглянемо, як визначається величина рівних інтервалів. Введемо такі позначення:

i- Величина інтервалу;

- максимальне значення ознаки одиниць сукупності;

- Мінімальне значення ознаки у одиниць сукупності;

n –кількість груп, що виділяються.

якщо n відомо.

Якщо кількість груп, що виділяються, важко заздалегідь визначити, то для розрахунку оптимальної величини інтервалу при достатньому обсязі сукупності може бути рекомендована формула, запропонована Стерджесом в 1926 році:

n = 1+ 3.322 lg N, де N – число одиниць у сукупності.

Розмір нерівних інтервалів визначається кожному окремому разі з урахуванням особливостей об'єкта вивчення.

Статистичним розподілом вибіркиназивають перелік варіантів і відповідних їм частот (або відносних частот).

Статистичне розподіл вибірки можна задати як таблиці, у першій графі якої розташовуються варіанти, тоді як у другий - відповідні цим варіантам частоти ni, або відносні частоти Pi .

Статистичне розподілення вибірки

Інтервальними називаються варіаційні ряди, у яких значення ознак, покладених в основу їх утворення, виражені у певних межах (інтервалах). Частоти в цьому випадку відносяться не до окремих значень ознаки, а до всього інтервалу.

Інтервальні ряди розподілу будуються за безперервними кількісними ознаками, а також дискретними ознаками, що варіюють у значних межах.

Інтервальний ряд можна подати статистичним розподілом вибірки із зазначенням інтервалів та відповідних частот. При цьому як частота інтервалу приймають суму частот варіант, що потрапили в цей інтервал.

При угрупованні за кількісними безперервними ознаками важливе значення має визначення розміру інтервалу.

Крім вибіркової середньої та вибіркової дисперсії застосовуються інші характеристики варіаційного ряду.

Модоюназивають варіантом, який має найбільшу частоту.


Close