Посебно место во статистичката анализа има определувањето на просечното ниво на карактеристиката или појавата што се проучува. Просечното ниво на особина се мери со просечни вредности.

Просечната вредност го карактеризира општото квантитативно ниво на карактеристиката што се проучува и е групно својство на статистичката популација. Се израмнува, ги ослабува случајните отстапувања на поединечните набљудувања во една или друга насока и го истакнува главното, типично својство на карактеристиката што се проучува.

Просеците се широко користени:

1. Да се ​​процени здравствената состојба на населението: карактеристики на физичкиот развој (висина, тежина, обем на градниот кош, итн.), идентификување на распространетоста и времетраењето на различни болести, анализа на демографски индикатори (витално движење на населението, просечен животен век, репродукција на населението, просечна популација и сл.).

2. Да се ​​проучат активностите на медицинските установи, медицинскиот персонал и да се процени квалитетот на нивната работа, да се планираат и да се утврдат потребите на населението за различни видови медицинска нега (просечен број на барања или посети по жител годишно, просечна должина на престој од пациент во болница, просечно времетраење на прегледот на пациентот, просечна достапност на лекари, кревети итн.).

3. Да се ​​карактеризира санитарната и епидемиолошката состојба (просечна содржина на воздушна прашина во работилницата, просечна површина по лице, просечна потрошувачка на протеини, масти и јаглени хидрати итн.).

4. Да се ​​утврдат медицински и физиолошки показатели во нормални и патолошки состојби, при обработка на лабораториски податоци, да се утврди веродостојноста на резултатите од студијата на примерокот во социјалните, хигиенските, клиничките и експерименталните студии.

Пресметката на просечните вредности се врши врз основа на сериите на варијации. Серија на варијациие квалитативно хомогена статистичка група, чии поединечни единици ги карактеризираат квантитативните разлики на карактеристиката или феноменот што се проучува.

Квантитативната варијација може да биде од два вида: дисконтинуирана (дискретна) и континуирана.

Дисконтинуиран (дискретн) атрибут се изразува само како цел број и не може да има никакви средни вредности (на пример, бројот на посети, популацијата на локацијата, бројот на деца во семејството, тежината на болеста во поени итн.).

Континуираниот знак може да преземе какви било вредности во одредени граници, вклучително и фракционо, и се изразува само приближно (на пример, тежина - за возрасни може да се ограничи на килограми, а за новороденчиња - грамови; висина, крвен притисок, време помина во посета на пациент и сл.).



Дигиталната вредност на секоја поединечна карактеристика или феномен вклучена во серијата варијации се нарекува варијанта и се означува со буквата В . Во математичката литература се среќаваат и други ознаки, на пример x или y.

Серијата на варијации, каде што секоја опција е означена еднаш, се нарекува едноставна.Ваквите серии се користат во повеќето статистички проблеми во случај на компјутерска обработка на податоци.

Како што се зголемува бројот на набљудувања, се појавуваат повторливи вредности на варијанти. Во овој случај, тој е создаден групирани серии на варијации, каде што е означен бројот на повторувања (фреквенција, означена со буквата „ Р »).

Рангирана серија на варијациисе состои од опции подредени во растечки или опаѓачки редослед. Со рангирање може да се состават и едноставни и групирани серии.

Серии на варијации на интервалсоставена со цел да се поедностават последователните пресметки извршени без употреба на компјутер, со многу голем број единици за набљудување (повеќе од 1000).

Серии со континуирана варијацијавклучува вредности на опции, кои можат да бидат која било вредност.

Ако во варијациските серии вредностите на карактеристиката (варијантите) се дадени во форма на поединечни специфични броеви, тогаш таквата серија се нарекува дискретни.

Општите карактеристики на вредностите на карактеристиката што се рефлектираат во сериите на варијации се просечните вредности. Меѓу нив најкористени се: аритметичка средина М,модата Мои медијана Јас.Секоја од овие карактеристики е уникатна. Тие не можат да се заменат едни со други и само заедно ги претставуваат карактеристиките на варијациската серија сосема целосно и во кондензирана форма.

Мода (Мо) наведете ја вредноста на опциите кои најчесто се појавуваат.

Медијана (јас) – ова е вредноста на опцијата што ја дели рангираната серија на варијации на половина (на секоја страна од медијаната има половина од опцијата). Во ретки случаи, кога има симетрична варијација серија, режимот и медијаната се еднакви еден на друг и се совпаѓаат со вредноста на аритметичката средина.

Најтипична карактеристика на вредностите на опциите е аритметичко значењевредност( М ). Во математичката литература се означува .

Аритметичко значење (М, ) е општа квантитативна карактеристика на одредена карактеристика на појавите што се проучуваат, што сочинува квалитативно хомогена статистичка популација. Постојат едноставни и пондерирани аритметички просеци. Едноставната аритметичка средина се пресметува за едноставна варијација серија со собирање на сите опции и делење на оваа сума со вкупниот број на опции вклучени во оваа серија на варијации. Пресметките се вршат според формулата:

Каде: М - проста аритметичка средина;

Σ В - опција за сума;

n- број на набљудувања.

Во сериите на групирани варијации се одредува пондерираната аритметичка средина. Формулата за пресметување:

Каде: М - аритметички пондериран просек;

Σ Vp - збирот на производите на варијантата по нивните фреквенции;

n- број на набљудувања.

Со голем број на набљудувања, во случај на рачни пресметки, може да се користи методот на моменти.

Аритметичката средина ги има следниве својства:

· збир на отстапувања од просекот ( Σ г ) е еднаква на нула (види Табела 15);

· при множење (делење) на сите опции со ист фактор (делител), аритметичката средина се множи (дели) со истиот фактор (делител);

· ако додадете (одземете) ист број на сите опции, аритметичката средина се зголемува (намалува) за ист број.

Аритметичките просеци, земени сами по себе, без да се земе предвид варијабилноста на сериите од кои се пресметуваат, може да не ги одразуваат целосно својствата на варијациските серии, особено кога е неопходна споредба со други просеци. Просеците кои се блиски по вредност може да се добијат од серии со различен степен на расејување. Колку поблиски се поединечните опции една до друга во однос на нивните квантитативни карактеристики, толку помалку дисперзија (осцилација, варијабилност)серија, толку е потипичен нејзиниот просек.

Главните параметри кои ни овозможуваат да ја процениме варијабилноста на некоја особина се:

· Опсег;

· Амплитуда;

· Стандардна девијација;

· Коефициентот на варијација.

Варијабилноста на особина може приближно да се процени според опсегот и амплитудата на серијата на варијации. Опсегот ги покажува максималните (V max) и минималните (V min) опции во серијата. Амплитудата (A m) е разликата помеѓу овие опции: A m = V max - V min.

Главната, општоприфатена мерка за варијабилноста на варијациските серии е дисперзија (Д ). Но, најчесто користен е попогоден параметар пресметан врз основа на дисперзија - стандардната девијација ( σ ). Ја зема предвид големината на отстапувањето ( г ) на секоја варијација серија од нејзината аритметичка средина ( d=V - М ).

Бидејќи отстапувањата од просекот можат да бидат позитивни и негативни, кога се сумираат тие ја даваат вредноста „0“ (С d=0). За да се избегне ова, вредностите на отстапување ( г) се подигнуваат на втората моќност и се просечно. Така, дисперзијата на варијациската серија е среден квадрат на отстапувања на варијанта од аритметичката средина и се пресметува со формулата:

Таа е најважната карактеристика на варијабилноста и се користи за пресметување на многу статистички критериуми.

Бидејќи дисперзијата се изразува како квадрат на отстапувања, нејзината вредност не може да се користи во споредба со аритметичката средина. За овие цели се користи Стандардна девијација, кој е означен со знакот „Сигма“ ( σ ). Го карактеризира просечното отстапување на сите варијанти на варијациската серија од аритметичката средна вредност во истите единици како и самата просечна вредност, така што тие можат да се користат заедно.

Стандардната девијација се одредува со формулата:

Наведената формула се применува кога бројот на набљудувања ( n ) повеќе од 30. Со помал број n вредноста на стандардното отстапување ќе има грешка поврзана со математичкото поместување ( n - 1). Во овој поглед, попрецизен резултат може да се добие ако се земе предвид таквата пристрасност во формулата за пресметување на стандардното отстапување:

Стандардна девијација (с ) е проценка на стандардното отстапување на случајна променлива Xво однос на неговото математичко очекување врз основа на непристрасна проценка на неговата варијанса.

Со вредности n > 30 стандардна девијација ( σ ) и стандардна девијација ( с ) ќе биде исто ( σ =s ). Затоа, во повеќето практични прирачници се смета дека овие критериуми имаат различно значење.Во Excel, стандардното отстапување може да се пресмета со помош на функцијата =STDEV(опсег). И за да се пресмета стандардното отстапување, треба да креирате соодветна формула.

Просечниот квадрат или стандардното отстапување ви овозможува да одредите колку вредностите на една карактеристика може да се разликуваат од просечната вредност. Да претпоставиме дека има два града со иста просечна дневна температура во лето. Еден од овие градови се наоѓа на брегот, а другиот на континентот. Познато е дека во градовите лоцирани на брегот, разликите во дневните температури се помали отколку во градовите лоцирани во внатрешноста. Според тоа, стандардното отстапување на дневните температури за крајбрежниот град ќе биде помало отколку за вториот град. Во пракса, тоа значи дека просечната температура на воздухот за секој одреден ден во град лоциран на континентот ќе се разликува повеќе од просечната отколку во град на брегот. Дополнително, стандардното отстапување ви овозможува да ги процените можните температурни отстапувања од просекот со потребното ниво на веројатност.

Според теоријата на веројатност, во феномени кои го почитуваат законот за нормална дистрибуција, постои строга врска помеѓу вредностите на аритметичката средина, стандардното отстапување и опциите ( три сигма правило). На пример, 68,3% од вредностите на различна карактеристика се во рамките на M ± 1 σ , 95,5% - во рамките на М ± 2 σ и 99,7% - во рамките на М ± 3 σ .

Вредноста на стандардната девијација ни овозможува да ја процениме природата на хомогеноста на сериите на варијации и студиската група. Ако вредноста на стандардното отстапување е мала, тогаш ова укажува на прилично висока хомогеност на феноменот што се проучува. Аритметичката средина во овој случај треба да се смета за доста карактеристична за дадена варијација серија. Сепак, премалата сигма вредност тера да размислуваме за вештачка селекција на набљудувања. Со многу голема сигма, аритметичката средина во помала мера ја карактеризира серијата на варијации, што укажува на значителна варијабилност на карактеристиката или феноменот што се проучува или хетерогеноста на групата што се проучува. Меѓутоа, споредбата на вредноста на стандардното отстапување е можна само за карактеристики со иста димензија. Навистина, ако ја споредиме разновидноста на тежините на новородените деца и возрасните, секогаш ќе добиваме повисоки вредности на сигма кај возрасните.

Споредба на варијабилноста на карактеристиките со различни димензии може да се направи со користење коефициент на варијација. Ја изразува различноста како процент од средната вредност, овозможувајќи споредби помеѓу различни особини. Коефициентот на варијација во медицинската литература е означен со знакот „ СО ", и во математиката" v„и пресметано со формулата:

Вредностите на коефициентот на варијација помала од 10% укажуваат на мало расејување, од 10 до 20% - приближно просечно, повеќе од 20% - за силно расејување околу аритметичката средина.

Аритметичката средина обично се пресметува врз основа на податоците од популацијата на примерокот. Со повторени студии, под влијание на случајни феномени, аритметичката средина може да се промени. Ова се должи на фактот што, по правило, се проучува само дел од можните единици на набљудување, односно популацијата на примерокот. Информациите за сите можни единици кои го претставуваат феноменот што се проучува може да се добијат со проучување на целата популација, што не е секогаш можно. Истовремено, заради генерализирање на експерименталните податоци, од интерес е вредноста на просекот кај општата популација. Затоа, за да се формулира општ заклучок за феноменот што се проучува, резултатите добиени врз основа на популацијата на примерокот мора да се пренесат на општата популација со помош на статистички методи.

За да се одреди степенот на усогласеност помеѓу студијата на примерокот и општата популација, неопходно е да се процени големината на грешката што неизбежно се јавува при набљудувањето на примерокот. Оваа грешка се нарекува " Грешката на репрезентативноста"или "Просечна грешка на аритметичката средина." Тоа е всушност разликата помеѓу просеците добиени од селективно статистичка опсервација и слични вредности што би се добиле од континуирано проучување на истиот објект, т.е. кога се проучува општа популација. Бидејќи средната вредност на примерокот е случајна променлива, таквата прогноза се врши со ниво на веројатност прифатливо за истражувачот. Во медицинските истражувања тоа е најмалку 95%.

Грешката во репрезентативноста не може да се помеша со грешки во регистрацијата или грешки во вниманието (лизгања, погрешни пресметки, печатни грешки, итн.), кои треба да се минимизираат со соодветни методи и алатки кои се користат за време на експериментот.

Големината на репрезентативната грешка зависи и од големината на примерокот и од варијабилноста на особината. Колку е поголем бројот на набљудувања, толку е поблизок примерокот до популацијата и помала е грешката. Колку е попроменлив знакот, толку е поголема статистичката грешка.

Во пракса, за да се одреди грешката на репрезентативноста во сериите на варијација, се користи следнава формула:

Каде: м – грешка на репрезентативноста;

σ - Стандардна девијација;

n– број на набљудувања во примерокот.

Формулата покажува дека големината на просечната грешка е директно пропорционална со стандардното отстапување, т.е. варијабилноста на карактеристиката што се проучува и обратно пропорционална на квадратниот корен од бројот на набљудувања.

При изведување на статистичка анализа заснована на пресметување на релативните вредности, не е потребно да се конструира серија на варијации. Во овој случај, одредувањето на просечната грешка за релативни индикатори може да се изврши со помош на поедноставена формула:

Каде: Р– вредноста на релативниот индикатор, изразена во проценти, ppm и сл.;

q– реципроцитет на P и изразени како (1-P), (100-P), (1000-P) итн., во зависност од основата на која се пресметува индикаторот;

n– број на набљудувања во популацијата на примерокот.

Сепак, наведената формула за пресметување на грешката на репрезентативноста за релативни вредности може да се примени само кога вредноста на индикаторот е помала од неговата основа. Во голем број случаи на пресметување на интензивни индикатори, овој услов не е исполнет, а индикаторот може да се изрази како бројка од повеќе од 100% или 1000%. Во таква ситуација, се конструира серија на варијации и се пресметува грешката на репрезентативност со помош на формулата за просечни вредности врз основа на стандардното отстапување.

Прогнозирањето на вредноста на аритметичката средина во популацијата се врши со наведување на две вредности - минималната и максималната. Овие екстремни вредности на можни отстапувања, во кои саканата просечна вредност на населението може да флуктуира, се нарекуваат „ Доверба граници».

Постулатите на теоријата на веројатност докажаа дека со нормална распределба на карактеристика со веројатност од 99,7%, екстремните вредности на отстапувањата на просекот нема да бидат поголеми од вредноста на тројната репрезентативна грешка ( М ± 3 м ); во 95,5% - не повеќе од двојно поголема од просечната грешка од просечната вредност ( М ± 2 м ); во 68,3% - не повеќе од една просечна грешка ( М ± 1 м ) (сл. 9).

P%

Ориз. 9. Густина на веројатност за нормална дистрибуција.

Забележете дека горенаведената изјава е точна само за карактеристика што го почитува нормалниот Гаусов закон за распределба.

Повеќето експериментални студии, вклучително и во областа на медицината, се поврзани со мерења, чии резултати можат да заземат речиси секоја вредност во даден интервал, затоа, по правило, тие се опишани со модел на континуирани случајни променливи. Во овој поглед, повеќето статистички методи ги разгледуваат континуираните распределби. Една таква дистрибуција, која има фундаментална улога во математичката статистика, е нормална или гаусова дистрибуција.

Ова се должи на голем број причини.

1. Пред сè, многу експериментални набљудувања можат успешно да се опишат со користење на нормалната дистрибуција. Веднаш треба да се забележи дека не постојат дистрибуции на емпириски податоци кои би биле сосема нормални, бидејќи нормално распределената случајна променлива се движи од до , што никогаш не се среќава во пракса. Сепак, нормалната дистрибуција многу често функционира добро како приближување.

Без разлика дали се мерат тежината, висината и другите физиолошки параметри на човечкото тело, на резултатите секогаш влијаат многу голем број случајни фактори (природни причини и грешки во мерењето). Покрај тоа, како по правило, ефектот на секој од овие фактори е незначителен. Искуството покажува дека резултатите во такви случаи ќе бидат приближно нормално распределени.

2. Многу дистрибуции поврзани со случајното земање примероци стануваат нормални како што се зголемува обемот на второто.

3. Нормалната дистрибуција е добро прилагодена како приближување на други континуирани распределби (на пример, искривена).

4. Нормалната дистрибуција има голем број поволни математички својства, кои во голема мера обезбедуваат нејзина широка употреба во статистиката.

Во исто време, треба да се забележи дека во медицинските податоци има многу експериментални распределби кои не можат да се опишат со нормален модел на дистрибуција. За таа цел, статистиката разви методи кои вообичаено се нарекуваат „Непараметриски“.

Изборот на статистички метод кој е погоден за обработка на податоци од одреден експеримент треба да се направи во зависност од тоа дали добиените податоци припаѓаат на законот за нормална дистрибуција. Тестирањето на хипотезата за подреденост на знакот на законот за нормална дистрибуција се врши со помош на хистограм (график) на дистрибуција на фреквенција, како и голем број статистички критериуми. Меѓу нив:

Критериум за асиметрија ( б );

Критериум за тестирање за куртоза ( е );

Шапиро-Вилкс тест ( В ) .

За секој параметар се врши анализа на природата на дистрибуцијата на податоците (исто така наречена тест за нормалност на дистрибуција). За да се процени самоуверено дали распределбата на параметарот одговара на нормалниот закон, потребен е доволно голем број на набљудувачки единици (најмалку 30 вредности).

За нормална распределба, критериумите за искривување и куртоза ја земаат вредноста 0. Ако распределбата се префрли надесно б > 0 (позитивна асиметрија), со б < 0 - график распределения смещен влево (отрицательная асимметрия). Критерий асимметрии проверяет форму кривой распределения. В случае нормального закона е =0. На е > 0 кривата на дистрибуција е поостра ако е < 0 пик более сглаженный, чем функция нормального распределения.

За да се провери нормалноста со помош на критериумот Шапиро-Вилкс, неопходно е да се најде вредноста на овој критериум користејќи статистички табели на потребното ниво на значајност и во зависност од бројот на набљудувачки единици (степени на слобода). Додаток 1. Хипотезата за нормалност се отфрла при мали вредности на овој критериум, по правило, на w <0,8.

Групирање- ова е поделба на населението на групи кои се хомогени според некоја карактеристика.

Целта на услугата. Користејќи го онлајн калкулаторот можете:

  • изгради серија на варијации, изгради хистограм и многуаголник;
  • најдете индикатори за варијација (просек, режим (вклучувајќи графички), медијана, опсег на варијација, квартили, децили, коефициент на диференцијација на квартили, коефициент на варијација и други индикатори);

Инструкции. За да групирате серија, мора да го изберете типот на добиената серија на варијации (дискретна или интервал) и да ја наведете количината на податоци (број на редови). Добиеното решение се зачувува во датотека Word (види пример за групирање статистички податоци).

Доколку групирањето е веќе извршено и на серии на дискретни варијацииили интервални серии, тогаш треба да го користите онлајн калкулаторот Variation Indices. Тестирање на хипотезата за типот на дистрибуцијасе врши со користење на услугата Проучување на формуларот за дистрибуција.

Видови статистички групирања

Серија на варијации. Во случај на набљудување на дискретна случајна променлива, истата вредност може да се сретне неколку пати. Ваквите вредности x i на случајна променлива се запишуваат што укажува на n i колку пати се појавува во n набљудувања, ова е фреквенцијата на оваа вредност.
Во случај на континуирана случајна променлива, групирањето се користи во пракса.
  1. Типолошка групација- ова е поделба на квалитативно хетерогеното население што се проучува на класи, социо-економски типови, хомогени групи единици. За да ја изградите оваа групација, користете го параметарот серија на дискретни варијации.
  2. Групирањето се нарекува структурно, во која хомогена популација е поделена на групи кои ја карактеризираат нејзината структура според некои различни карактеристики. За да ја изградите оваа групација, користете го параметарот серија интервал.
  3. Се нарекува групирање што ги открива односите помеѓу појавите што се проучуваат и нивните карактеристики аналитичка група(види аналитичко групирање на серии).

Пример бр. 1. Врз основа на податоците во Табела 2, конструирајте серии за дистрибуција за 40 комерцијални банки во Руската Федерација. Користејќи ја добиената дистрибутивна серија, определи: просечен профит по деловна банка, кредитни инвестиции во просек по деловна банка, модална и средна вредност на добивката; квартили, децили, опсег на варијација, средно линеарно отстапување, стандардна девијација, коефициент на варијација.

Решение:
Во поглавјето „Тип на статистичка серија“изберете Дискретна серија. Кликнете Вметни од Excel. Број на групи: според формулата на Sturgess

Принципи за конструирање статистички групирања

Серијата на набљудувања подредени во растечки редослед се нарекува серија на варијации. Функција за групирањее карактеристика со која населението се дели на посебни групи. Се нарекува основа на групата. Групирањето може да се заснова и на квантитативни и на квалитативни карактеристики.
По утврдувањето на основата на групирањето, треба да се реши прашањето за бројот на групи на кои треба да се подели популацијата што се проучува.

Кога се користат персонални компјутери за обработка на статистички податоци, групирањето на објектните единици се врши со користење на стандардни процедури.
Една таква постапка се заснова на употребата на формулата Sturgess за да се одреди оптималниот број на групи:

k = 1+3,322*log(N)

Каде што k е бројот на групи, N е бројот на единици на населението.

Должината на парцијалните интервали се пресметува како h=(x max -x min)/k

Потоа се брои бројот на набљудувања кои спаѓаат во овие интервали, кои се земаат како фреквенции n i. Неколку фреквенции, чии вредности се помали од 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
Средните вредности на интервалите x i =(c i-1 +c i)/2 се земаат како нови вредности.

Пример бр. 3. Како резултат на 5% случаен примерок, добиена е следната распределба на производите по содржина на влага. Пресметајте: 1) просечен процент на влажност; 2) индикатори кои ги карактеризираат варијациите на влажноста.
Решението е добиено со помош на калкулатор: Пример бр.1

Конструирај серија на варијации. Врз основа на пронајдената серија, конструирајте дистрибутивен полигон, хистограм и кумулирајте. Определете го режимот и медијаната.
Преземете решение

Пример. Според резултатите од набљудувањето на примерокот (примерок А, Додаток):
а) направи варијација серија;
б) пресметува релативни фреквенции и акумулирани релативни фреквенции;
в) изгради многуаголник;
г) да се создаде емпириска функција за дистрибуција;
д) нацртајте ја функцијата за емпириска дистрибуција;
ѓ) пресметај нумерички карактеристики: аритметичка средина, дисперзија, стандардна девијација. Решение

Врз основа на податоците дадени во Табела 4 (Додаток 1) и што одговараат на вашата опција, направете:

  1. Врз основа на структурното групирање, конструирајте серии на варијациска фреквенција и кумулативна дистрибуција користејќи еднакви затворени интервали, земајќи го бројот на групи еднаков на 6. Претставете ги резултатите во форма на табела и прикажете графички.
  2. Анализирајте ги сериите на варијации на распределбата со пресметување:
    • аритметичка средна вредност на карактеристиката;
    • режим, медијана, 1-ви квартал, 1-ви и 9-ти децил;
    • Стандардна девијација;
    • коефициентот на варијација.
  3. Извлечете заклучоци.

Потребно: рангирање на серијата, конструирање интервална дистрибутивна серија, пресметување на просечната вредност, варијабилност на просечната вредност, режим и медијана за рангираната и интервалната серија.

Врз основа на првичните податоци, конструирајте дискретна серија на варијации; да го претстави во форма на статистичка табела и статистички графикони. 2). Врз основа на првичните податоци, конструирајте серија на варијации на интервали со еднакви интервали. Сами изберете го бројот на интервали и објаснете го овој избор. Претставете ја добиената серија на варијации во форма на статистичка табела и статистички графикони. Наведете ги типовите на табели и графикони што се користат.

Со цел да се одреди просечното времетраење на услугите на клиентите во пензиски фонд, чиј број клиенти е многу голем, спроведена е анкета на 100 клиенти со примена на шема на случаен не-повторувачки примерок. Резултатите од истражувањето се прикажани во табелата. Најдете:
а) границите во кои, со веројатност 0,9946, е содржано просечното време на услуга за сите клиенти на пензискиот фонд;
б) веројатноста дека учеството на сите клиенти на фондовите со времетраење на услугата помало од 6 минути се разликува од учеството на таквите клиенти во примерокот за не повеќе од 10% (во апсолутна вредност);
в) обемот на повторено земање примероци, во кој со веројатност од 0,9907 може да се наведе дека учеството на сите клиенти на фондовите со времетраење на услугата помало од 6 минути се разликува од учеството на таквите клиенти во примерокот за не повеќе од 10 % (во апсолутна вредност).
2. Според податоците од задачата 1, користејќи го критериумот Пирсон X 2, на ниво на значајност од α = 0,05, тестирајте ја хипотезата дека случајната променлива X - време за услуги на клиентите - е распределена според нормалниот закон. Конструирај хистограм на емпириската дистрибуција и соодветната нормална крива во еден цртеж.
Преземете решение

Даден е примерок од 100 елементи. Неопходно:

  1. Конструирај рангирана серија на варијации;
  2. Најдете ги максималните и минималните услови на серијата;
  3. Најдете го опсегот на варијации и бројот на оптимални интервали за конструирање интервална серија. Најдете ја должината на интервалот на интервалната серија;
  4. Конструирај интервална серија. Најдете ги фреквенциите на елементите на примерокот што спаѓаат во составените интервали. Најдете ги средните точки на секој интервал;
  5. Конструирај хистограм и многуаголник на фреквенција. Споредете со нормална дистрибуција (аналитички и графички);
  6. Исцртај ја функцијата за емпириска дистрибуција;
  7. Пресметајте ги нумеричките карактеристики на примерокот: средната вредност на примерокот и моментот на централниот примерок;
  8. Пресметајте приближни вредности на стандардна девијација, искривување и куртоза (со помош на пакетот за анализа на MS Excel). Споредете ги приближните пресметани вредности со точните (пресметани со помош на формули MS Excel);
  9. Споредете ги избраните графички карактеристики со соодветните теоретски.
Преземете решение

Следниве податоци за примерокот се достапни (10% примерок, механички) за излезот на производот и износот на профитот, милиони рубли. Според првичните податоци:
Задача 13.1.
13.1.1. Конструирајте статистичка серија на распределба на претпријатијата по износот на добивката, формирајќи пет групи со еднакви интервали. Конструирај графикони од сериите на дистрибуција.
13.1.2. Пресметајте ги нумеричките карактеристики на дистрибутивната серија на претпријатија по износот на добивката: аритметичка средина, стандардна девијација, дисперзија, коефициент на варијација V. Извлечете заклучоци.
Задача 13.2.
13.2.1. Определете ги границите во кои, со веројатност 0,997, лежи износот на добивката на едно претпријатие во општата популација.
13.2.2. Користејќи го Пирсоновиот x2 тест, на ниво на значајност α, тестирајте ја хипотезата дека случајната променлива X - износот на добивката - е распределена според нормален закон.
Задача 13.3.
13.3.1. Определете ги коефициентите на примерокот за регресивна равенка.
13.3.2. Утврдете го присуството и природата на корелацијата помеѓу трошоците за произведените производи (X) и износот на профитот по претпријатие (Y). Конструирај сптерплот и регресивна линија.
13.3.3. Пресметај го коефициентот на линеарна корелација. Користејќи го Студентскиот т-тест, тестирајте ја значајноста на коефициентот на корелација. Извлечете заклучок за блиската врска помеѓу факторите X и Y користејќи ја скалата на Чадок.
Насоки. Задачата 13.3 се изведува со користење на оваа услуга.
Преземете решение

Задача. Следниве податоци го претставуваат времето поминато на клиентите на склучување договори. Конструирајте интервална варијација серија на презентираните податоци, хистограм, најдете непристрасна проценка на математичкото очекување, пристрасна и непристрасна проценка на варијансата.

Пример. Според Табела 2:
1) Изградете дистрибутивна серија за 40 комерцијални банки на Руската Федерација:
А) во смисла на профит;
Б) по износот на кредитните инвестиции.
2) Користејќи ја добиената дистрибутивна серија, определи:
А) просечна добивка по деловна банка;
Б) кредитни инвестиции во просек по деловна банка;
В) модална и средна вредност на добивката; квартили, децили;
Г) модална и средна вредност на кредитните инвестиции.
3) Користејќи ги редовите за дистрибуција добиени во чекор 1, пресметајте:
а) опсег на варијации;
б) просечно линеарно отстапување;
в) стандардна девијација;
г) коефициент на варијација.
Пополнете ги потребните пресметки во табеларна форма. Анализирајте ги резултатите. Извлечете заклучоци.
Зацртај графикони на добиената дистрибутивна серија. Графички одредете го режимот и медијаната.

Решение:
За да изградиме групација со еднакви интервали, ќе ја користиме услугата Групирање статистички податоци.

Слика 1 – Внесување параметри

Опис на параметрите
Број на линии: број на влезни податоци. Ако големината на редот е мала, наведете ја нејзината количина. Ако изборот е доволно голем, тогаш кликнете на копчето Вметни од Excel.
Број на групи: 0 – бројот на групи ќе се определи со формулата Sturgess.
Ако е наведен одреден број на групи, наведете го (на пример, 5).
Тип на серија: Дискретна серија.
Ниво на значајност: на пример 0,954 . Овој параметар е поставен за да го одреди интервалот на доверливост на средната вредност.
Пример: На пример, извршено е 10% механичко земање мостри. Го наведуваме бројот 10. За нашите податоци наведуваме 100.

Како резултат на совладувањето на ова поглавје, студентот мора: знае

  • индикатори за варијација и нивната врска;
  • основни закони за дистрибуција на карактеристики;
  • суштината на критериумите за согласност; може да
  • пресметајте ги индексите на варијација и критериумите за добросостојба;
  • определување карактеристики на дистрибуција;
  • оценување на основните нумерички карактеристики на сериите на статистичката дистрибуција;

свој

  • методи на статистичка анализа на дистрибутивни серии;
  • основи на анализа на варијанса;
  • техники за проверка на сериите на статистичка дистрибуција за усогласеност со основните закони за дистрибуција.

Индикатори за варијација

Во статистичкото проучување на карактеристиките на различните статистички популации, од голем интерес е да се проучи варијацијата на карактеристиката на одделните статистички единици на популацијата, како и природата на распределбата на единиците според оваа карактеристика. Варијација -ова се разлики во поединечните вредности на карактеристика меѓу единиците на населението што се проучува. Проучувањето на варијациите е од големо практично значење. Според степенот на варијација, може да се процени границите на варијација на карактеристика, хомогеноста на популацијата за дадена карактеристика, типичноста на просекот и односот на факторите што ја одредуваат варијацијата. Индикаторите за варијација се користат за карактеризирање и организирање на статистичките популации.

Резултатите од резимето и групирањето на материјалите за статистичко набљудување, претставени во форма на серии за статистичка дистрибуција, претставуваат подредена распределба на единиците на испитуваната популација во групи според групирачки (променливи) критериуми. Ако се земе квалитативна карактеристика како основа за групирање, тогаш се нарекува таква дистрибутивна серија атрибутивен(распределба по професија, пол, боја и сл.). Ако дистрибутивната серија е изградена на квантитативна основа, тогаш се нарекува таква серија варијациски(распределба по висина, тежина, плата и сл.). Да се ​​изгради серија на варијации значи да се организира квантитативната дистрибуција на единиците на населението по карактеристични вредности, да се брои бројот на единици на население со овие вредности (фреквенција) и да се подредат резултатите во табела.

Наместо фреквенцијата на варијантата, можно е да се користи нејзиниот сооднос со вкупниот волумен на набљудувања, што се нарекува фреквенција (релативна фреквенција).

Постојат два вида варијации: дискретни и интервални. Дискретна серија- Ова е серија на варијации, чија конструкција се заснова на карактеристики со дисконтинуирана промена (дискретни карактеристики). Последните го вклучуваат бројот на вработени во претпријатието, тарифната категорија, бројот на деца во семејството итн. Дискретна серија на варијации претставува табела која се состои од две колони. Првата колона ја означува специфичната вредност на атрибутот, а втората колона го означува бројот на единици во популацијата со одредена вредност на атрибутот. Доколку некоја карактеристика има континуирана промена (износ на приход, стаж, трошок за основни средства на претпријатието итн., која во одредени граници може да преземе какви било вредности), тогаш за оваа карактеристика е можно да се конструира серија на варијации на интервал.Кога се конструира серија на варијации на интервал, табелата има и две колони. Првиот ја означува вредноста на атрибутот во интервалот „од - до“ (опции), вториот го означува бројот на единици вклучени во интервалот (фреквенција). Фреквенција (фреквенција на повторување) - бројот на повторувања на одредена варијанта на вредностите на атрибутот. Интервалите можат да бидат затворени или отворени. Затворените интервали се ограничени од двете страни, т.е. имаат и долна („од“) и горна („до“) граница. Отворените интервали имаат една граница: или горна или долна. Ако опциите се подредени во растечки или опаѓачки редослед, тогаш се повикуваат редовите рангирана.

За сериите на варијации, постојат два типа на опции за одговор на фреквенцијата: акумулирана фреквенција и акумулирана фреквенција. Акумулираната фреквенција покажува колку набљудувања вредноста на карактеристиката земала вредности помали од дадената. Акумулираната фреквенција се одредува со собирање на вредностите на фреквенцијата на карактеристика за дадена група со сите фреквенции од претходните групи. Акумулираната фреквенција го карактеризира процентот на единици за набљудување чии вредности на атрибутот не ја надминуваат горната граница на дадената група. Така, акумулираната фреквенција го покажува процентот на опции во тоталитетот кои имаат вредност не поголема од дадената. Фреквенција, фреквенција, апсолутна и релативна густина, акумулирана фреквенција и фреквенција се карактеристики на големината на варијантата.

Варијациите во карактеристиките на статистичките единици на населението, како и природата на дистрибуцијата, се проучуваат со помош на индикатори и карактеристики на сериите на варијации, кои вклучуваат просечно ниво на серијата, просечно линеарно отстапување, стандардна девијација, дисперзија , коефициенти на осцилација, варијација, асиметрија, куртоза итн.

Просечните вредности се користат за карактеризирање на дистрибутивниот центар. Просекот е генерализирана статистичка карактеристика во која се квантифицира типичното ниво на карактеристика што ја поседуваат членовите на популацијата што се проучува. Сепак, може да има случаи на совпаѓање на аритметички средини со различни модели на дистрибуција, затоа, како статистички карактеристики на варијационите серии се пресметуваат таканаречените структурни средини - мод, медијана, како и квантили, кои ја делат серијата на дистрибуција на еднакви делови (квартили, децили, перцентили, итн.).

Мода -Ова е вредноста на карактеристиката што се јавува во дистрибутивната серија почесто од нејзините други вредности. За дискретни серии, ова е опцијата со најголема фреквенција. Во сериите со варијации на интервал, за да се одреди режимот, потребно е прво да се одреди интервалот во кој се наоѓа, таканаречениот модален интервал. Во варијациските серии со еднакви интервали, модалниот интервал се одредува според најголемата фреквенција, во сериите со нееднакви интервали - но со најголемата густина на дистрибуција. Формулата потоа се користи за одредување на режимот во редови во еднакви интервали

каде Мо е модната вредност; xMo - долна граница на модалниот интервал; ж-ширина на модален интервал; / Mo - фреквенција на модалниот интервал; / Mo j е фреквенцијата на премодалниот интервал; / Mo+1 е фреквенцијата на пост-модалниот интервал, а за серија со нееднакви интервали во оваа пресметковна формула, наместо фреквенциите / Mo, / Mo, / Mo, треба да се користат густини на дистрибуција Умот 0 _| , Умот 0> UMO+"

Ако постои еден режим, тогаш распределбата на веројатноста на случајната променлива се нарекува унимодална; ако има повеќе од еден режим, тој се нарекува мултимодален (полимодален, мултимодален), во случај на два режими - бимодален. Како по правило, мултимодалноста покажува дека распределбата што се проучува не го почитува нормалниот закон за дистрибуција. Хомогените популации, по правило, се карактеризираат со еднотеменски распределби. Мултивертекс, исто така, укажува на хетерогеноста на популацијата што се проучува. Појавата на две или повеќе темиња прави неопходно да се прегрупираат податоците за да се идентификуваат повеќе хомогени групи.

Во серија на варијации на интервал, режимот може да се одреди графички со помош на хистограм. За да го направите ова, исцртајте две линии кои се пресекуваат од горните точки на највисоката колона на хистограмот до горните точки на две соседни колони. Потоа, од точката на нивното вкрстување, нормално се спушта на оската на апсцисата. Вредноста на карактеристиката на x-оската што одговара на нормалната е режимот. Во многу случаи, кога се карактеризира популација како генерализиран индикатор, предност се дава на режимот наместо аритметичката средина.

средна -Ова е централната вредност на атрибутот; ја поседува централниот член на рангираната серија на дистрибуцијата. Во дискретни серии, за да се најде вредноста на медијаната, прво се одредува нејзиниот сериски број. За да го направите ова, ако бројот на единици е непарен, една се додава на збирот на сите фреквенции, а бројот се дели со две. Ако има парен број единици по ред, ќе има две средни единици, така што во овој случај медијаната се дефинира како просек од вредностите на двете медијални единици. Така, медијаната во серија на дискретни варијации е вредноста што ја дели серијата на два дела кои содржат ист број опции.

Во интервалните серии, по одредувањето на серискиот број на медијаната, медијалниот интервал се наоѓа со помош на акумулираните фреквенции (фреквенции), а потоа со помош на формулата за пресметување на медијаната се одредува вредноста на самата медијана:

каде Мене е средната вредност; x јас -долната граница на средниот интервал; ж-ширина на средниот интервал; - збирот на фреквенциите на дистрибутивната серија; /D - акумулирана фреквенција на предмедијалниот интервал; / Me - фреквенција на средниот интервал.

Медијаната може да се најде графички со помош на кумулација. За да го направите ова, на скалата на акумулирани фреквенции (фреквенции) на кумулатот, од точката што одговара на редниот број на медијаната, се повлекува права линија паралелна со оската на апсцисата додека не се пресече со кумулацијата. Следно, од точката на пресек на наведената линија со кумулатот, се спушта нормална на оската на апсцисата. Вредноста на атрибутот на оската x што одговара на нацртаната ордината (нормална) е медијаната.

Медијаната се карактеризира со следните својства.

  • 1. Не зависи од оние вредности на атрибутите што се наоѓаат на двете страни од него.
  • 2. Има својство на минималност, што значи дека збирот на апсолутните отстапувања на вредностите на атрибутот од медијаната претставува минимална вредност во споредба со отстапувањето на вредностите на атрибутот од која било друга вредност.
  • 3. При комбинирање на две распределби со познати медијани, невозможно е однапред да се предвиди вредноста на медијаната на новата распределба.

Овие својства на медијаната се широко користени при дизајнирање на локацијата на пунктови за јавни услуги - училишта, клиники, бензински пумпи, пумпи за вода итн. На пример, ако се планира да се изгради амбуланта во одреден блок од градот, тогаш би било поцелисходно да се лоцира во точка од блокот што ја преполови не должината на блокот, туку бројот на жители.

Односот на режимот, медијаната и аритметичката средина ја покажува природата на распределбата на карактеристиката во агрегатот и ни овозможува да ја процениме симетријата на распределбата. Ако x Me тогаш постои десна асиметрија на серијата. Со нормална дистрибуција X -Јас - Мо.

Ки.

каде Мене е средната вредност; Мо - значење на модата; x аритм - вредноста на аритметичката средина.

Ако има потреба подетално да се проучи структурата на сериите на варијации, тогаш пресметајте ги карактеристичните вредности слични на медијаната. Ваквите карактеристични вредности ги делат сите дистрибутивни единици на еднаков број; тие се нарекуваат квантили или градиенти. Квантилите се делат на квартили, децили, перцентили итн.

Квартилите го делат населението на четири еднакви делови. Првиот квартил се пресметува слично како и медијаната со помош на формулата за пресметување на првиот квартал, откако претходно го утврдивме првиот квартален интервал:

каде што Чи е вредноста на првиот квартил; xQ^-долната граница на опсегот на првиот квартил; ч- ширина на интервалот од првата четвртина; /, - фреквенции на интервалната серија;

Кумулативна фреквенција во интервалот што му претходи на првиот квартилен интервал; Jq ( - фреквенција на првиот квартилен интервал.

Првиот квартал покажува дека 25% од единиците на населението се помали од неговата вредност, а 75% се повеќе. Вториот квартил е еднаков на медијаната, т.е. Q 2 =Јас.

По аналогија, се пресметува третиот квартал, откако прво го најде третиот квартален интервал:

каде е долната граница на опсегот на третиот квартил; ч- ширина на интервалот на третиот квартал; /, - фреквенции на интервалната серија; /X" -акумулирана фреквенција во претходниот интервал

Г

интервал на третиот квартал; Jq е фреквенцијата на третиот квартилен интервал.

Третиот квартал покажува дека 75% од единиците на населението се помали од неговата вредност, а 25% се повеќе.

Разликата помеѓу третиот и првиот квартил е интерквартилниот опсег:

каде што Aq е вредноста на интерквартилниот опсег; П 3 -вредност на третиот квартал; Q, е вредноста на првиот квартил.

Децилите го делат населението на 10 еднакви делови. Децил е вредност на карактеристика во дистрибутивна серија која одговара на десетинки од големината на населението. По аналогија со квартилите, првиот децил покажува дека 10% од единиците на населението се помали од неговата вредност, а 90% се поголеми, а деветтиот децил открива дека 90% од единиците на населението се помали од неговата вредност, а 10% се поголемо. Односот на деветтата и првата децили, т.е. Децилниот коефициент е широко користен во проучувањето на диференцијацијата на доходот за мерење на односот на нивоата на доход на 10% најбогато и 10% од најмалку богатото население. Процентилите ја делат рангираната популација на 100 еднакви делови. Пресметката, значењето и примената на перцентилите се слични на децилите.

Квартилите, децилите и другите структурни карактеристики може графички да се одредат по аналогија со медијаната користејќи кумулати.

За мерење на големината на варијацијата, се користат следните индикатори: опсег на варијација, просечна линеарна девијација, стандардна девијација, дисперзија. Големината на опсегот на варијација целосно зависи од случајноста на распределбата на екстремните членови на серијата. Овој индикатор е од интерес во случаи кога е важно да се знае која е амплитудата на флуктуации во вредностите на карактеристиката:

Каде R-вредноста на опсегот на варијација; x max - максимална вредност на атрибутот; x tt -минимална вредност на атрибутот.

При пресметување на опсегот на варијација, вредноста на огромното мнозинство членови на серијата не се зема предвид, додека варијацијата е поврзана со секоја вредност на членот на серијата. Индикаторите кои се просеци добиени од отстапувањата на поединечните вредности на карактеристиката од нивната просечна вредност го немаат овој недостаток: просечното линеарно отстапување и стандардното отстапување. Постои директна врска помеѓу поединечните отстапувања од просекот и варијабилноста на одредена особина. Колку е посилна флуктуацијата, толку е поголема апсолутната големина на отстапувањата од просекот.

Просечното линеарно отстапување е аритметичка средина на апсолутните вредности на отстапувањата на поединечните опции од нивната просечна вредност.

Просечно линеарно отстапување за негрупирани податоци

каде што /pr е вредноста на просечното линеарно отстапување; x, - е вредноста на атрибутот; X - П -број на единици во населението.

Просечно линеарно отстапување на групираните серии

каде / vz - вредноста на просечното линеарно отстапување; x, е вредноста на атрибутот; X -просечната вредност на карактеристиката за популацијата што се проучува; / - бројот на единици на население во посебна група.

Во овој случај, знаците на отстапувања се игнорираат, инаку збирот на сите отстапувања ќе биде еднаков на нула. Просечното линеарно отстапување, во зависност од групирањето на анализираните податоци, се пресметува со користење на различни формули: за групирани и негрупирани податоци. Поради својата конвенција, просечното линеарно отстапување, одделно од другите показатели за варијација, се користи во пракса релативно ретко (особено, за да се карактеризира исполнувањето на договорните обврски во однос на униформноста на испораката; во анализата на надворешно трговскиот промет, составот на вработените, ритамот на производство, квалитетот на производот, земајќи ги предвид технолошките карактеристики на производството и сл.).

Стандардната девијација карактеризира колку во просек поединечните вредности на карактеристиката што се проучува отстапуваат од просечната вредност на популацијата и се изразува во мерни единици на карактеристиката што се проучува. Стандардната девијација, која е една од главните мерки на варијација, е широко користена при проценка на границите на варијација на карактеристика во хомогена популација, при одредување на ординатни вредности на нормална крива на дистрибуција, како и во пресметките поврзани со организацијата на набљудувањето на примерокот и утврдувањето на точноста на карактеристиките на примерокот. Стандардната девијација на негрупираните податоци се пресметува со помош на следниов алгоритам: секое отстапување од средната вредност се квадрира, сите квадрати се собираат, по што збирот на квадратите се дели со бројот на членовите од серијата и квадратниот корен се извлекува од количник:

каде што Iip е вредноста на стандардното отстапување; Xj-вредност на атрибутот; X- просечната вредност на карактеристиката за популацијата што се проучува; П -број на единици во населението.

За групирани анализирани податоци, стандардното отстапување на податоците се пресметува со користење на пондерирана формула

Каде - стандардна вредност на отстапување; Xj-вредност на атрибутот; X -просечната вредност на карактеристиката за популацијата што се проучува; f x -бројот на единици на население во одредена група.

Изразот под коренот и во двата случаи се нарекува варијанса. Така, дисперзијата се пресметува како просечен квадрат на отстапувања на вредностите на атрибутите од нивната просечна вредност. За непондерирани (едноставни) вредности на атрибутот, варијансата се одредува на следниов начин:

За пондерираните карактеристични вредности

Постои и посебен поедноставен метод за пресметување на варијансата: воопшто

за непондерирани (едноставни) карактеристични вредности за пондерираните карактеристични вредности
користејќи го методот заснован на нула

каде што a 2 е вредноста на дисперзијата; x, - е вредноста на атрибутот; X -просечна вредност на карактеристиката, ж-вредност на групниот интервал, t 1 -тежина (А =

Дисперзијата има свој израз во статистиката и е еден од најважните индикатори за варијација. Се мери во единици што одговараат на квадратот на мерните единици на карактеристиката што се проучува.

Дисперзијата ги има следните својства.

  • 1. Варијансата на константна вредност е нула.
  • 2. Намалувањето на сите вредности на карактеристиката со иста вредност А не ја менува вредноста на дисперзијата. Ова значи дека просечниот квадрат на отстапувања може да се пресмета не од дадените вредности на некоја карактеристика, туку од нивните отстапувања од некој константен број.
  • 3. Намалување на сите карактеристични вредности во кпати ја намалува дисперзијата за к 2 пати, а стандардното отстапување е внатре кпати, т.е. сите вредности на атрибутот може да се поделат со некој константен број (да речеме, со вредноста на серискиот интервал), може да се пресмета стандардното отстапување, а потоа да се помножи со константен број.
  • 4. Ако го пресметаме просечниот квадрат на отстапувања од која било вредност Исе разликува во еден или друг степен од аритметичката средина, тогаш таа секогаш ќе биде поголема од просечниот квадрат на отстапувањата пресметани од аритметичката средина. Просечниот квадрат на отстапувањата ќе биде поголем за многу одредена сума - за квадратот на разликата помеѓу просечната и оваа конвенционално земена вредност.

Варијацијата на алтернативна карактеристика се состои во присуство или отсуство на проучуваниот имот во единици од населението. Квантитативно, варијацијата на алтернативен атрибут се изразува со две вредности: присуството на единица од проучуваното својство се означува со еден (1), а неговото отсуство се означува со нула (0). Соодносот на единиците што го имаат имотот што се проучува се означува со P, а пропорцијата на единиците што го немаат ова својство се означува со Г.Така, варијансата на алтернативниот атрибут е еднаква на производот на пропорцијата на единиците што го поседуваат ова својство (P) со процентот на единиците што не го поседуваат ова својство (Г).Најголема варијација на населението се постигнува во случаи кога дел од населението, кое сочинува 50% од вкупниот волумен на населението, има карактеристика, а друг дел од населението, исто така еднакво на 50%, ја нема оваа карактеристика, а дисперзијата достигнува максимална вредност од 0,25, т .е. P = 0,5, G= 1 - P = 1 - 0,5 = 0,5 и o 2 = 0,5 0,5 = 0,25. Долната граница на овој индикатор е нула, што одговара на ситуација во која нема варијации во агрегатот. Практичната примена на варијансата на алтернативна карактеристика е да се конструираат интервали на доверба при спроведување на набљудувања на примероци.

Колку е помала варијансата и стандардното отстапување, толку е похомогена популацијата и потипичен ќе биде просекот. Во практиката на статистика, често има потреба да се споредуваат варијации на различни карактеристики. На пример, интересно е да се споредат варијациите на возраста на работниците и нивните квалификации, стажот и платите, трошоците и профитот, стажот и продуктивноста на трудот итн. За такви споредби, показателите за апсолутна варијабилност на карактеристиките се несоодветни: невозможно е да се спореди варијабилноста на работното искуство, изразена во години, со варијацијата на платите, изразена во рубли. За извршување на такви споредби, како и споредување на варијабилноста на иста карактеристика кај повеќе популации со различни аритметички просеци, се користат индикатори за варијација - коефициент на осцилација, линеарен коефициент на варијација и коефициент на варијација, кои ја покажуваат мерката на флуктуации на екстремни вредности околу просекот.

Коефициент на осцилација:

Каде V R -вредност на коефициентот на осцилација; Р- вредност на опсегот на варијација; X -

Линеарен коефициент на варијација“.

Каде Vj-вредноста на линеарниот коефициент на варијација; јас -вредноста на просечното линеарно отстапување; X -просечната вредност на карактеристиката за популацијата што се проучува.

Коефициентот на варијација:

Каде V a -коефициент на варијација вредност; a е вредноста на стандардното отстапување; X -просечната вредност на карактеристиката за популацијата што се проучува.

Коефициентот на осцилација е процентуален однос на опсегот на варијација до просечната вредност на карактеристиката што се проучува, а линеарниот коефициент на варијација е односот на просечното линеарно отстапување до просечната вредност на карактеристиката што се проучува, изразена како процентот. Коефициентот на варијација е процентот на стандардното отстапување до просечната вредност на карактеристиката што се проучува. Како релативна вредност, изразена во проценти, коефициентот на варијација се користи за да се спореди степенот на варијација на различни карактеристики. Користејќи го коефициентот на варијација, се проценува хомогеноста на статистичка популација. Ако коефициентот на варијација е помал од 33%, тогаш популацијата што се проучува е хомогена, а варијацијата е слаба. Ако коефициентот на варијација е повеќе од 33%, тогаш популацијата што се испитува е хетерогена, варијацијата е силна, а просечната вредност е атипична и не може да се користи како општ показател за оваа популација. Покрај тоа, коефициентите на варијација се користат за да се спореди варијабилноста на една карактеристика кај различни популации. На пример, да се процени варијацијата во стажот на работниците во две претпријатија. Колку е поголема вредноста на коефициентот, толку е позначајна варијацијата на карактеристиката.

Врз основа на пресметаните квартили, исто така е можно да се пресмета релативниот показател за квартална варијација со помош на формулата

каде што П 2 И

Меѓуквартилниот опсег се одредува со формулата

Квартилното отстапување се користи наместо опсегот на варијации за да се избегнат недостатоците поврзани со користењето екстремни вредности:

За серии на нееднакво интервални варијации, се пресметува и густината на дистрибуцијата. Се дефинира како количник на соодветната фреквенција или фреквенција поделена со вредноста на интервалот. Во сериите на нееднакви интервали, се користат апсолутни и релативни густини на дистрибуција. Апсолутната густина на дистрибуција е фреквенцијата по единица должина на интервалот. Релативна густина на дистрибуција - фреквенција по единица должина на интервал.

Сето горенаведено е точно за сериите на дистрибуција чиј закон за распределба е добро опишан со законот за нормална дистрибуција или е близок до него.

Варијационаленсе нарекуваат дистрибутивни серии изградени на квантитативна основа. Вредностите на квантитативните карактеристики во одделни единици на населението не се константни и се разликуваат повеќе или помалку едни од други.

Варијација- флуктуација, променливост на вредноста на карактеристиката меѓу единиците на населението. Се нарекуваат поединечни нумерички вредности на карактеристика пронајдена во популацијата што се проучува опциивредности. Недоволноста на просечната вредност за целосно карактеризирање на населението нè принудува да ги дополниме просечните вредности со индикатори кои ни овозможуваат да ја процениме типичноста на овие просеци со мерење на варијабилноста (варијацијата) на карактеристиката што се проучува.

Присуството на варијација се должи на влијанието на голем број фактори врз формирањето на нивото на особината. Овие фактори дејствуваат со нееднаква сила и во различни насоки. Индексите на варијација се користат за да се опише мерката на варијабилноста на особини.

Цели на статистичкото проучување на варијации:

  • 1) проучување на природата и степенот на варијација на карактеристиките во одделни единици на населението;
  • 2) утврдување на улогата на поединечните фактори или нивните групи во варијацијата на одредени карактеристики на населението.

Во статистиката, се користат специјални методи за проучување на варијации, врз основа на употреба на систем на индикатори, Сосо кој се мери варијацијата.

Истражувањето за варијациите е важно. Мерењето на варијациите е неопходно при спроведување на набљудување на примерокот, анализа на корелација и варијанса итн. Ермолаев О.Ју. Математичка статистика за психолози: Учебник [Текст]/ O.Yu. Ермолаев. - М.: Издавачка куќа Флинт на Московскиот психолошки и социјален институт, 2012. - 335 стр.

Според степенот на варијација може да се суди за хомогеноста на популацијата, стабилноста на индивидуалните вредности на карактеристиките и типичноста на просекот. Врз нивна основа се развиваат индикатори за блискоста на односот помеѓу карактеристиките и индикаторите за проценка на точноста на набљудувањето на примерокот.

Се прави разлика помеѓу варијација во просторот и варијација во времето.

Варијацијата во просторот се подразбира како флуктуација на вредностите на атрибутите меѓу популационите единици кои претставуваат поединечни територии. Временската варијација се однесува на промени во вредностите на некоја карактеристика во различни временски периоди.

За проучување на варијациите во редовите на дистрибуција, сите варијанти на вредностите на атрибутите се подредени во растечки или опаѓачки редослед. Овој процес се нарекува рангирање на редови.

Наједноставните знаци на варијација се минимум и максимум- најмалата и најголемата вредност на атрибутот во агрегатот. Бројот на повторувања на поединечни варијанти на вредностите на карактеристиките се нарекува фреквенција на повторување (fi). Удобно е да се заменат фреквенциите со фреквенции - wi. Фреквенцијата е релативен показател за фреквенцијата, која може да се изрази во фракции од единица или процент и ви овозможува да ги споредите сериите на варијации со различен број на набљудувања. Изразено со формулата:

каде што Xmax, Xmin се максималните и минималните вредности на карактеристиката во агрегат; n - број на групи.

За мерење на варијацијата на некоја особина, се користат различни апсолутни и релативни индикатори. Апсолутни индикатори на варијација вклучуваат опсег на варијација, просечна линеарна девијација, дисперзија и стандардна девијација. Релативните индикатори на осцилација вклучуваат коефициент на осцилација, релативно линеарно отстапување и коефициент на варијација.

Пример за наоѓање варијација серија

Вежбајте.За овој примерок:

  • а) Најдете ја серијата на варијации;
  • б) Конструирајте ја функцијата за дистрибуција;

Бр.=42. Примерни елементи:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Решение.

  • а) изградба на рангирана серија на варијации:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) изградба на дискретна варијација серија.

Ајде да го пресметаме бројот на групи во серијата на варијации користејќи ја формулата Sturgess:

Да го земеме бројот на групи еднаков на 7.

Знаејќи го бројот на групи, ја пресметуваме големината на интервалот:

За погодност за конструирање на табелата, ќе го земеме бројот на групи еднаков на 8, интервалот ќе биде 1.

Ориз. 1 Обемот на продажба на стоки од продавница за одреден временски период


Затвори