КУРСОВА РАБОТА

Тема: Корелационен анализ

Въведение

1. Корелационен анализ

1.1 Концепцията за корелация

1.2 Обща класификация на корелациите

1.3 Корелационни полета и целта на тяхното изграждане

1.4 Етапи на корелационен анализ

1.5 Коефициенти на корелация

1.6 Нормализиран коефициент на корелация на Браве-Пиърсън

1.7 Коефициент на корелация на ранга на Спирман

1.8 Основни свойства на корелационните коефициенти

1.9 Проверка на значимостта на корелационните коефициенти

1.10 Критичните стойности на коефициента на корелация на двойката

2. Планиране на многовариантен експеримент

2.1 Състояние на проблема

2.2 Определяне на центъра на плана (основно ниво) и нивото на вариация на факторите

2.3 Изграждане на матрица за планиране

2.4 Проверка на хомогенността на дисперсията и еднаква точност на измерванията в различни серии

2.5 Коефициенти на регресионното уравнение

2.6 Дисперсия на възпроизводимост

2.7 Проверка на значимостта на коефициентите на регресионното уравнение

2.8 Проверка на адекватността на регресионното уравнение

Заключение

Библиография

ВЪВЕДЕНИЕ

Планирането на експеримента е математическа и статистическа дисциплина, която изучава методите за рационална организация на експерименталното изследване - от оптималния избор на изследваните фактори и определянето на действителния план на експеримента в съответствие с неговата цел до методите за анализ на резултатите. Началото на планирането на експеримента е поставено от трудовете на английския статистик Р. Фишър (1935), който подчертава, че рационалното планиране на експеримента дава не по-малко значителна печалба в точността на оценките, отколкото оптималната обработка на резултатите от измерването. През 60-те години на 20-ти век се появява съвременна теория за планиране на експеримента. Неговите методи са тясно свързани с теорията на апроксимацията на функциите и математическото програмиране. Изграждат се оптимални планове и се изследват техните свойства за широк клас модели.

Планирането на експеримента е изборът на план за експеримент, който отговаря на определените изисквания, набор от действия, насочени към разработване на експериментална стратегия (от получаване на априорна информация до получаване на работещ математически модел или определяне на оптимални условия). Това е целенасочен контрол на експеримента, осъществяван в условия на непълно познаване на механизма на изследваното явление.

В процеса на измерване, последваща обработка на данните, както и формализиране на резултатите под формата на математически модел възникват грешки и част от информацията, съдържаща се в оригиналните данни, се губи. Използването на методи за планиране на експеримента дава възможност да се определи грешката на математическия модел и да се прецени неговата адекватност. Ако точността на модела е недостатъчна, тогава използването на методи за планиране на експеримента прави възможно модернизирането на математическия модел с допълнителни експерименти без загуба на предишна информация и с минимални разходи.

Целта на планирането на експеримента е да се намерят такива условия и правила за провеждане на експерименти, при които е възможно да се получи надеждна и надеждна информация за обекта с най-ниски разходи за труд, както и да се представи тази информация в компактна и удобна форма с количествено оценка на точността.

Сред основните методи за планиране, използвани на различни етапи от проучването, се използват следните:

Планиране на скрининг експеримент, чийто основен смисъл е подбор на група значими фактори от съвкупността от фактори, които подлежат на по-нататъшно подробно изследване;

Проектиране на експеримент за анализ на дисперсията, т.е. изготвяне на планове за обекти с качествени фактори;

Планиране на регресионен експеримент, който ви позволява да получите регресионни модели (полиномни и други);

Планиране на екстремен експеримент, в който основна задача е експерименталната оптимизация на обекта на изследване;

Планиране при изследване на динамични процеси и др.

Целта на изучаването на дисциплината е да подготви студентите за производствено-техническа дейност по специалността, използвайки методите на теорията на планирането и съвременните информационни технологии.

Цели на дисциплината: изучаване на съвременни методи за планиране, организиране и оптимизиране на научни и производствени експерименти, провеждане на експерименти и обработка на резултатите.

1. КОРЕЛАЦИОНЕН АНАЛИЗ

1.1 Концепцията за корелация

Изследователят често се интересува от това как две или повече променливи са свързани една с друга в една или повече от изследваните проби. Например, може ли височината да повлияе на теглото на човек или налягането може да повлияе на качеството на продукта?

Този вид връзка между променливите се нарича корелация или корелация. Корелацията е последователна промяна в две характеристики, отразяваща факта, че променливостта на една характеристика е в съответствие с променливостта на другата.

Известно е, например, че средно има положителна връзка между ръста на хората и тяхното тегло и такава, че колкото по-голям е ръстът, толкова по-голямо е теглото на човек. Има обаче изключения от това правило, когато относително ниските хора са с наднормено тегло и, обратно, астениците с висок растеж са леки. Причината за такива изключения е, че всяка биологична, физиологична или психологическа характеристика се определя от влиянието на много фактори: екологични, генетични, социални, екологични и т.н.

Корелациите са вероятностни промени, които могат да бъдат изследвани само върху представителни извадки чрез методи на математическата статистика. И двата термина - корелация и корелационна зависимост - често се използват взаимозаменяемо. Зависимост означава влияние, връзка - всякакви координирани промени, които могат да бъдат обяснени със стотици причини. Корелациите не могат да се считат за доказателство за причинно-следствена връзка, те само показват, че промените в една характеристика, като правило, са придружени от определени промени в друга.

Корелационна зависимост - Това са промените, които стойностите на една характеристика правят на вероятността за поява на различни стойности на друга характеристика.

Задачата на корелационния анализ се свежда до установяване на посоката (положителна или отрицателна) и формата (линейна, нелинейна) на връзката между различни характеристики, измерване на нейната плътност и накрая, проверка на нивото на значимост на получената корелация коефициенти.

Корелациите се различават по форма, посока и степен (сила) .

Формата на корелацията може да бъде праволинейна или криволинейна. Например връзката между броя на тренировъчните сесии на симулатора и броя на правилно решените проблеми в контролната сесия може да бъде ясна. Криволинейна може да бъде например връзката между нивото на мотивация и ефективността на задачата (Фигура 1). С повишаване на мотивацията ефективността на задачата първо се увеличава, след това се достига оптималното ниво на мотивация, което съответства на максималната ефективност на задачата; по-нататъшното повишаване на мотивацията е придружено от намаляване на ефективността.

Фигура 1 – Връзката между ефективността на решаването на проблеми и силата на мотивационната тенденция

По посока корелацията може да бъде положителна („директна“) и отрицателна („обратна“). При положителна линейна корелация по-високите стойности на един атрибут съответстват на по-високи стойности на друг, а по-ниските стойности на един атрибут съответстват на ниски стойности на друг (Фигура 2). При отрицателна корелация съотношенията се обръщат (Фигура 3). При положителна корелация коефициентът на корелация има положителен знак, при отрицателна корелация - отрицателен знак.

Фигура 2 - Пряка корелация

Фигура 3 - Обратна корелация


Фигура 4 - Няма корелация

Степента, силата или плътността на корелацията се определя от стойността на коефициента на корелация. Силата на връзката не зависи от нейната посока и се определя от абсолютната стойност на коефициента на корелация.

1.2 Обща класификация на корелациите

В зависимост от коефициента на корелация се разграничават следните корелации:

Силен или близък с коефициент на корелация r>0,70;

Средно (при 0,50

Умерено (при 0,30

Слаба (при 0,20

Много слаб (при r<0,19).

1.3 Корелационни полета и целта на тяхното изграждане

Корелацията се изследва на базата на експериментални данни, които представляват измерените стойности (x i , y i) на два признака. Ако има малко експериментални данни, тогава двумерното емпирично разпределение се представя като двойна серия от x i и y i стойности. В този случай корелацията между характеристиките може да бъде описана по различни начини. Съответствието между аргумент и функция може да бъде дадено от таблица, формула, графика и т.н.

Корелационният анализ, подобно на други статистически методи, се основава на използването на вероятностни модели, които описват поведението на изследваните характеристики в определена генерална популация, от които се получават експерименталните стойности x i и y i. Когато се изследва корелацията между количествените характеристики, чиито стойности могат да бъдат точно измерени в единици метрични скали (метри, секунди, килограми и т.н.), много често се използва моделът на двуизмерна нормално разпределена генерална съвкупност приет. Такъв модел показва връзката между променливите x i и y i графично като място от точки в правоъгълна координатна система. Тази графична зависимост се нарича още диаграма на разсейване или корелационно поле.
Този модел на двуизмерно нормално разпределение (корелационно поле) ви позволява да дадете визуална графична интерпретация на коефициента на корелация, т.к. разпределението в съвкупност зависи от пет параметъра: μ x , μ y – средни стойности (математически очаквания); σ x ,σ y са стандартните отклонения на случайните променливи X и Y, а p е коефициентът на корелация, който е мярка за връзката между случайните променливи X и Y.
Ако p = 0, тогава стойностите x i , y i , получени от двуизмерна нормална популация, се намират на графиката в координати x, y в областта, ограничена от кръг (Фигура 5, а). В този случай няма корелация между случайните променливи X и Y и те се наричат ​​некорелирани. За двуизмерно нормално разпределение некорелацията означава в същото време независимостта на случайните променливи X и Y.

Това е стойност, която може да варира от +1 до -1. В случай на пълна положителна корелация, този коефициент е равен на плюс 1 (те казват, че с увеличаване на стойността на една променлива, стойността на друга променлива се увеличава), а при пълна отрицателна - минус 1 (посочете обратна връзка, с увеличаване на стойностите на една променлива, стойностите на другата намаляват).

Графика на зависимостта на срамежливостта и депресията. Както можете да видите, точките (субектите) не са разположени произволно, а се подреждат около една линия и, гледайки тази линия, можем да кажем, че колкото по-висока е срамежливостта в човек, толкова по-депресивни са тези явления са взаимосвързани.

Пример 2: Графика за срамежливост и общителност. Виждаме, че с нарастването на срамежливостта общителността намалява. Техният коефициент на корелация е 0,43. По този начин, коефициент на корелация, по-голям от 0 до 1, показва пряко пропорционална връзка (колкото повече ... толкова повече ...), а коефициент от -1 до 0 показва обратно пропорционална връзка (колкото повече ... толкова по-малко . ..)

Ако коефициентът на корелация е 0, двете променливи са напълно независими една от друга.

корелация- това е връзка, при която въздействието на отделните фактори се проявява само като тенденция (средно) с масовото наблюдение на действителните данни. Примери за корелационна зависимост могат да бъдат зависимостта между размера на активите на банката и размера на печалбата на банката, ръста на производителността на труда и трудовия стаж на служителите.

Използват се две системи за класификация на корелациите според тяхната сила: обща и частна.

Обща класификация на корелациите:

1) силни или близки с коефициент на корелация r > 0,70;

2) средно 0,50< r < 0,69;

3) умерено при 0,30< r < 0,49;

4) слаб при 0,20< r < 0,29;5) очень слабая при r < 0,19.

Частна класификация на корелациите:

1) висока значима корелация при r, съответстваща на нивото на статистическа значимост ρ ≤ 0,01

2) значима корелация при r, съответстваща на нивото на статистическа значимост ρ ≤ 0,05;

3) тенденцията на значима връзка при r, съответстваща на нивото на статистическа значимост ρ ≤ 0,10;

4) незначителна корелация при r, която не достига нивото на статистическа значимост. Тези две класификации не съвпадат.

Първият е фокусиран само върху стойността на коефициента на корелация, а вторият определя до какво ниво на значимост достига дадената стойност на коефициента на корелация за даден размер на извадката. Колкото по-голям е размерът на извадката, толкова по-ниската стойност на коефициента на корелация е достатъчна, за да бъде разпозната корелацията като надеждна. В резултат на това при малък размер на извадката може да се окаже, че силната корелация е ненадеждна. В същото време при големи размери на извадката дори слабата корелация може да бъде значителна. Обикновено се приема да се фокусира върху втората класификация, тъй като тя взема предвид размера на извадката. Трябва обаче да се помни, че силната или висока корелация е корелация с r > 0,70, а не само корелация с високо ниво на значимост.


Следващата таблица изброява имената на коефициентите на корелация за различните видове скали.

Дихотомична скала (1/0) Рангова (редна) скала
Дихотомична скала (1/0) Коефициент на асоцииране на Пиърсън, коефициент на конюгиране на четири клетки на Пиърсън. Бисерийна корелация
Рангова (редна) скала Ранг-бисерийна корелация. Коефициент на корелация на ранг на Спиърман или Кендъл.
Интервал и абсолютна скала Бисерийна корелация Стойностите на интервалната скала се преобразуват в ранги и се използва ранговият коефициент Коефициент на корелация на Пиърсън (линеен коефициент на корелация)

В r= 0 няма линейна корелация. В този случай средните за групата на променливите съвпадат с техните общи средни, а линиите на регресия са успоредни на координатните оси.

Равенство r= 0 говори само за отсъствието на линейна корелационна зависимост (некорелирани променливи), но не и като цяло за липсата на корелация и още повече, на статистическа зависимост.

Понякога заключението, че няма корелация, е по-важно от наличието на силна корелация. Нулева корелация на две променливи може да означава, че няма влияние на една променлива върху другата, при условие че се доверяваме на резултатите от измерванията.

В SPSS: 11.3.2 Коефициенти на корелация

Досега установихме само самия факт за съществуването на статистическа връзка между две характеристики. След това ще се опитаме да разберем какви заключения могат да се направят за силата или слабостта на тази зависимост, както и за нейната форма и посока. Критериите за количествено определяне на връзката между променливите се наричат ​​корелационни коефициенти или мерки за свързаност. Две променливи са положително корелирани, ако има пряка, еднопосочна връзка между тях. В еднопосочна връзка малки стойности на една променлива съответстват на малки стойности на другата променлива, големите стойности съответстват на големи. Две променливи са в отрицателна корелация, ако има обратна връзка между тях. При многопосочна връзка малки стойности на една променлива съответстват на големи стойности на другата променлива и обратно. Стойностите на коефициентите на корелация винаги са в диапазона от -1 до +1.

Като коефициент на корелация между променливи, принадлежащи към порядковата скала, се използва коефициентът на Спирман, а за променливи, принадлежащи към интервалната скала, коефициентът на корелация на Пиърсън (момент на продуктите). В този случай трябва да се отбележи, че всяка дихотомична променлива, тоест променлива, принадлежаща към номиналната скала и имаща две категории, може да се счита за редна.

Първо ще проверим дали има връзка между променливите пол и психика от файла studium.sav. При това вземаме предвид, че дихотомната променлива пол може да се счита за порядкова променлива.

Направете следното:

· Изберете от командното меню Analyze (Analysis) Descriptive Statistics (Descriptive statistics) Crosstabs. (Таблици за непредвидени ситуации)

· Преместете променливата пол в списък с редове и променливата психика в списък с колони.

· Щракнете върху бутона Статистика.... В диалоговия прозорец Crosstabs: Statistics поставете отметка в квадратчето Корелации. Потвърдете избора си с бутона Продължи.

· В диалоговия прозорец Crosstabs спрете да показвате таблици, като поставите отметка в квадратчето Потискане на таблици. Щракнете върху бутона OK.

Корелацията е степента на връзка между 2 или повече независими явления.

Корелацията може да бъде положителна или отрицателна.

Положителна корелация (пряка)възниква, когато 2 променливи се променят едновременно в едни и същи посоки (положителни или отрицателни). Например връзката между броя на потребителите, идващи на сайта от резултатите от търсенето, и натоварването на сървъра: колкото повече потребители, толкова по-голямо е натоварването.

Корелацията е отрицателна (обратна)ако промяната на едно количество причинява обратното изменение на друго. Например с увеличаване на данъчната тежест върху фирмите печалбите им намаляват. Колкото повече данъци, толкова по-малко пари за развитие.

Ефективността на корелацията като статистически инструмент се крие в способността да се изрази връзката между две променливи с помощта на коефициента на корелация.

Коефициентът на корелация (CC) е в диапазона от числа от -1 до 1.

Когато стойността на QC е равна на 1, трябва да се разбере, че с всяка промяна в 1-ва променлива се случва еквивалентна промяна във 2-рата променлива в същата посока.


Ако стойността на QC е -1, тогава при всяка промяна има еквивалентна промяна във втората променлива в обратна посока.


Колкото по-близка е корелацията до -1 или 1, толкова по-силна е връзката между променливите. При стойност нула (или близка до 0) няма значителна връзка между двете променливи или е много минимална.

Този метод за обработка на статистическа информация е популярен в икономическите, техническите, социалните и други науки поради простотата на изчисляване на QC, лекотата на интерпретиране на резултатите и липсата на необходимост от математика на високо ниво.

Корелацията отразява само връзката между променливите и не говори за причинно-следствена връзка: положителна или отрицателна корелация между 2 променливи не означава непременно, че промяната в една променлива причинява промяна в другата.

Например, има положителна връзка между повишаването на заплатата на мениджърите по продажбите и качеството на работа с клиенти (подобряване на качеството на обслужване, работа с възражения, познаване на положителните качества на продукта в сравнение с конкурентите) с подходяща мотивация на персонала. Увеличеният обем на продажбите, а следователно и заплатите на мениджърите, изобщо не означава, че мениджърите са подобрили качеството на работа с клиенти. Вероятно големи поръчки са пристигнали случайно и са били изпратени, или маркетинговият отдел е увеличил рекламния бюджет, или се е случило нещо друго.

Може би има някаква трета променлива, която влияе върху причината за наличието или липсата на корелация.

Коефициентът на корелация не се изчислява:

  • когато връзката между две променливи не е линейна, като квадратична;
  • има повече от 1 наблюдение за всеки случай в данните;
  • има аномални наблюдения (отклонения, "отстъпници");
  • данните съдържат отделни подгрупи от наблюдения.

Коефициентът на корелация е степента на връзка между две променливи. Неговото изчисление дава представа дали има връзка между два набора от данни. За разлика от регресията, корелацията не позволява прогнозиране на стойности. Изчисляването на коефициента обаче е важна стъпка в предварителния статистически анализ. Например установихме, че коефициентът на корелация между нивото на преките чуждестранни инвестиции и растежа на БВП е висок. Това ни дава представа, че за да се осигури просперитет, е необходимо да се създаде благоприятен климат специално за чуждестранните предприемачи. Не толкова очевидно заключение на пръв поглед!

Корелация и причинно-следствена връзка

Може би няма нито една област на статистиката, която да е толкова твърдо установена в живота ни. Коефициентът на корелация се използва във всички области на общественото знание. Основната му опасност се крие във факта, че често се спекулират високите му стойности, за да се убедят хората и да се накарат да повярват в някакви заключения. В действителност обаче силната корелация изобщо не показва причинно-следствена връзка между количествата.

Коефициент на корелация: формула на Пиърсън и Спиърман

Има няколко основни индикатора, които характеризират връзката между две променливи. Исторически, първият е коефициентът на линейна корелация на Пиърсън. Подава се в училище. Тя е разработена от К. Пиърсън и Дж. Юл въз основа на работата на о. Галтън. Този коефициент ви позволява да видите връзката между рационалните числа, които се променят рационално. Винаги е по-голямо от -1 и по-малко от 1. Отрицателно число показва обратно пропорционална връзка. Ако коефициентът е нула, тогава няма връзка между променливите. Равно на положително число – има правопропорционална връзка между изследваните величини. Коефициентът на корелация на ранга на Спирман прави възможно опростяването на изчисленията чрез изграждане на йерархия от променливи стойности.

Връзки между променливи

Корелацията помага да се отговори на два въпроса. Първо, дали връзката между променливите е положителна или отрицателна. Второ, колко силна е зависимостта. Корелационният анализ е мощен инструмент, с който да се получи тази важна информация. Лесно е да се види, че доходите и разходите на домакинствата се увеличават и намаляват пропорционално. Такава връзка се счита за положителна. Напротив, когато цената на даден продукт се покачва, търсенето за него пада. Такава връзка се нарича отрицателна. Стойностите на коефициента на корелация са между -1 и 1. Нула означава, че няма връзка между изследваните стойности. Колкото по-близо е индикаторът до екстремните стойности, толкова по-силна е връзката (отрицателна или положителна). Липсата на зависимост се доказва от коефициент от -0,1 до 0,1. Трябва да се разбере, че такава стойност показва само липсата на линейна връзка.

Характеристики на приложението

Използването на двата индикатора зависи от определени предположения. Първо, наличието на силна връзка не определя факта, че една стойност определя другата. Възможно е да има трета величина, която определя всяка от тях. Второ, високият коефициент на корелация на Пиърсън не показва причинно-следствена връзка между изследваните променливи. Трето, показва изключително линейна връзка. Корелацията може да се използва за оценка на значими количествени данни (напр. барометрично налягане, температура на въздуха), а не категории като пол или любим цвят.

Коефициент на множествена корелация

Пиърсън и Спиърман изследват връзката между две променливи. Но какво да правите, ако има три или дори повече от тях. Тук идва коефициентът на множествена корелация. Например брутният национален продукт се влияе не само от преките чуждестранни инвестиции, но и от паричната и фискалната политика на държавата, както и от нивото на износа. Темпът на растеж и обемът на БВП са резултат от взаимодействието на редица фактори. Трябва обаче да се разбере, че моделът на множествена корелация се основава на редица опростявания и допускания. Първо, мултиколинеарността между количествата е изключена. Второ, връзката между зависимата променлива и променливите, които я влияят, се приема за линейна.

Области на използване на корелационния и регресионния анализ

Този метод за намиране на връзката между величините се използва широко в статистиката. Най-често се прибягва до три основни случая:

  1. За тестване на причинно-следствени връзки между стойностите на две променливи. В резултат на това изследователят се надява да намери линейна връзка и да изведе формула, която описва тези връзки между количествата. Техните мерни единици могат да бъдат различни.
  2. За да проверите за връзка между стойностите. В този случай никой не определя коя променлива е зависима. Може да се окаже, че стойността на двете величини определя някакъв друг фактор.
  3. За да се изведе уравнение. В този случай можете просто да замените числа в него и да разберете стойностите на неизвестната променлива.

Мъж в търсене на причинно-следствена връзка

Съзнанието е подредено по такъв начин, че определено трябва да обясним събитията, които се случват наоколо. Човек винаги търси връзка между картината на света, в който живее, и информацията, която получава. Често мозъкът създава ред от хаоса. Той лесно може да види причинно-следствена връзка там, където няма такава. Учените трябва специално да се научат да преодоляват тази тенденция. Способността да се оценяват връзките между данните е обективно от съществено значение в академичната кариера.

Медийна пристрастност

Помислете как наличието на корелация може да бъде тълкувано погрешно. Група британски студенти с лошо поведение бяха попитани дали родителите им пушат. Тогава тестът беше публикуван във вестника. Резултатът показа силна връзка между тютюнопушенето на родителите и престъпността на децата им. Професорът, който проведе това проучване, дори предложи да се постави предупреждение за това върху пакетите цигари. Има обаче редица проблеми с това заключение. Първо, корелацията не показва коя от величините е независима. Следователно е напълно възможно да се предположи, че пагубният навик на родителите е причинен от неподчинението на децата. Второ, не е възможно да се каже със сигурност, че и двата проблема не са възникнали поради някакъв трети фактор. Например семейства с ниски доходи. Трябва да се отбележи емоционалният аспект на първоначалните заключения на професора, който проведе изследването. Той беше пламенен противник на тютюнопушенето. Затова не е изненадващо, че той интерпретира резултатите от своето изследване по този начин.

заключения

Погрешното тълкуване на корелацията като причинно-следствена връзка между две променливи може да доведе до неудобни грешки в изследването. Проблемът е, че той лежи в самата сърцевина на човешкото съзнание. Много маркетингови трикове се основават на тази функция. Разбирането на разликата между причинно-следствената връзка и корелацията ви позволява да анализирате рационално информация както в ежедневието, така и в професионалната си кариера.

Регресионният анализ ви позволява да оцените как една променлива зависи от друга и какво е разпространението на стойностите на зависимата променлива около правата линия, която определя връзката. Тези оценки и съответните доверителни интервали позволяват да се предвиди стойността на зависимата променлива и да се определи точността на тази прогноза.

Резултатите от регресионния анализ могат да бъдат представени само в доста сложна цифрова или графична форма. Въпреки това, често се интересуваме не от прогнозиране на стойността на една променлива от стойността на друга, а просто от характеризиране на плътността (силата) на връзката между тях, докато е изразена като едно число.

Тази характеристика се нарича коефициент на корелация, обикновено се обозначава с буквата r. Коефициентът на корелация може да бъде

може да приема стойности от -1 до +1. Знакът на коефициента на корелация показва посоката на връзката (пряка или обратна), а абсолютната стойност показва близостта на връзката. Коефициент, равен на -1, определя същата твърда връзка като равен на 1. При липса на връзка, коефициентът на корелация е нула.

На фиг. 8.10 показва примери за зависимости и съответните им стойности на r. Ще разгледаме два коефициента на корелация.

Коефициентът на корелация на Пиърсън е предназначен да опише линейната връзка на количествените признаци; като регресия
йонен анализ, той изисква нормално разпределение. Когато хората просто говорят за "коефициент на корелация", те почти винаги имат предвид коефициента на корелация на Пиърсън и точно това ще направим.

Коефициентът на корелация на ранг на Спиърман може да се използва, когато връзката е нелинейна – и то не само за количествени, но и за редни характеристики. Това е непараметричен метод и не изисква конкретен тип разпределение.

Вече говорихме за количествени, качествени и редни признаци в гл. 5. Количествените знаци са обикновени числови данни, като височина, тегло, температура. Стойностите на количествен атрибут могат да се сравняват една с друга и да се каже кой от тях е по-голям, с колко и колко пъти. Например, ако единият марсианец тежи 15 г, а другият 10, тогава първият е по-тежък от втория и един и половина пъти и 5 г. колко пъти. В медицината редовите знаци са доста често срещани. Например, резултатите от вагинален Pap тест се оценяват по следната скала: 1) нормална, 2) лека дисплазия, 3) умерена дисплазия, 4) тежка дисплазия, 5) рак in situ. Както количествените, така и порядковите признаци могат да бъдат подредени в ред – голяма група от непараметрични критерии се основава на това общо свойство, което включва коефициента на корелация на ранга на Спирман. С други непараметрични критерии ще се запознаем в гл. десет.

Коефициент на корелация на Пиърсън

И все пак, защо регресионният анализ не може да се използва за описване на стегнатостта на връзката? Остатъчното стандартно отклонение може да се използва като мярка за близостта на връзката. Въпреки това, ако размените зависимите и независимите променливи, тогава остатъчното стандартно отклонение, подобно на други показатели на регресионния анализ, ще бъде различно.

Нека да разгледаме фиг. 8.11. На базата на извадка от 10 познати ни марсианци бяха конструирани две регресионни линии. В един случай теглото е зависима променлива, а във втория е независима променлива. Регресионните линии са значително различни



20

Ако размените x и y, уравнението на регресията ще бъде различно, но коефициентът на корелация ще остане същият.

надежда. Оказва се, че връзката на височината с теглото е една, а теглото с височината е друга. Асиметрията на регресионния анализ е това, което пречи да се използва директно за характеризиране на силата на една връзка. Коефициентът на корелация, въпреки че идеята му произтича от регресионния анализ, е лишен от този недостатък. Представяме формулата.

rY(X - X)(Y - Y)

&((- X) S(y - Y)2"

където X и Y са средните стойности на променливите X и Y. Изразът за r е "симетричен" - разменяйки X и Y, получаваме същата стойност. Коефициентът на корелация приема стойности от -1 до +1. Колкото по-близка е връзката, толкова по-голяма е абсолютната стойност на коефициента на корелация. Знакът показва посоката на връзката. При r > 0 говорим за пряка корелация (с увеличаване на едната променлива, другата също се увеличава), за r Да вземем примера с 10 марсианци, които вече разгледахме от гледна точка на регресионния анализ. Нека изчислим коефициента на корелация. Изходните данни и междинните резултати от изчисленията са дадени в табл. 8.3. Размер на извадката n = 10, средна височина

X = £ X/n = 369/10 = 36,9 и тегло Y = £ Y/n = 103,8/10 = 10,38.

Откриваме Shch-X)(Y-Y) = 99,9, Shch-X)2 = 224,8, £(Y - Y)2 = 51,9.

Нека заменим получените стойности във формулата за коефициента на корелация:

224,8 x 51,9 инча

Стойността на r е близка до 1, което показва тясна връзка между височината и теглото. За да получите по-добра представа кой коефициент на корелация трябва да се счита за голям и кой трябва да се счита за незначителен, разгледайте

Таблица 8.3. Изчисляване на коефициента на корелация
х Й X-X Y-Y (X-X) (Y-Y) (X-X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


тези на масата. 8.4 - показва коефициентите на корелация за примерите, които анализирахме по-рано.

Връзка между регресия и корелация

Първоначално използвахме всички примери за коефициенти на корелация (Таблица 8.4), за да изградим регресионни линии. Всъщност съществува тясна връзка между коефициента на корелация и параметрите на регресионния анализ, което сега ще демонстрираме. Различните начини за представяне на коефициента на корелация, които ще получим в този случай, ще ни позволят да разберем по-добре значението на този индикатор.

Припомнете си, че регресионното уравнение е конструирано по такъв начин, че да минимизира сумата от квадратите отклонения от регресионната линия.


Означаваме тази минимална сума от квадрати със S (тази стойност се нарича остатъчна сума от квадрати). Сумата от квадратните отклонения на стойностите на зависимата променлива Y от нейната средна стойност Y ще бъде обозначена със S^. Тогава:

Стойността на r2 се нарича коефициент на детерминация - това е просто квадратът на коефициента на корелация. Коефициентът на детерминация показва силата на връзката, но не и нейната посока.

От горната формула може да се види, че ако стойностите на зависимата променлива лежат на директната регресия, тогава S = 0 и по този начин r = +1 или r = -1, тоест има линейна връзка между зависимата и независима променлива. Всяка стойност на независимата променлива може точно да предскаже стойността на зависимата променлива. Напротив, ако променливите изобщо не са свързани, тогава Soci = SofSisi Тогава r = 0.

Вижда се също, че коефициентът на детерминация е равен на този дял от общата дисперсия S^, който е причинен или, както се казва, обясняван от линейна регресия.

Остатъчната сума от квадратите S е свързана с остатъчната дисперсия s2y\x чрез отношението Socj = (n - 2) s^, а общата сума на квадратите S^ с дисперсията s2 чрез отношението S^ = (n - 1 )s2 . В такъв случай

r2 = 1 _ n _ 2 sy\x n _1 sy

Тази формула дава възможност да се прецени зависимостта на коефициента на корелация от дела на остатъчната дисперсия в общата дисперсия

шест/s2y Колкото по-малка е тази пропорция, толкова по-голям (по абсолютна стойност) е коефициентът на корелация и обратно.

Видяхме, че коефициентът на корелация отразява плътността на линейната връзка на променливите. Въпреки това, когато става въпрос за прогнозиране на стойността на една променлива от стойността на друга,
на коефициента на корелация не трябва да се разчита прекалено. Например, данните на фиг. 8.7 съответства на много висок коефициент на корелация (r = 0.92), но ширината на зоната на доверие показва, че несигурността на прогнозата е доста значителна. Ето защо, дори и с голям коефициент на корелация, не забравяйте да изчислите доверителния диапазон.


И в крайна сметка даваме съотношението на коефициента на корелация и коефициента на наклона на директната регресия b:

където b е наклонът на регресионната линия, sx и sY са стандартните отклонения на променливите.

Ако не вземем предвид случая sx = 0, тогава коефициентът на корелация е равен на нула, ако и само ако b = 0. Сега ще използваме този факт, за да оценим статистическата значимост на корелацията.

Статистическа значимост на корелацията

Тъй като b = 0 предполага r = 0, хипотезата за липса на корелация е еквивалентна на хипотезата за нулев наклон на директната регресия. Следователно, за да оценим статистическата значимост на корелацията, можем да използваме вече познатата ни формула за оценка на статистическата значимост на разликата между b и нула:

Тук броят на степените на свобода е v = n - 2. Ако обаче коефициентът на корелация вече е изчислен, по-удобно е да използвате формулата:

Броят на степените на свобода тук също е v = n - 2.

С външното несходство на двете формули за t те са идентични. Наистина от какво


r 2 _ 1 - n_ 2 Sy]x_

Заместване на стойността на sy^x във формулата за стандартната грешка

Животински мазнини и рак на гърдата

При опити върху лабораторни животни е доказано, че високото съдържание на животински мазнини в храната повишава риска от рак на гърдата. Наблюдава ли се тази зависимост при хората? К. Карол събра данни за консумацията на животински мазнини и смъртността от рак на гърдата в 39 страни. Резултатът е показан на фиг. 8.12A. Установено е, че коефициентът на корелация между консумацията на животински мазнини и смъртността от рак на гърдата е 0,90. Нека оценим статистическата значимост на корелацията.

0,90 1 - 0,902 39 - 2

Критичната стойност на t за броя на степените на свобода v = 39 - 2 = 37 е 3,574, което е по-малко от полученото от нас. По този начин, при ниво на значимост от 0,001, може да се твърди, че има връзка между приема на животински мазнини и смъртността от рак на гърдата.

Сега нека проверим дали смъртността е свързана с консумацията на растителни мазнини? Съответните данни са показани на фиг. 8.12B. Коефициентът на корелация е 0,15. Тогава

1 - 0,152 39 - 2

Дори при ниво на значимост от 0,10, изчислената стойност на t е по-малка от критичната стойност. Корелацията не е статистически значима.


близо