KURSINIS DARBAS

Tema: Koreliacinė analizė

Įvadas

1. Koreliacinė analizė

1.1 Koreliacijos samprata

1.2 Bendroji koreliacijų klasifikacija

1.3 Koreliacijos laukai ir jų sudarymo paskirtis

1.4 Koreliacinės analizės etapai

1.5 Koreliacijos koeficientai

1.6 Normalizuotas Bravais-Pearson koreliacijos koeficientas

1.7 Spearmano rango koreliacijos koeficientas

1.8 Pagrindinės koreliacijos koeficientų savybės

1.9 Koreliacijos koeficientų reikšmingumo tikrinimas

1.10 Poros koreliacijos koeficiento kritinės reikšmės

2. Daugiamatio eksperimento planavimas

2.1 Problemos būklė

2.2 Plano centro (pagrindinio lygio) ir veiksnių variacijos lygio nustatymas

2.3 Planavimo matricos kūrimas

2.4. Dispersijos homogeniškumo ir vienodo matavimų tikslumo skirtingose ​​serijose tikrinimas

2.5 Regresijos lygties koeficientai

2.6. Atkuriamumo sklaida

2.7 Regresijos lygties koeficientų reikšmingumo tikrinimas

2.8 Regresijos lygties adekvatumo tikrinimas

Išvada

Bibliografija

ĮVADAS

Eksperimento planavimas – tai matematinė ir statistinė disciplina, tirianti racionalaus eksperimentinio tyrimo organizavimo metodus – nuo ​​optimalaus tiriamų veiksnių pasirinkimo ir tikrojo eksperimento plano nustatymo pagal jo tikslą iki rezultatų analizės metodų. Eksperimento planavimo pradžią padėjo anglų statistiko R. Fisherio (1935) darbai, kurie pabrėžė, kad racionalus eksperimento planavimas duoda ne mažiau reikšmingą įverčių tikslumo laimėjimą nei optimalus matavimo rezultatų apdorojimas. XX amžiaus šeštajame dešimtmetyje atsirado moderni eksperimentų planavimo teorija. Jo metodai yra glaudžiai susiję su funkcijų aproksimavimo teorija ir matematiniu programavimu. Sudaromi optimalūs planai ir tiriamos jų savybės plačios klasės modeliams.

Eksperimento planavimas – eksperimento plano, atitinkančio nurodytus reikalavimus, parinkimas, veiksmų visuma, skirta eksperimentavimo strategijai sukurti (nuo apriorinės informacijos gavimo iki veikiančio matematinio modelio gavimo ar optimalių sąlygų nustatymo). Tai kryptinga eksperimento kontrolė, įgyvendinama nepilno tiriamo reiškinio mechanizmo pažinimo sąlygomis.

Atliekant matavimus, vėliau apdorojant duomenis, taip pat įforminant rezultatus matematinio modelio forma, atsiranda klaidų ir prarandama dalis pradiniuose duomenyse esančios informacijos. Eksperimento planavimo metodų naudojimas leidžia nustatyti matematinio modelio paklaidą ir spręsti apie jo tinkamumą. Jeigu modelio tikslumas yra nepakankamas, tai eksperimento planavimo metodų panaudojimas leidžia modernizuoti matematinį modelį papildomais eksperimentais neprarandant ankstesnės informacijos ir minimaliomis sąnaudomis.

Eksperimento planavimo tikslas – surasti tokias eksperimentų atlikimo sąlygas ir taisykles, kuriomis būtų galima gauti patikimą ir patikimą informaciją apie objektą su mažiausiomis darbo sąnaudomis, taip pat pateikti šią informaciją kompaktiška ir patogia forma su kiekybine informacija. tikslumo įvertinimas.

Tarp pagrindinių planavimo metodų, naudojamų skirtinguose tyrimo etapuose, naudojami šie:

Atrankos eksperimento planavimas, kurio pagrindinė prasmė – reikšmingų veiksnių grupės atranka iš veiksnių visumos, kuriai toliau bus detalus tyrimas;

Eksperimento projektavimas dispersinei analizei, t.y. objektų planų sudarymas su kokybiniais veiksniais;

Regresinio eksperimento planavimas, leidžiantis gauti regresijos modelius (polinominius ir kitus);

Ekstremalaus eksperimento planavimas, kurio pagrindinė užduotis yra tiriamojo objekto eksperimentinis optimizavimas;

Planavimas tiriant dinaminius procesus ir kt.

Drausmės studijų tikslas – parengti studentus specialybės gamybinei ir techninei veiklai, naudojant planavimo teorijos metodus ir šiuolaikines informacines technologijas.

Dalykos uždaviniai: šiuolaikinių mokslinių ir pramoninių eksperimentų planavimo, organizavimo ir optimizavimo, eksperimentų vykdymo ir rezultatų apdorojimo metodų studijavimas.

1. KORELIACIJOS ANALIZĖ

1.1 Koreliacijos samprata

Tyrėjas dažnai domisi, kaip du ar daugiau kintamųjų yra susiję vienas su kitu vienoje ar daugiau tirtų imčių. Pavyzdžiui, ar ūgis gali turėti įtakos žmogaus svoriui, ar spaudimas gali turėti įtakos gaminio kokybei?

Toks ryšys tarp kintamųjų vadinamas koreliacija arba koreliacija. Koreliacija yra nuoseklus dviejų požymių pokytis, atspindintis faktą, kad vienos savybės kintamumas atitinka kito požymio kintamumą.

Pavyzdžiui, žinoma, kad vidutiniškai yra teigiamas ryšys tarp žmonių ūgio ir jų svorio, ir toks, kad kuo didesnis ūgis, tuo didesnis žmogaus svoris. Tačiau yra šios taisyklės išimčių, kai santykinai žemo ūgio žmonės turi antsvorio, o, atvirkščiai, astenikai, turintys didelį augimą, yra lengvi. Tokių išskyrimų priežastis yra ta, kad kiekvieną biologinį, fiziologinį ar psichologinį požymį lemia daugelio veiksnių įtaka: aplinkos, genetinių, socialinių, ekologinių ir kt.

Koreliacijos yra tikimybiniai pokyčiai, kuriuos galima tirti tik reprezentatyviose imtyse matematinės statistikos metodais. Abu terminai – koreliacija ir priklausomybė nuo koreliacijos – dažnai vartojami pakaitomis. Priklausomybė reiškia įtaką, ryšį – bet kokius suderintus pokyčius, kuriuos galima paaiškinti šimtais priežasčių. Koreliacijos negali būti laikomos priežastinio ryšio įrodymu, jos tik rodo, kad vieno požymio pokyčius, kaip taisyklė, lydi tam tikri kiti pokyčiai.

Koreliacinė priklausomybė - Tai yra vienos ypatybės reikšmės keičiami tikimybei, kad kitos funkcijos skirtingos reikšmės atsiras.

Koreliacinės analizės užduotis susiaurinama iki ryšio tarp kintančių požymių krypties (teigiamos ar neigiamos) ir formos (tiesinės, nelinijinės) nustatymo, jo sandarumo matavimo ir, galiausiai, gautos koreliacijos reikšmingumo lygio patikrinimo. koeficientai.

Koreliacijos skiriasi forma, kryptimi ir laipsniu (stiprumu) .

Koreliacijos forma gali būti tiesi arba kreivė. Pavyzdžiui, ryšys tarp treniruočių treniruokliu skaičiaus ir teisingai išspręstų problemų skaičiaus valdymo sesijoje gali būti aiškus. Kreivinė gali būti, pavyzdžiui, motyvacijos lygio ir užduoties efektyvumo ryšys (1 pav.). Didėjant motyvacijai, pirmiausia didėja užduoties efektyvumas, vėliau pasiekiamas optimalus motyvacijos lygis, atitinkantis maksimalų užduoties efektyvumą; toliau didėjant motyvacijai, mažėja efektyvumas.

1 pav. Ryšys tarp problemų sprendimo efektyvumo ir motyvacinės tendencijos stiprumo

Krypties atžvilgiu koreliacija gali būti teigiama („tiesioginė“) ir neigiama („atvirkštinė“). Esant teigiamai tiesinei koreliacijai, didesnės vieno požymio reikšmės atitinka didesnes kito atributo reikšmes, o mažesnės vieno atributo reikšmės – žemas kito atributo reikšmes (2 pav.). Esant neigiamai koreliacijai, santykiai yra atvirkštiniai (3 pav.). Esant teigiamai koreliacijai, koreliacijos koeficientas turi teigiamą ženklą, esant neigiamam – neigiamą.

2 pav. Tiesioginė koreliacija

3 paveikslas – atvirkštinė koreliacija


4 pav. Koreliacijos nėra

Koreliacijos laipsnį, stiprumą ar sandarumą lemia koreliacijos koeficiento reikšmė. Ryšio stiprumas nepriklauso nuo jo krypties ir nustatomas pagal absoliučią koreliacijos koeficiento reikšmę.

1.2 Bendroji koreliacijų klasifikacija

Atsižvelgiant į koreliacijos koeficientą, išskiriamos šios koreliacijos:

Stiprus arba artimas su koreliacijos koeficientu r>0,70;

Vidutinis (0,50

Vidutinis (0.30 val

Silpnas (0,20

Labai silpnas (prie r<0,19).

1.3 Koreliacijos laukai ir jų sudarymo paskirtis

Koreliacija tiriama remiantis eksperimentiniais duomenimis, kurie yra dviejų požymių išmatuotos vertės (x i , y i). Jei eksperimentinių duomenų nedaug, tai dvimatis empirinis skirstinys vaizduojamas kaip dviguba x i ir y i reikšmių eilutė. Šiuo atveju koreliaciją tarp požymių galima apibūdinti įvairiai. Argumento ir funkcijos atitikimą galima pateikti lentele, formule, grafiku ir kt.

Koreliacinė analizė, kaip ir kiti statistiniai metodai, yra pagrįsta tikimybinių modelių, apibūdinančių tiriamų požymių elgesį tam tikroje bendrojoje populiacijoje, naudojimu, iš kurių gaunamos eksperimentinės reikšmės x i ir y i. Tiriant koreliaciją tarp kiekybinių charakteristikų, kurių reikšmes galima tiksliai išmatuoti metrinių skalių vienetais (metrais, sekundėmis, kilogramais ir kt.), labai dažnai susidaro dvimatės normaliai paskirstytos bendrosios populiacijos modelis. priimtas. Toks modelis rodo ryšį tarp kintamųjų x i ir y i grafiškai kaip taškų lokusą stačiakampėje koordinačių sistemoje. Ši grafinė priklausomybė dar vadinama sklaidos diagrama arba koreliacijos lauku.
Šis dvimačio normalaus skirstinio (koreliacijos lauko) modelis leidžia vaizdžiai grafiškai interpretuoti koreliacijos koeficientą, nes pasiskirstymas visumoje priklauso nuo penkių parametrų: μ x , μ y – vidutinės reikšmės (matematiniai lūkesčiai); σ x ,σ y yra atsitiktinių dydžių X ir Y standartiniai nuokrypiai, o p yra koreliacijos koeficientas, kuris yra atsitiktinių dydžių X ir Y ryšio matas.
Jei p \u003d 0, tai reikšmės x i , y i, gautos iš dvimatės normaliosios aibės, yra grafike x, y koordinatėmis apskritimo apribotoje srityje (5 pav., a). Šiuo atveju tarp atsitiktinių dydžių X ir Y nėra koreliacijos ir jie vadinami nekoreliuojančiais. Dvimačio normaliojo skirstinio atveju nekoreliacija kartu reiškia ir atsitiktinių dydžių X ir Y nepriklausomumą.

Tai vertė, kuri gali svyruoti nuo +1 iki -1. Esant visiškai teigiamai koreliacijai, šis koeficientas lygus plius 1 (jie sako, kad padidėjus vieno kintamojo vertei, kito kintamojo reikšmė didėja), o esant visiškam neigiamam - minus 1 (nurodykite grįžtamąjį ryšį, y., padidėjus vieno kintamojo reikšmėms, kito vertės mažėja).

Drovumo ir depresijos priklausomybės grafikas. Kaip matote, taškai (subjektai) išsidėstę ne atsitiktinai, o išsidėstę aplink vieną eilutę, ir, pažvelgus į šią liniją, galime teigti, kad kuo didesnis drovumas išreiškiamas žmoguje, tuo labiau depresyvūs, t.y. šie reiškiniai. yra tarpusavyje susiję.

2 pavyzdys: drovumo ir bendravimo grafikas. Matome, kad didėjant drovumui, socialumas mažėja. Jų koreliacijos koeficientas yra 0,43. Taigi koreliacijos koeficientas, didesnis nuo 0 iki 1, rodo tiesiogiai proporcingą ryšį (kuo daugiau ... tuo daugiau ...), o koeficientas nuo -1 iki 0 rodo atvirkščiai proporcingą ryšį (kuo daugiau ... tuo mažiau . ..)

Jei koreliacijos koeficientas yra 0, abu kintamieji yra visiškai nepriklausomi vienas nuo kito.

koreliacija- tai ryšys, kai atskirų veiksnių įtaka pasireiškia tik kaip tendencija (vidutiniškai) su masiniu faktinių duomenų stebėjimu. Koreliacinės priklausomybės pavyzdžiais gali būti priklausomybė tarp banko turto dydžio ir banko pelno dydžio, darbo našumo augimo ir darbuotojų darbo stažo.

Naudojamos dvi koreliacijų klasifikavimo pagal jų stiprumą sistemos: bendroji ir specialioji.

Bendra koreliacijų klasifikacija:

1) stiprus arba artimas, kurio koreliacijos koeficientas r > 0,70;

2) vidurkis 0,50< r < 0,69;

3) vidutinio sunkumo 0.30 val< r < 0,49;

4) silpnas 0,20< r < 0,29;5) очень слабая при r < 0,19.

Privati ​​koreliacijų klasifikacija:

1) didelė reikšminga koreliacija ties r, atitinkanti statistinio reikšmingumo lygį ρ ≤ 0,01

2) reikšminga koreliacija ties r, atitinkanti statistinio reikšmingumo lygį ρ ≤ 0,05;

3) reikšmingo ryšio tendencija ties r, atitinkanti statistinio reikšmingumo lygį ρ ≤ 0,10;

4) nereikšminga koreliacija ties r nesiekia statistinio reikšmingumo lygio. Šios dvi klasifikacijos nesutampa.

Pirmasis yra orientuotas tik į koreliacijos koeficiento reikšmę, o antrasis nustato, kokį reikšmingumo lygį duota koreliacijos koeficiento reikšmė pasiekia tam tikram imties dydžiui. Kuo didesnis imties dydis, tuo mažesnės koreliacijos koeficiento reikšmės pakanka, kad koreliacija būtų pripažinta patikima. Dėl to, esant mažam imties dydžiui, gali pasirodyti, kad stipri koreliacija yra nepatikima. Tuo pačiu metu, esant dideliam imties dydžiui, net silpna koreliacija gali būti reikšminga. Paprastai priimta sutelkti dėmesį į antrąją klasifikaciją, nes joje atsižvelgiama į imties dydį. Tačiau reikia atsiminti, kad stipri arba aukšta koreliacija yra koreliacija su r > 0,70, o ne tik koreliacija su dideliu reikšmingumo lygiu.


Toliau pateiktoje lentelėje pateikiami skirtingų tipų svarstyklių koreliacijos koeficientų pavadinimai.

Dichotominė skalė (1/0) Rango (eilės) skalė
Dichotominė skalė (1/0) Pirsono asociacijos koeficientas, Pirsono keturių ląstelių konjugacijos koeficientas. Biserinė koreliacija
Rango (eilės) skalė Rango-biserinė koreliacija. Spearmano arba Kendall rango koreliacijos koeficientas.
Intervalas ir absoliuti skalė Biserinė koreliacija Intervalų skalės reikšmės konvertuojamos į rangus ir naudojamas rango koeficientas Pirsono koreliacijos koeficientas (tiesinės koreliacijos koeficientas)

At r= 0 tiesinės koreliacijos nėra. Šiuo atveju kintamųjų grupiniai vidurkiai sutampa su jų bendraisiais vidurkiais, o regresijos tiesės lygiagrečios koordinačių ašims.

Lygybė r= 0 kalba tik apie tiesinės koreliacijos priklausomybės nebuvimą (nekoreliuojamus kintamuosius), bet ne apskritai apie koreliacijos nebuvimą, o juo labiau apie statistinę priklausomybę.

Kartais išvada, kad koreliacijos nėra, yra svarbesnė už stiprios koreliacijos buvimą. Nulinė dviejų kintamųjų koreliacija gali reikšti, kad vienas kintamasis neturi įtakos kitam, su sąlyga, kad pasitikime matavimų rezultatais.

SPSS: 11.3.2 Koreliacijos koeficientai

Iki šiol išsiaiškinome tik patį statistinio ryšio tarp dviejų požymių egzistavimą. Toliau pabandysime išsiaiškinti, kokias išvadas galima padaryti apie šios priklausomybės stiprumą ar silpnumą, taip pat apie jos formą ir kryptį. Kriterijai, skirti kiekybiškai įvertinti ryšį tarp kintamųjų, vadinami koreliacijos koeficientais arba jungiamumo matais. Du kintamieji yra teigiamai koreliuojami, jei tarp jų yra tiesioginis, vienakryptis ryšys. Esant vienakrypčiui ryšiui, mažos vieno kintamojo reikšmės atitinka mažas kito kintamojo reikšmes, didelės – dideles. Du kintamieji yra neigiamai koreliuojami, jei tarp jų yra atvirkštinis ryšys. Esant daugiakrypčiui ryšiui, mažos vieno kintamojo reikšmės atitinka dideles kito kintamojo reikšmes ir atvirkščiai. Koreliacijos koeficientų reikšmės visada yra nuo -1 iki +1.

Kaip koreliacijos koeficientas tarp kintamųjų, priklausančių eilės skalei, naudojamas Spearmano koeficientas, o intervalų skalei priklausantiems kintamiesiems – Pirsono koreliacijos koeficientas (produktų momentas). Šiuo atveju reikia pažymėti, kad kiekvienas dichotominis kintamasis, tai yra kintamasis, priklausantis vardinei skalei ir turintis dvi kategorijas, gali būti laikomas eiliniu.

Pirmiausia patikrinsime, ar yra ryšys tarp lyties ir psichikos kintamųjų iš studium.sav failo. Tai darydami atsižvelgiame į tai, kad dichotominė kintamoji lytis gali būti laikoma eilės kintamuoju.

Atlikite šiuos veiksmus:

· Komandų meniu pasirinkite Analizė (analizė) Descriptive Statistics (Descriptive Statistics) Crosstabs. (Nenumatytų atvejų lentelės)

· Perkelkite kintamąjį lytį į eilučių sąrašą, o kintamąjį psichiką – į stulpelių sąrašą.

· Spustelėkite mygtuką Statistika.... Dialogo lange Crosstabs: Statistics pažymėkite langelį Koreliacijos. Patvirtinkite savo pasirinkimą mygtuku Tęsti.

· Dialogo lange Crosstabs nustokite rodyti lenteles pažymėdami žymimąjį langelį Supress tables. Spustelėkite mygtuką Gerai.

Koreliacija yra ryšio tarp 2 ar daugiau nepriklausomų reiškinių laipsnis.

Koreliacija gali būti teigiama arba neigiama.

Teigiama koreliacija (tiesioginė) atsiranda, kai 2 kintamieji vienu metu keičiasi tomis pačiomis kryptimis (teigiama arba neigiama). Pavyzdžiui, vartotojų, ateinančių į svetainę iš paieškos rezultatų, skaičiaus ir serverio apkrovos: kuo daugiau vartotojų, tuo didesnė apkrova.

Koreliacija yra neigiama (atvirkštinė) jei vieno kiekio pasikeitimas sukelia priešingą kito pokytį. Pavyzdžiui, didėjant įmonių mokesčių naštai, mažėja jų pelnas. Kuo daugiau mokesčių, tuo mažiau pinigų plėtrai.

Koreliacijos, kaip statistinės priemonės, efektyvumas slypi gebėjime išreikšti ryšį tarp dviejų kintamųjų naudojant koreliacijos koeficientą.

Koreliacijos koeficientas (CC) yra skaičių diapazone nuo -1 iki 1.

Kai QC reikšmė lygi 1, reikia suprasti, kad su kiekvienu 1-ojo kintamojo pasikeitimu ta pačia kryptimi įvyksta lygiavertis 2-ojo kintamojo pokytis.


Jei QC reikšmė yra -1, tada su kiekvienu pakeitimu yra lygiavertis antrojo kintamojo pokytis priešinga kryptimi.


Kuo koreliacija artimesnė -1 arba 1, tuo stipresnis ryšys tarp kintamųjų. Esant reikšmei nuliui (arba artimai 0), tarp dviejų kintamųjų nėra jokio reikšmingo ryšio arba jis yra labai minimalus.

Šis statistinės informacijos apdorojimo būdas yra populiarus ekonomikos, technikos, socialiniuose ir kituose moksluose dėl KK skaičiavimo paprastumo, rezultatų interpretavimo paprastumo ir aukšto lygio matematikos poreikio nebuvimo.

Koreliacija atspindi tik ryšį tarp kintamųjų ir nekalba apie priežastinį ryšį: teigiama arba neigiama koreliacija tarp 2 kintamųjų nebūtinai reiškia, kad vieno kintamojo pasikeitimas sukelia kito pasikeitimą.

Pavyzdžiui, yra teigiama koreliacija tarp pardavimų vadybininkų atlyginimo didinimo ir darbo su klientais kokybės (paslaugų kokybės gerinimo, darbo su prieštaravimais, teigiamų produkto savybių pažinimo, lyginant su konkurentais) esant tinkamam personalo motyvavimui. Padidėjusios pardavimų apimtys, taigi ir vadovų atlyginimai, visiškai nereiškia, kad vadovai pagerino darbo su klientais kokybę. Tikėtina, kad dideli užsakymai netyčia atkeliavo ir buvo išsiųsti, arba rinkodaros skyrius padidino reklamos biudžetą, ar atsitiko dar kažkas.

Galbūt yra koks nors trečias kintamasis, turintis įtakos koreliacijos buvimo ar nebuvimo priežasčiai.

Koreliacijos koeficientas neskaičiuojamas:

  • kai ryšys tarp dviejų kintamųjų nėra tiesinis, pvz., kvadratinis;
  • kiekvienam atvejui duomenyse yra daugiau nei 1 stebėjimas;
  • yra anomalių pastebėjimų (nukrypimų, „renegatų“);
  • duomenis sudaro atskiri stebėjimų pogrupiai.

Koreliacijos koeficientas yra dviejų kintamųjų ryšio laipsnis. Jo apskaičiavimas leidžia suprasti, ar yra ryšys tarp dviejų duomenų rinkinių. Skirtingai nuo regresijos, koreliacija neleidžia numatyti verčių. Tačiau koeficiento apskaičiavimas yra svarbus išankstinės statistinės analizės žingsnis. Pavyzdžiui, nustatėme, kad koreliacijos koeficientas tarp tiesioginių užsienio investicijų lygio ir BVP augimo yra aukštas. Tai leidžia suprasti, kad klestėjimui užtikrinti būtina sukurti palankų klimatą būtent užsienio verslininkams. Iš pirmo žvilgsnio ne tokia akivaizdi išvada!

Koreliacija ir priežastinis ryšys

Galbūt nėra nė vienos statistikos srities, kuri būtų taip tvirtai įsitvirtinusi mūsų gyvenime. Koreliacijos koeficientas naudojamas visose viešųjų žinių srityse. Pagrindinis jo pavojus slypi tame, kad dažnai spėliojama apie aukštas jo vertybes, siekiant įtikinti žmones ir priversti juos patikėti tam tikromis išvadomis. Tačiau iš tikrųjų stipri koreliacija visiškai nerodo priežastinio ryšio tarp kiekių.

Koreliacijos koeficientas: Pearsono ir Spearmano formulė

Yra keletas pagrindinių rodiklių, apibūdinančių ryšį tarp dviejų kintamųjų. Istoriškai pirmasis yra Pirsono tiesinės koreliacijos koeficientas. Jis perduodamas mokykloje. Ją sukūrė K. Pearsonas ir J. Yule, remdamiesi kun. Galtonas. Šis koeficientas leidžia matyti ryšį tarp racionaliai besikeičiančių skaičių. Jis visada didesnis nei -1 ir mažesnis už 1. Neigiamas skaičius rodo atvirkščiai proporcingą ryšį. Jei koeficientas lygus nuliui, tai nėra ryšio tarp kintamųjų. Lygus teigiamam skaičiui – tarp tiriamų dydžių yra tiesiogiai proporcingas ryšys. Spearmano rango koreliacijos koeficientas leidžia supaprastinti skaičiavimus, sukuriant kintamųjų reikšmių hierarchiją.

Ryšiai tarp kintamųjų

Koreliacija padeda atsakyti į du klausimus. Pirma, ar ryšys tarp kintamųjų yra teigiamas, ar neigiamas. Antra, kokia stipri yra priklausomybė. Koreliacinė analizė yra galingas įrankis šiai svarbiai informacijai gauti. Nesunku pastebėti, kad namų ūkių pajamos ir išlaidos proporcingai didėja ir mažėja. Tokie santykiai laikomi teigiamais. Priešingai, kai prekės kaina kyla, jos paklausa krenta. Tokie santykiai vadinami neigiamais. Koreliacijos koeficiento reikšmės yra nuo -1 iki 1. Nulis reiškia, kad tarp tiriamų verčių nėra ryšio. Kuo rodiklis arčiau kraštutinių verčių, tuo ryšys stipresnis (neigiamas ar teigiamas). Priklausomybės nebuvimą liudija koeficientas nuo -0,1 iki 0,1. Reikia suprasti, kad tokia reikšmė tik rodo tiesinio ryšio nebuvimą.

Taikymo ypatybės

Abiejų rodiklių naudojimas priklauso nuo tam tikrų prielaidų. Pirma, tvirtų santykių buvimas nenulemia to, kad viena vertybė lemia kitą. Gali būti, kad kiekvieną iš jų apibrėžia trečiasis dydis. Antra, didelis Pearsono koreliacijos koeficientas nerodo priežastinio ryšio tarp tiriamų kintamųjų. Trečia, tai rodo išskirtinai linijinį ryšį. Koreliacija gali būti naudojama norint įvertinti reikšmingus kiekybinius duomenis (pvz., barometrinį slėgį, oro temperatūrą), o ne kategorijas, tokias kaip lytis ar mėgstama spalva.

Daugialypis koreliacijos koeficientas

Pearsonas ir Spearmanas ištyrė ryšį tarp dviejų kintamųjų. Bet ką daryti, jei jų yra trys ar net daugiau. Čia atsiranda daugialypės koreliacijos koeficientas. Pavyzdžiui, bendrajam nacionaliniam produktui įtakos turi ne tik tiesioginės užsienio investicijos, bet ir valstybės pinigų bei fiskalinė politika, eksporto lygis. BVP augimo tempas ir apimtis yra daugelio veiksnių sąveikos rezultatas. Tačiau reikia suprasti, kad daugialypės koreliacijos modelis yra pagrįstas daugybe supaprastinimų ir prielaidų. Pirma, neįtraukiamas dydžių daugiakolineariškumas. Antra, ryšys tarp priklausomo kintamojo ir jį veikiančių kintamųjų yra tiesinis.

Koreliacinės ir regresinės analizės panaudojimo sritys

Šis dydžių ryšio nustatymo metodas plačiai naudojamas statistikoje. Dažniausiai kreipiamasi į tris pagrindinius atvejus:

  1. Norėdami patikrinti priežastinius ryšius tarp dviejų kintamųjų verčių. Dėl to tyrėjas tikisi rasti tiesinį ryšį ir išvesti formulę, apibūdinančią šiuos ryšius tarp dydžių. Jų matavimo vienetai gali būti skirtingi.
  2. Patikrinti ryšį tarp vertybių. Šiuo atveju niekas nenustato, kuris kintamasis yra priklausomas. Gali pasirodyti, kad abiejų dydžių vertė lemia kokį nors kitą veiksnį.
  3. Išvesti lygtį. Tokiu atveju galite tiesiog pakeisti skaičius ir sužinoti nežinomo kintamojo reikšmes.

Vyras, ieškantis priežastinio ryšio

Sąmonė yra išdėstyta taip, kad mums būtinai reikia paaiškinti aplink vykstančius įvykius. Žmogus visada ieško ryšio tarp pasaulio, kuriame gyvena, paveikslo ir gaunamos informacijos. Dažnai smegenys sukuria tvarką iš chaoso. Jis lengvai mato priežastinį ryšį ten, kur jo nėra. Mokslininkai turi specialiai išmokti įveikti šią tendenciją. Gebėjimas įvertinti ryšius tarp duomenų yra objektyviai būtinas akademinėje karjeroje.

Žiniasklaidos šališkumas

Apsvarstykite, kaip koreliacijos buvimas gali būti neteisingai interpretuojamas. Grupės netinkamai besielgiančių britų studentų buvo paklausti, ar jų tėvai rūko. Tada testas buvo paskelbtas laikraštyje. Rezultatas parodė stiprų ryšį tarp tėvų rūkymo ir jų vaikų nusikalstamumo. Šį tyrimą atlikęs profesorius netgi pasiūlė ant cigarečių pakelių uždėti apie tai įspėjimą. Tačiau su šia išvada kyla nemažai problemų. Pirma, koreliacija nenurodo, kuris iš dydžių yra nepriklausomas. Todėl visai galima daryti prielaidą, kad žalingą tėvų įprotį lemia vaikų nepaklusnumas. Antra, negalima tvirtai teigti, kad abi problemos nekilo dėl kažkokio trečiojo veiksnio. Pavyzdžiui, mažas pajamas gaunančios šeimos. Atkreiptinas dėmesys į emocinį pradinių tyrimą atlikusio profesoriaus išvadų aspektą. Jis buvo aršus rūkymo priešininkas. Todėl nenuostabu, kad jis taip interpretavo savo tyrimo rezultatus.

išvadų

Klaidingai interpretuojant koreliaciją kaip priežastinį ryšį tarp dviejų kintamųjų, gali atsirasti nepatogių tyrimo klaidų. Problema ta, kad ji slypi pačioje žmogaus sąmonės šerdyje. Daugelis rinkodaros gudrybių yra pagrįstos šia funkcija. Skirtumo tarp priežastinio ryšio ir koreliacijos supratimas leidžia racionaliai analizuoti informaciją tiek kasdieniame gyvenime, tiek profesinėje karjeroje.

Regresinė analizė leidžia įvertinti, kaip vienas kintamasis priklauso nuo kito ir koks priklausomo kintamojo reikšmių pasiskirstymas aplink tiesę, apibrėžiančią ryšį. Šie įverčiai ir atitinkami pasikliautinieji intervalai leidžia numatyti priklausomo kintamojo reikšmę ir nustatyti šios prognozės tikslumą.

Regresinės analizės rezultatai gali būti pateikti tik gana sudėtinga skaitmenine ar grafine forma. Tačiau dažnai esame suinteresuoti ne nuspėti vieno kintamojo reikšmę iš kito reikšmės, o tiesiog apibūdinti jų tarpusavio ryšio sandarumą (stiprumą), išreiškiant jį vienu skaičiumi.

Ši charakteristika vadinama koreliacijos koeficientu, dažniausiai ji žymima raide r. Koreliacijos koeficientas gali būti

gali gauti reikšmes nuo -1 iki +1. Koreliacijos koeficiento ženklas rodo ryšio kryptį (tiesioginę arba atvirkštinę), o absoliuti reikšmė – ryšio glaudumą. Koeficientas, lygus -1, nustato tą patį standųjį ryšį kaip lygų 1. Jei ryšio nėra, koreliacijos koeficientas lygus nuliui.

Ant pav. 8.10 rodo priklausomybių pavyzdžius ir atitinkamas r reikšmes. Nagrinėsime du koreliacijos koeficientus.

Pearsono koreliacijos koeficientas skirtas kiekybinių požymių tiesiniam ryšiui apibūdinti; kaip regresija
joninė analizė reikalauja normalaus pasiskirstymo. Kai žmonės kalba tik apie „koreliacijos koeficientą“, jie beveik visada turi omenyje Pearsono koreliacijos koeficientą, ir mes būtent tai ir padarysime.

Spearmano rango koreliacijos koeficientas gali būti naudojamas, kai ryšys yra netiesinis – ir ne tik kiekybiniams, bet ir eilės požymiams. Tai neparametrinis metodas ir nereikalauja jokio konkretaus paskirstymo.

Apie kiekybinius, kokybinius ir eilės požymius jau kalbėjome skyriuje. 5. Kiekybiniai ženklai yra įprasti skaitiniai duomenys, tokie kaip ūgis, svoris, temperatūra. Kiekybinio požymio reikšmes galima palyginti tarpusavyje ir pasakyti, kuri iš jų didesnė, kiek ir kiek kartų. Pavyzdžiui, jei vienas marsietis sveria 15 g, o kitas 10, tai pirmasis yra sunkesnis už antrą ir pusantro karto ir 5 g.kiek kartų. Medicinoje eilės ženklai yra gana dažni. Pavyzdžiui, makšties Pap testo rezultatai vertinami pagal tokią skalę: 1) normali, 2) lengva displazija, 3) vidutinė displazija, 4) sunki displazija, 5) vėžys in situ. Tiek kiekybiniai, tiek eilės požymiai gali būti išdėstyti eilės tvarka – šia bendra savybe paremta didelė neparametrinių kriterijų grupė, kuri apima Spearmano rango koreliacijos koeficientą. Su kitais neparametriniais kriterijais susipažinsime skyriuje. dešimt.

Pearsono koreliacijos koeficientas

Ir vis dėlto, kodėl santykių sandarumui apibūdinti negalima naudoti regresinės analizės? Likutinis standartinis nuokrypis gali būti naudojamas kaip ryšio glaudumo matas. Tačiau jei sukeisite priklausomus ir nepriklausomus kintamuosius, liekamasis standartinis nuokrypis, kaip ir kiti regresinės analizės rodikliai, skirsis.

Pažiūrėkime į pav. 8.11. Remiantis 10 mums žinomų marsiečių pavyzdžiu, buvo sudarytos dvi regresijos linijos. Vienu atveju svoris yra priklausomas kintamasis, antruoju – nepriklausomas kintamasis. Regresijos linijos labai skiriasi



20

Jei sukeisite x ir y, regresijos lygtis skirsis, bet koreliacijos koeficientas išliks toks pat.

viltis. Pasirodo, ūgio ir svorio santykis yra vienas, o svorio su ūgiu – kitas. Regresinės analizės asimetrija neleidžia jos tiesiogiai panaudoti santykių stiprumui apibūdinti. Koreliacijos koeficientas, nors jo idėja kyla iš regresinės analizės, neturi šio trūkumo. Pateikiame formulę.

rY(X – X)(Y – Y)

&((- X) S(y - Y)2"

kur X ir Y yra vidutinės kintamųjų X ir Y reikšmės. R išraiška yra „simetriška“ – sukeitę X ir Y, gauname tą pačią reikšmę. Koreliacijos koeficiento reikšmės yra nuo -1 iki +1. Kuo artimesnis ryšys, tuo didesnė koreliacijos koeficiento absoliuti reikšmė. Ženklas rodo ryšio kryptį. Jei r > 0, jie kalba apie tiesioginę koreliaciją (vienam kintamajam didėjant, didėja ir kitas), r Paimkime pavyzdį su 10 marsiečių, kuriuos jau nagrinėjome regresinės analizės požiūriu. Apskaičiuokime koreliacijos koeficientą. Pradiniai duomenys ir tarpiniai skaičiavimų rezultatai pateikti lentelėje. 8.3. Mėginio dydis n = 10, vidutinis aukštis

X = £ X/n = 369/10 = 36,9 ir svoris Y = £ Y/n = 103,8/10 = 10,38.

Randame Shch-X)(Y-Y) = 99,9, Shch-X)2 = 224,8, £(Y - Y)2 = 51,9.

Pakeiskime gautas reikšmes į koreliacijos koeficiento formulę:

224,8 x 51,9 colio

R reikšmė artima 1, o tai rodo glaudų ryšį tarp ūgio ir svorio. Norėdami geriau suprasti, kuris koreliacijos koeficientas turėtų būti laikomas dideliu, o kuris nereikšmingas, pažiūrėkite

8.3 lentelė. Koreliacijos koeficiento apskaičiavimas
X Y X-X Y-Y (X-X) (Y-Y) (X-X)2 (Y-Y)2
31 7,8 -5,9 -2,6 15,3 34,8 6,8
32 8,3 -4,9 -2,1 10,3 24,0 4,4
33 7,6 -3,9 -2,8 10,9 15,2 7,8
34 9,1 -2,9 -1,3 3,8 8,4 1,7
35 9,6 -1,9 -0,8 1,5 3,6 0,6
35 9,8 -1,9 -0,6 1,1 3,6 0,4
40 11,8 3,1 1,4 4,3 9,6 2,0
41 12,1 4,1 1,7 7,0 16,8 2,9
42 14,7 5,1 4,3 22,0 26,0 18,5
46 13,0 9,1 2,6 23,7 82,8 6,8
369 103,8 0,0 0,2 99,9 224,8 51,9


esantys ant stalo. 8.4 - rodo anksčiau analizuotų pavyzdžių koreliacijos koeficientus.

Regresijos ir koreliacijos ryšys

Regresijos tiesėms sudaryti iš pradžių naudojome visus koreliacijos koeficientų pavyzdžius (8.4 lentelė). Iš tiesų, tarp koreliacijos koeficiento ir regresinės analizės parametrų yra glaudus ryšys, kurį dabar parodysime. Skirtingi koreliacijos koeficiento pateikimo būdai, kuriuos gausime šiuo atveju, leis geriau suprasti šio rodiklio reikšmę.

Prisiminkite, kad regresijos lygtis sudaryta taip, kad būtų sumažinta kvadratinių nuokrypių nuo regresijos tiesės suma.


Šią minimalią kvadratų sumą žymime S (ši reikšmė vadinama likutine kvadratų suma). Priklausomo kintamojo Y verčių nuokrypių kvadratu suma nuo jo vidurkio Y bus pažymėta S^. Tada:

R2 reikšmė vadinama determinacijos koeficientu – tai tiesiog koreliacijos koeficiento kvadratas. Determinacijos koeficientas parodo ryšio stiprumą, bet ne kryptį.

Iš aukščiau pateiktos formulės matyti, kad jei priklausomo kintamojo reikšmės yra tiesioginėje regresijoje, tada S = 0, taigi r = +1 arba r = -1, tai yra, yra tiesinis ryšys tarp priklausomas ir nepriklausomas kintamasis. Bet kuri nepriklausomo kintamojo reikšmė gali tiksliai numatyti priklausomo kintamojo reikšmę. Priešingai, jei kintamieji visiškai nesusiję, tada Soci = SofSisi Tada r = 0.

Taip pat matyti, kad determinacijos koeficientas yra lygus tai bendros dispersijos S^ daliai, kurią sukelia arba, kaip sakoma, paaiškinama tiesine regresija.

Likutinė kvadratų S suma siejama su likutine dispersija s2y\x pagal ryšį Socj = (n - 2) s^, o visa kvadratų suma S^ su dispersija s2 pagal ryšį S^ = (n - 1 )s2. Tokiu atveju

r2 = 1 _ n _ 2 sy\x n _1 sy

Ši formulė leidžia spręsti apie koreliacijos koeficiento priklausomybę nuo likutinės dispersijos dalies bendroje dispersijoje

six/s2y Kuo mažesnė ši proporcija, tuo didesnis (absoliučia verte) koreliacijos koeficientas ir atvirkščiai.

Matėme, kad koreliacijos koeficientas atspindi kintamųjų tiesinio ryšio sandarumą. Tačiau, kai reikia numatyti vieno kintamojo vertę iš kito vertės,
koreliacijos koeficientu nereikėtų per daug pasikliauti. Pavyzdžiui, duomenys Fig. 8,7 atitinka labai aukštą koreliacijos koeficientą (r = 0,92), tačiau pasitikėjimo srities plotis rodo, kad prognozės neapibrėžtis yra gana reikšminga. Todėl, net ir esant dideliam koreliacijos koeficientui, būtinai apskaičiuokite pasikliovimo diapazoną.


Ir galiausiai pateikiame koreliacijos koeficiento ir tiesioginės regresijos nuolydžio koeficiento santykį b:

čia b – regresijos tiesės nuolydis, sx ir sY – standartiniai kintamųjų nuokrypiai.

Jei neatsižvelgsime į atvejį, kai sx = 0, tai koreliacijos koeficientas lygus nuliui tada ir tik tada, kai b = 0. Šiuo faktu dabar įvertinsime koreliacijos statistinį reikšmingumą.

Koreliacijos statistinė reikšmė

Kadangi b = 0 reiškia r = 0, hipotezė, kad nėra koreliacijos, yra lygiavertė tiesioginės regresijos nulinio nuolydžio hipotezei. Todėl koreliacijos statistiniam reikšmingumui įvertinti galime naudoti jau žinomą formulę skirtumo tarp b ir nulio statistiniam reikšmingumui įvertinti:

Čia laisvės laipsnių skaičius v = n - 2. Tačiau jei jau buvo apskaičiuotas koreliacijos koeficientas, patogiau naudoti formulę:

Laisvės laipsnių skaičius čia taip pat yra v = n - 2.

Dėl išorinių dviejų t formulių skirtumų jos yra identiškos. Tikrai, nuo ko


r 2 _ 1 - n_ 2 Sy]x_

Sy^x reikšmės pakeitimas standartinės klaidos formulėje

Gyvūniniai riebalai ir krūties vėžys

Eksperimentų su laboratoriniais gyvūnais metu buvo įrodyta, kad didelis gyvulinių riebalų kiekis maiste didina krūties vėžio riziką. Ar ši priklausomybė pastebima žmonėms? K. Carroll surinko duomenis apie gyvulinių riebalų vartojimą ir mirtingumą nuo krūties vėžio 39 šalyse. Rezultatas parodytas fig. 8.12A. Nustatyta, kad koreliacijos koeficientas tarp gyvulinių riebalų vartojimo ir mirtingumo nuo krūties vėžio yra 0,90. Įvertinkime koreliacijos statistinį reikšmingumą.

0,90 1 - 0,902 39 - 2

Kritinė t reikšmė laisvės laipsnių skaičiui v = 39 - 2 = 37 yra 3,574, o tai yra mažesnė nei mūsų gauta. Taigi, esant 0,001 reikšmingumo lygiui, galima teigti, kad yra ryšys tarp gyvulinių riebalų suvartojimo ir mirtingumo nuo krūties vėžio.

Dabar patikrinkime, ar mirtingumas yra susijęs su augalinių riebalų vartojimu? Atitinkami duomenys parodyti fig. 8.12B. Koreliacijos koeficientas yra 0,15. Tada

1 - 0,152 39 - 2

Net ir esant 0,10 reikšmingumo lygiui, apskaičiuotoji t reikšmė yra mažesnė už kritinę reikšmę. Koreliacija nėra statistiškai reikšminga.


Uždaryti