Iš viso rezultatas

8.3a lentelė. Regresijos statistika
Regresijos statistika
Keli R. 0,998364
R kvadrato 0,99673
Normalus r kvadratas 0,996321
Standartinė klaida 0,42405
Pastabos. \\ T 10

Pirma, apsvarstykite viršutinę 8.3a lentelėje pateiktų skaičiavimų dalį yra regresijos statistika.

R kvadrato vertė, taip pat vadinama tikrumo priemone, apibūdina tiesioginio regresijos kokybę. Ši kokybė išreiškiama pagal šaltinio duomenų ir regresijos modelio (apskaičiuotų duomenų) atitikties laipsnį. Tikrumo matas visada yra intervale.

Daugeliu atvejų R kvadrato vertė yra tarp šių vertybių, vadinamų ekstremaliais, i.e. Tarp nulio ir vieneto.

Jei R kvadrato vertė yra artima, tai reiškia, kad pastatytas modelis paaiškina beveik visą atitinkamų kintamųjų kintamumą. Priešingai, R kvadrato vertė, arti nulio, reiškia prastą pagaminto modelio kokybę.

Mūsų pavyzdyje tikrumo matas yra 0,99673, kuris rodo labai gerą regresiją tiesiogiai į pradinius duomenis.

Keli R. - kelių koreliacijos koeficientas r - išreiškia nepriklausomų kintamųjų (x) priklausomybės laipsnį ir priklausomą kintamąjį (Y).

Keli r yra lygūs kvadratinei šakniui nuo nustatymo koeficiento, ši vertė užima nuo nulio iki vieno.

Paprasta linijinės regresijos analizė, kelis R yra lygus Pearson koreliacijos koeficientui. Iš tiesų, kelis mūsų byloje yra lygus Pearson koreliacijos koeficientui nuo ankstesnio pavyzdžio (0.998364).

8.3b lentelė. Nuosmukio koeficientai
Faktoriai Standartinė klaida t-statistika
Y-Crossing. 2,694545455 0,33176878 8,121757129
Kintamasis x 1. 2,305454545 0,04668634 49,38177965
* Pateikta sutrumpinta skaičiavimo galimybė.

Dabar apsvarstykite vidurinę skaičiavimų dalį, pateiktą 8.3b lentelėje. Regresijos koeficientas B (2.305454545) ir poslinkis palei ordinato ašį, t.y. Pastovus a (2,694545455).

Remiantis skaičiavimais, tokiu būdu galime parašyti regresijos lygtį:

Y \u003d x * 2,305454545 + 2,694545455

Komunikacijos tarp kintamųjų kryptis nustatoma remiantis ženklais (neigiama ar teigiama) nuosmukio koeficientai (koeficientas b).

Jei ženklas yra nuosmukio koeficientas - teigiamas, priklausomo kintamojo ryšys su nepriklausomu bus teigiamas. Mūsų atveju regresijos koeficientas yra teigiamas, todėl ryšys taip pat yra teigiamas.

Jei ženklas yra nuosmukio koeficientas - Neigiamas, priklausomo kintamojo ryšys su nepriklausomu yra neigiamas (atvirkštinis).

8.3b lentelė. Pateikiami likučių rezultatų rezultatai. Kad šie rezultatai būtų rodomi ataskaitoje, būtina aktyvuoti žymės langelį "lieka", kai pradedant "regresijos" įrankį.

Išvada likutis

8.3b lentelė. Likučiai. \\ T
Stebėjimas Prognozuojama y. Likučiai. \\ T Standartinės likučių. \\ T
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Su šioje ataskaitos dalyje matome kiekvieno taško nukrypimus nuo pastatytos regresijos linijos. Didžiausia absoliuti vertė

Regresijos analizė - matuojamų duomenų ir jų savybių studijų modeliavimo metodas. Duomenys susideda iš garų verčių priklausomas kintamasis (atsakymo kintamasis) ir nepriklausomas kintamasis (paaiškinantis kintamąjį). Regresijos modelis yra nepriklausomo kintamojo ir parametrų funkcija su pridėtu atsitiktiniu kintamuoju. Modelio parametrai yra sukonfigūruoti taip, kad modelis geriausiai atneša duomenis. Apibendrinimo kokybės kriterijus (tikslinė funkcija) paprastai yra standartinė klaida: modelio verčių skirtumo modelio kvadratų suma ir priklausomas kintamasis visoms nepriklausomo kintamojo vertėms kaip argumentas. Regresijos analizė - matematinės statistikos ir mašinos mokymosi skyrius. Manoma, kad priklausomas kintamasis yra tam tikro modelio ir atsitiktinio kintamojo verčių suma. Kalbant apie šio dydžio pasiskirstymo pobūdį, prielaidos, vadinamos duomenų generavimo hipoteze. Norėdami patvirtinti arba panaikinti šią hipotezę, atliekami statistiniai bandymai, vadinami likučių analize. Jame daroma prielaida, kad nepriklausomas kintamasis neturi klaidų. Regresinė analizė naudojama prognozuoti, analizuoti laiko eilutes, bandymų hipotezes ir nustatyti paslėptus sujungimus duomenis.

Regresijos analizės apibrėžimas

Mėginys gali būti ne funkcija, bet požiūris. Pavyzdžiui, regresijos statybos duomenys gali būti tokie :. \\ T Tokiame mėginyje viena kintamojo vertė atitinka keletą kintamųjų verčių.

Tiesinė regresija

Linijinė regresija daro prielaidą, kad funkcija priklauso nuo parametrų tiesiškai. Šiuo atveju linijinė priklausomybė nuo laisvo kintamojo yra neprivaloma,

Tuo atveju, kai yra linijinė regresijos funkcija

Čia yra vektoriaus komponentai.

Linijinės regresijos parametrų vertės yra naudojamos naudojant mažiausiai kvadratų metodą. Šio metodo naudojimas yra pagrįstas atsitiktinio kintamojo Gauso pasiskirstymo prielaida.

Skambinami skirtumai tarp tikrosios priklausomo kintamojo ir atkurtų verčių regresijos likučiai (Liekanos). Sinonimai taip pat naudojami literatūroje: konteinas. \\ T ir. \\ T klaidos. \\ T. Vienas iš svarbiausių kokybės kriterijaus įvertinimų gautos priklausomybės yra likučių kvadratų suma:

Čia - kvadratinių klaidų suma.

Likučių dispersija apskaičiuojama pagal formulę

Čia - vidutinė kvadratinė klaida, standartinė klaida.

Grafikai pateikiami mėginiai, kuriuos nurodė mėlynos spalvos taškai ir regresijos priklausomybės, nurodytos kietos linijos. Abscisos ašyje, laisvas kintamasis yra atidėtas, ir palei ordinato ašį - priklausomą. Visos trys priklausomybės yra linijinės palyginti su parametrais.

Netiesinė regresija

Netiesiniai regresijos modeliai - formos modeliai

kuris negali būti atstovaujamas kaip skalar produktas

kur - regresijos modelio parametrai yra laisvas kintamasis nuo erdvės, priklausomas kintamasis, - atsitiktinė vertė ir yra funkcija iš tam tikro rinkinio.

Nenorės regresijos parametrų vertės yra naudojamos naudojant vieną iš gradiento nusileidimo metodų, pavyzdžiui, Levenberg-Marquardt algoritmas.

Apie sąlygas

Terminas "regresija" buvo pristatytas Francis Galton XIX a. Pabaigoje. Galton nustatė, kad tėvų, turinčių didelį ar mažą augimą, vaikai paprastai neišskiria neišspręsto augimo ir vadino šį reiškinį "regresiją mediokraliui". Iš pradžių šis terminas buvo naudojamas tik biologiniame prasme. Po Charles Pearson kūrinių šis terminas pradėjo naudoti ir statistikos.

Statistinėje literatūroje atskirti regresiją su vieno laisvo kintamojo ir su keliais nemokamais kintamaisiais - vienas dimensija ir. \\ T daugialypis. \\ T regresija. Manoma, kad mes naudojame keletą nemokamų kintamųjų, tai yra laisvas kintamasis - vektorius. Visų pirma, kai laisvas kintamasis yra skalaras, jis bus paskirtas. Išskirti linijinis ir. \\ T netiesinis regresija. Jei regresijos modelis nėra linijinis funkcijų derinys iš parametrų, jie kalba apie netiesinę regresiją. Tuo pačiu metu modelis gali būti savavališkas funkcijų superpozicija iš kai kurių rinkinių. Netiesiniai modeliai yra, eksponentiniai, trigonometriniai ir kiti (pavyzdžiui, radialinės bazės funkcijos arba "Penspond Rosenblatt"), priskiriant santykius tarp parametrų ir priklausomo kintamo netiesinio.

Išskirti parametrinis ir. \\ T ne parametrinis regresija. Sunku išleisti griežtą ribą tarp šių dviejų tipų regresijos. Dabar nėra visuotinai pripažinto kriterijaus, skirto vieno tipo modelių tipui atskirti. Pavyzdžiui, manoma, kad linijiniai modeliai yra parametrų ir modelių, kurie apima priklausomo kintamojo vidurkį į laisvos kintamosios - Notparametro erdvėje. Parametrinio regresijos modelio pavyzdys: linijinis prognozuotojas, daugiasluoksnės perceptron. Mišraus regresijos modelio pavyzdžiai: radialinės bazės funkcijos. Nei parametrinis modelis yra stumdomasis vidurkis kai kurių pločio lange. Apskritai, ne parametrinė regresija skiriasi nuo parametrų, nes priklausomas kintamasis priklauso nuo vienos laisvos kintamos vertės, bet iš tam tikros pateiktos šios vertės kaimynystės.

Tarp Sąlygos yra skirtumas: "Derinimas funkcijų", "derinimas", "Interpoliacija" ir "regresija". Tai yra toks.

Funkcijų derinimas. Atskiro ar nuolatinio argumento funkcija pateikta. Būtina rasti funkciją iš kai kurių parametrinės šeimos, pavyzdžiui, tarp algebrinių polinomų tam tikros laipsnio. Funkcijų parametrai turi pateikti minimalų funkcionalumą, pavyzdžiui,

Terminas apytikslė. \\ T - sinonimas terminui "funkcijų derinimas". Jis dažniau naudojamas, kai kalbama apie tam tikrą funkciją kaip diskretiško argumento funkciją. Ji taip pat reikalauja rasti tokią funkciją, kuri yra arčiausiai visų nurodytos funkcijos taškų. Šiuo atveju koncepcija įvedama konteinas. \\ T - atstumai tarp nuolatinių funkcijų taškų ir atitinkamų diskretiško argumento funkcijos taškų.

Interpoliacija funkcijos - ypatingas derinimo užduoties atvejis, kai to reikalaujama būti tam tikruose taškuose, vadinamuose interpoliacijos mazgai Funkcijos vertės ir artėjančios funkcijos sutampa. Bendresniu atveju nustatomi kai kurių išvestinių finansinių priemonių vertybių apribojimai. Tai yra diskretiško argumento funkcija. Reikia rasti tokią funkciją, kuri eina per visus taškus. Tokiu atveju metrika paprastai nenaudojama, tačiau dažnai įvesta "lygumo" sąvoka.

Regresinės analizės tikslas - įvertinti ryšį tarp priklausomo kintamojo ir vieno (suporuoto regresijos analizės) arba kelių (kelių) nepriklausomų kintamųjų. Nepriklausomi kintamieji taip pat vadinami veiksniu, paaiškindami, apibrėžiant, regresatoriai ir prognozuotojai.

Priklausomas kintamasis kartais vadinamas apibrėžtu ", atsakas". Ypač plačiai paplitusi regresijos analizė empiriniuose tyrimuose yra susiję ne tik su tuo, kad tai yra patogus testavimo įrankių hipotezės. Regresija, ypač daugkartinis, yra veiksmingas modeliavimo ir prognozavimo būdas.

Darbo su regresijos analize principų paaiškinimas prasidės paprastesniu poros metodu.

Suporuotos regresijos analizė

Pirmieji veiksmai, naudojant regresijos analizę, bus beveik identiški, skaičiuojant koreliacijos koeficientą. Trys pagrindinės sąlygos koreliacijos analizės veiksmingumui naudojant Pearson metodą - normalus kintamųjų pasiskirstymas, kintamųjų intervalų matavimas, linijinis ryšys tarp kintamųjų yra svarbūs kelioms regresijai. Atitinkamai, pirmame etape pastatyta išsklaidymo diagramos, atliekamas statistiškai apibūdinantis kintamųjų analizė, o regresijos linija apskaičiuojama. Kaip ir koreliacijos analizė, regresijos linijos yra pastatytos mažiausiu kvadratiniu metodu.

Daugiau aiškiai iliustruojame tarp dviejų duomenų analizės metodų skirtumus, mes kreipiamės į jau nagrinėjamą pavyzdį su kintamaisiais "ATP" ir "kaimo gyventojų dalimi". Šaltinių duomenys yra identiški. Sklaidymo diagramų skirtumas bus tai, kad regresijos analizėje priklausomas kintamasis yra teisingai nusivylęs - mūsų byloje "Parama ATP" palei Y ašį, o koreliacijos analizėje nesvarbu. Po valymo emisijos, išsklaidymo diagrama yra:

Pagrindinė regresijos analizės idėja yra ta, kad bendra kintamųjų tendencija - regresijos linijos forma, - galite numatyti priklausomo kintamojo vertę, turinčią nepriklausomą vertę.

Įsivaizduokite įprastą matematinę linijinę funkciją. Bet koks tiesioginis euklido erdvėje gali būti apibūdinamas pagal formulę:

kur yra pastovus, kuris nustato poslinkį į ordinato ašį; B yra koeficientas, kuris lemia linijų kampą.

Žinant kampinį koeficientą ir pastovią, galite apskaičiuoti (prognozuoti) vertę bet kuriai x.

Ši paprasčiausia funkcija suformavo regresijos analizės modelio pagrindą su išlyga, kad mes prognozuosime ne tiksliai, bet per tam tikrą pasitikėjimo intervalą, t.y. apie.

Nuolatinis yra regresijos linijos sankirtos taškas ir ordinato ašis (F-Crossing statistiniai pakuotėse, kaip taisyklė, pažymėta "Interceptor"). Mūsų pavyzdyje balsuodamas už ATP, jos suapvalinta vertė bus 10,55. Kampinis koeficientas Kommersant bus maždaug -0.1 (kaip ir koreliacijos analizėje, ženklas rodo ryšio tipą - tiesioginį ar atvirkštinį). Taigi gautas modelis turės bendros įmonės C \u003d -0.1 x kaimų formą. JAV. + 10.55.

Taigi, dėl "Adygėjos Respublikos" su kaimo gyventojų akcijomis 47% prognozuojamos vertės bus 5.63:

ATP \u003d -0,10 x 47 + 10,55 \u003d 5.63.

Skirtumas tarp pradinių ir numatomų verčių yra vadinamas likučiu (su šiuo terminu - principinis statistikai - mes jau susidūrėme analizuojant konjugatūrų lenteles). Taigi, "Adygėjos Respublikos" atveju liekana bus lygi 3,92 - 5,63 \u003d -1,71. Kuo didesnė likučių modulinė vertė, tuo mažiau sėkmingai prognozuojama vertė.

Apskaičiuokite numatomas vertes ir likučius visais atvejais:
Vyksta Sel. JAV. Ačiū

(pradinis)

Ačiū

(Prognozuojama)

Likučiai. \\ T
AdyGea. 47 3,92 5,63 -1,71 -
Altajaus Respublika 76 5,4 2,59 2,81
Baškortostano Respublika 36 6,04 6,78 -0,74
Biuryatijos Respublika 41 8,36 6,25 2,11
Dagestano Respublika 59 1,22 4,37 -3,15
Ingušijos Respublika 59 0,38 4,37 3,99
Ir tt

Pradinių ir numatomų verčių santykio analizė naudojama siekiant įvertinti gauto modelio kokybę, jo prognostinį gebėjimą. Vienas iš pagrindinių regresijos statistikos rodiklių yra kelių koreliacijos koeficientas R - koreliacijos koeficientas tarp pradinių ir numatomų priklausomo kintamojo verčių. Pairo regresijos analizėje jis yra lygus įprastam PEONON koreliacijos koeficientui tarp priklausomo ir nepriklausomo kintamojo, mūsų byloje - 0,63. Iš esmės interpretuoti kelis R, jis turi būti konvertuojamas į nustatymo koeficientą. Tai daroma taip pat, kaip ir koreliacijos analizėje - aikštės konstrukcija. Nustatymo koeficientas R -Kvadrat (R2) rodo priklausomo kintamojo variacijos dalį, paaiškintą nepriklausomais (nepriklausomais) kintamaisiais.

Mūsų atveju R2 \u003d 0,39 (0,63 2); Tai reiškia, kad kintamasis "kaimo gyventojų dalis" paaiškina apie 40% "paramos ATP" keitimo pokyčiams. Kuo didesnė nustatymo koeficiento vertė, tuo didesnė modelio kokybė.

Kitas modelio kokybės rodiklis yra standartinė įvertinimo klaida (standartinė įvertinimo klaida). Tai yra rodiklis, kiek taškas yra "išsklaidytas" aplink regresijos liniją. Tarpvalių kintamųjų variacijos priemonė yra standartinis nuokrypis. Atitinkamai standartinė vertinimo klaida yra standartinis likučių paskirstymo nuokrypis. Kuo didesnė jo vertė, tuo stipresnis plitimas ir blogesnis modelis. Mūsų atveju standartinė klaida yra 2.18. Būtent dėl \u200b\u200bšio dydžio, kad mūsų modelis "bus neteisingas vidutiniškai", kai prognozuojant "paramos ATP" kintamojo vertę.

Regresijos statistika taip pat apima dispersijos analizę. Su juo išsiaiškiname: 1) kokią priklausomo kintamojo variacijos (dispersijos) dalį paaiškinama nepriklausoma kintama; 2) Kokia priklausomo kintamojo dispersijos dalis priklauso nuo balanso (nepaaiškinamos dalies); 3) Koks yra šių dviejų vertybių požiūris (/ "- požiūris). Dispersijos statistika yra ypač svarbi imties tyrimams - tai rodo, kaip tikėtina, kad būtų prieinami nepriklausomi ir priklausomiems kintamųjų prieinamumui. Tačiau, nepertraukiamai Moksliniai tyrimai (kaip ir mūsų pavyzdžiu), mokymosi dispersijos analizės rezultatai nėra tikrinami. Šiuo atveju jie yra tikrinami, jei nustatė statistinį modelį sukelia sutapimas, kad jis yra būdingas šiam sąlygų, kuriomis apklausiamasis rinkinys yra būdingas yra nustatytas, ty ne iš rezultato, gauto už kai kurių išsamesnių bendrų suvestinių, ir jo modelių laipsnį, laisvę nuo atsitiktinio poveikio.

Mūsų atveju dispersijos analizės statistika yra tokia:

Ss. df. MS. F. Vertė
Regnet. 258,77 1,00 258,77 54,29 0.000000001
Kairėje. 395,59 83,00 L, 11.
Iš viso. \\ T 654,36

F-santykis 54.29 žymiai 0,0000000001 lygiu. Atitinkamai, mes galime patikimai atmesti nulinę hipotezę (kad mes atradome ryšį yra atsitiktinis simbolis).

Panaši funkcija atliekama pagal kriterijų T, bet jau atsižvelgiant į regresijos koeficientus (kampinį ir f-sankryžą). Su kriterijumi / mes tikriname hipotezę, kad bendrųjų rinkinių regresijos koeficientai yra nulis. Mūsų atveju mes galime vėl pasitikėti nulio hipoteze.

Daugialypė regresijos analizė

Keli regresijos modelis yra beveik identiškas suporuoto regresijos modeliui; Vienintelis skirtumas yra tas, kad į linijinę funkciją įtraukiamos keli nepriklausomi kintamieji:

Y \u003d B1x1 + B2x2 + ... + BPXP + a.

Jei nepriklausomi kintamieji yra daugiau nei du, mes neturime galimybės gauti vizualinę savo ryšio idėją, šiuo atžvilgiu daugeliu regresijos mažiau "vizualinės" nei garo kambarys. Jei yra du nepriklausomi kintamieji, duomenys yra naudingi rodyti trimatėje sklaidos diagramoje. Profesionalioje statistikos programinės įrangos paketuose (pvz., Statistiškai) yra galimybė pasukti trimatę schemą, kuri leidžia vizualiai įsivaizduoti duomenų struktūrą.

Dirbant su keliais regresija, priešingai nei garinė pirtis, būtina nustatyti analizės algoritmą. Standartinis algoritmas apima visus esamus prognozes galutiniame regresijos modelyje. Žingsnis po žingsnio algoritmas reiškia nuoseklią įtrauktį (išimtis) nepriklausomų kintamųjų, remiantis jų aiškinamojo "svorio". Žingsnis po žingsnio metodas yra geras, kai yra daug nepriklausomų kintamųjų; Jis "valo" modelį nuo atvirai silpnų prognozuotojų, todėl labiau kompaktiškas ir lakoniškas.

Papildoma sąlyga dėl daugelio regresijos teisingumo (kartu su intervalu, normalumu ir tiesiškumu) yra daugiafunkcinis ryšys - stiprių koreliacijos ryšių tarp nepriklausomų kintamųjų buvimas.

Kelių regresijos statistikos interpretavimas apima visus mūsų žinias apie poros regresijos atvejį. Be to, yra ir kitų svarbių komponentų daugelio regresijos analizės statistikoje.

Mes iliustruosime darbą su daugeliu regresijos dėl bandymų hipotezių, paaiškinančių rinkimų veiklos skirtumus Rusijos regionuose. Be konkrečių empirinių tyrimų metu, prielaidos buvo padaryta, kad rinkėjų apyvartos lygis turi įtakos:

Nacionalinis veiksnys (kintamasis "Rusijos gyventojų"; yra išgyvenęs kaip Rusijos gyventojų dalis Rusijos Federacijos subjektams). Daroma prielaida, kad Rusijos gyventojų dalies padidėjimas lemia rinkėjų veiklą;

Urbanizacijos koeficientas (kintamasis "miestų gyventojai"; yra apklausti kaip miestų gyventojų dalis Rusijos Federacijos subjektuose, mes jau dirbome su šiuo veiksniu pagal koreliacijos analizę). Daroma prielaida, kad miesto gyventojų dalies padidėjimas taip pat sumažina rinkėjų veiklą.

Priklausomas kintamasis - "Ekologinio aktyvumo intensyvumas" ("turtas") išgyveno per vidutines duomenis apie regionų išvaizdą federaliniuose rinkimuose nuo 1995 m. Iki 2003 m. Dviejų nepriklausomų ir vieno priklausomo kintamojo šaltinio lentelės turėti tokią formą:

Vyksta Kintamieji
Turtas. Kalnai JAV. Rus. JAV.
AdyGea. 64,92 53 68
Altajaus Respublika 68,60 24 60
Biuryatijos Respublika 60,75 59 70
Dagestano Respublika 79,92 41 9
Ingušijos Respublika 75,05 41 23
Kalmykia Respublika 68,52 39 37
Karachay-Circassian. 66,68 44 42
Karelijos Respublika 61,70 73 73
KOMI Respublika 59,60 74 57
Mari El Respublika 65,19 62 47

Ir tt (Po valymo išmetamųjų teršalų kiekio 83 atvejai iš 88)

Statistika, apibūdinanti modelio kokybę:

1. kelis r \u003d 0,62; L-Square \u003d 0,38. Todėl nacionalinis veiksnys ir urbanizacijos veiksnys kartu paaiškina apie 38% kintamosios rinkimų veiklos "variacijos".

2. Vidutinė klaida yra 3,38. Taip yra tai, kad "vidurkis yra neteisingas" pastatytas modelis, kai prognozuojant išvaizdos lygį.

3. / L-santykis paaiškintų ir nepaaiškinamų skirtumų yra 25,2 iki 0,000000003 lygio. Nulinė hipotezė apie nustatytų ryšių tikimybę atmetamas.

4. kriterijus / konstantų ir regresijos koeficientų kintamųjų "miesto gyventojų" ir "Rusijos gyventojų" reikšmė 0,0000001 lygiu; 0,00005 ir 0,007, atitinkamai. Nulinis hipotezė apie koeficientų atsitiktinumą atmetamas.

Papildoma naudinga statistika analizuojant pradinių ir numatomų priklausomo kintamojo santykio santykį yra Mahalabio atstumas ir viryklės atstumas. Pirmosios bylos unikalumo matas (rodo, kiek visų nepriklausomų kintamųjų verčių derinys tam tikram atvejui nukrypsta nuo vidutinio vertės visuose nepriklausomuose kintamuosiuose vienu metu). Antra - bylos įtakos priemonė. Įvairūs stebėjimai įvairiais būdais turi įtakos regresijos linijos nuolydžiui ir su ruošti atstumu, jie gali būti lyginami su šiuo rodikliu. Tai naudinga valant emisijas (emisija gali būti atstovaujama kaip pernelyg įtakingas atvejis).

Mūsų pavyzdyje Dagestanas nurodo unikalius ir įtakingus atvejus.

Vyksta Šaltinis. \\ T

vertybės

Predica.

vertybės

Likučiai. \\ T Atstumas

Mahalanobis.

Atstumas
Adygea. 64,92 66,33 -1,40 0,69 0,00
Altajaus Respublika 68,60 69.91 -1,31 6,80 0,01
Biuryatijos Respublika 60,75 65,56 -4,81 0,23 0,01
Dagestano Respublika 79,92 71,01 8,91 10,57 0,44
Ingušijos Respublika 75,05 70,21 4,84 6,73 0,08
Kalmykia Respublika 68,52 69,59 -1,07 4,20 0,00

Faktinis regresijos modelis turi šiuos parametrus: U-sankryžos (pastovios) \u003d 75,99; B (kalnai. JAV.) \u003d -0.1; Kommersant (RUS. JAV.) \u003d -0.06. Galutinė formulė:

Aacive, \u003d -0.1 x kalnai. R + - 0,06 x rus. R + 75,99.

Ar galime palyginti prognozuotojų "paaiškinimų" ", remiantis koeficiento verte 61. Šiuo atveju, taip, nes nepriklausomi kintamieji turi tą patį procentinį formatą. Tačiau dažniausiai daugeliui regresijos susijęs su kintamaisiais, kurie matuojami skirtingomis skalėmis (pvz., Pajamų lygis rubliuose ir amžius metais). Todėl apskritai, palyginti nuspėjamąsias galimybes kintamųjų regresijos santykiu neteisingai. Šiuo tikslu daugelio regresijos statistikoje yra specialus beta koeficientas (b) apskaičiuojamas atskirai kiekvienam nepriklausomam kintamąjį. Jis yra privatus (apskaičiuotas po to, kai atsižvelgiama į visų kitų prognozių įtaką) koreliacijos koeficientą veiksnys ir atsakas ir rodo nepriklausomą indėlį veiksnys reagavimo vertės prognozavimo. Pairo regresijos analizėje beta koeficientai dėl akivaizdžių priežasčių yra lygi priklausomam ir nepriklausomam kintamojo poros koreliacijos koeficientui.

Mūsų pavyzdyje beta (kalnai.) \u003d -0,43, beta (rulus. Mes.) \u003d -0.28. Taigi abu veiksniai neigiamai veikia rinkimų veiklos lygį, o urbanizacijos koeficiento reikšmė yra gerokai didesnė už nacionalinio veiksnio reikšmę. Abiejų veiksnių kumuliacinė įtaka lemia apie 38% kintamosios "rinkimų aktyvumo" (žr L-kvadratinę vertę).

Regresijos analizė yra statistikos tyrimų metodas, rodantis parametro priklausomybę nuo vieno ar kelių nepriklausomų kintamųjų. Paraišką buvo sunku jį naudoti "CompuScript ERA", ypač jei tai buvo apie didelius duomenų kiekius. Šiandien mokymasis, kaip sukurti regresiją "Excel", galite išspręsti sudėtingas statistikos užduotis pažodžiui per kelias minutes. Toliau pateikiami konkretūs ekonomikos srities pavyzdžiai.

Regresijos tipai

Ši labai koncepcija buvo įtraukta į matematiką 1886 m. Regresija vyksta:

  • linijinis;
  • parabolinis;
  • galia;
  • eksponentinis;
  • hiperbolinis;
  • orientacinė;
  • logaritminis.

1 pavyzdys.

Apsvarstykite užduotį nustatant tų, kurie gesintų komandos narius nuo vidutinio atlyginimo 6 pramoninėse įmonėse priklausomybę.

Užduotis. Šešiose įmonėse analizavo vidutinį mėnesinį darbo užmokestį ir darbuotojų, kurie atsisako savo prašymu, skaičius. Lentelės formoje turime:

Išblukęs skaičius

Atlyginimas

30000 rublių.

35 000 rublių

40000 rublių.

45 000 rublių

50 000 rublių

55 000 rublių

60000 rublių.

Siekiant nustatyti darbuotojų kiekio priklausomybę nuo vidutinio darbo užmokesčio 6 įmonių, regresijos modelis yra lygtis y \u003d a 0 + a 1 x 1 + ... + Akxk, kur xi yra Įtakos kintamieji ir regresijos koeficientai, AK yra veiksnių skaičius.

Dėl šios užduoties, Y yra tiems, kurie ginčijami darbuotojai, ir įtakos veiksnys - atlyginimas, kad x yra žymimi X.

Naudojant "Excel" stalo procesoriaus galimybes

Regresijos analizė "Excel" turėtų būti pateiktas taikymas esamiems stalo duomenims su integruotomis funkcijomis. Tačiau šiais tikslais geriau naudoti labai naudingą antstato "analizės paketą". Norėdami jį suaktyvinti, jums reikia:

  • iš skirtuko failo, eikite į skyrių "Parameters";
  • atsidariame lange pasirinkite eilutę "antstato" eilutę;
  • spustelėkite toliau pateiktą "Eiti mygtuką" į dešinę nuo eilutės "valdymo";
  • Įdėkite pažymėjimą šalia pavadinimo "Analizės paketu" ir patvirtinkite savo veiksmus spustelėję Gerai.

Jei viskas daroma teisingai, dešinėje pusėje "Duomenų" skirtuko, esantis virš darbo vietos "Excel", pasirodys norimas mygtukas.

Excel.

Dabar, kai turite visus reikalingus virtualius įrankius ekonometriniams skaičiavimams įgyvendinti, mes galime tęsti išspręsti savo užduotį. Už tai:

  • spustelėkite mygtuką "Duomenų analizė";
  • atidarant langą spustelėkite mygtuką "Regresija";
  • pasirodo skirtuke įvesime Y vertes spektrą (panaikintų darbuotojų skaičių) ir X (jų atlyginimai);
  • patvirtinkite savo veiksmus paspausdami mygtuką "OK".

Kaip rezultatas, programa bus automatiškai užpildyti naują lentelės procesoriaus lapą su regresijos analizės duomenimis. Pastaba! "Excel" turi galimybę savarankiškai paprašyti šios paskirties vietos. Pavyzdžiui, tai gali būti tas pats lapas, kai vertės yra y ir x arba net nauja knyga, specialiai sukurta laikyti tokius duomenis.

R kviotymo regresijos rezultatų analizė

Excel, duomenys, gauti per nagrinėjamus duomenis, atrodo, yra:

Visų pirma, turėtumėte atkreipti dėmesį į R kvadrato vertę. Tai yra nustatymo koeficientas. Šiame pavyzdyje R-Square \u003d 0,755 (75,5%), t.y. Apskaičiuoti parametrai modelio paaiškinti tarp apsvarstytų parametrų santykį 75,5%. Kuo didesnė nustatymo koeficiento vertė, pasirinktas modelis yra labiau taikomas tam tikros užduoties. Manoma, kad ji teisingai apibūdina tikrąją situaciją su R kvadrato verte virš 0,8. Jei r kvadratas<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Koeficientų analizė

Numeris 64,1428 rodo, kas bus y, jei visi kintamieji XI modelyje mes iš naujo. Kitaip tariant, galima teigti, kad analizuojamo parametro vertė taip pat turi įtakos kitiems konkrečiame modelyje aprašytam veiksniams.

B18 ląstelėje esanti koeficientas -0.16285 rodo kintamojo X poveikio svorį Y. Tai reiškia, kad vidutinis mėnesinis darbuotojų darbo užmokestis per nagrinėjamąjį modelį paveikia -0,16285, ty, ty Jo įtakos laipsnis yra nedidelis. Ženklas "-" nurodo, kad koeficientas turi neigiamą vertę. Tai akivaizdu, nes visi žino, kad daugiau atlyginimų įmonėje, tuo mažiau žmonės išreiškia norą nutraukti darbo sutartį arba atleisti.

Kelių regresijos

Pagal tokį terminą suprantama kaip bendravimo lygtis su keliais nepriklausomais formų kintamaisiais:

y \u003d f (x 1 + x 2 + ... x m) + ε, kur y yra gauta bruožas (priklausomas kintamasis) ir x 1, x 2, ... x m yra veiksnių požymiai (nepriklausomi kintamieji).

Parametrų vertinimas

Dėl kelių regresijos (MR) jis atliekamas naudojant mažiausių kvadratų (MNC) metodą. Linijinių lygčių formos y \u003d a + b 1 x 1 + ... + b m x m + ε mes statome normalių lygčių sistemą (žr žemiau)

Suprasti metodo principą, apsvarstykite dviejų koeficiento atvejį. Tada mes turime situaciją, aprašytą formulėje

Iš čia mes gauname:

kur σ yra atitinkamos funkcijos dispersija, atsispindi indekse.

MNK taikoma J. lygimui standartizuotu mastu. Šiuo atveju mes gauname lygtį:

kurioje t y, t x 1, ... t xm yra standartizuoti kintamieji, kuriems vidutinės vertės yra 0; β I yra standartizuoti regresijos koeficientai, o standartinis nuokrypis yra 1.

Atkreipkite dėmesį, kad visa tai i Šiuo atveju yra nurodyta kaip normalizuota ir centralizuota, todėl jų palyginimas laikomas teisingu ir priimtinu. Be to, jis yra įprasta atlikti veiksnių skirtumus, išmesti mažiausias βi vertybes.

Užduotis naudojant linijinę regresijos lygtį

Tarkime, yra konkretaus produkto kainos dinamikos dinamika per pastaruosius 8 mėnesius. Būtina nuspręsti dėl galimybių įsigyti savo partiją už 1850 rublių / t kainą.

mėnesio skaičius

vardas

produkto kaina N.

1750 rublių už toną

1755 rublių už toną

1767 rublių už toną

1760 rublių už toną

1770 rublių už toną

1790 rublių už toną

1810 rublių už toną

1840 rublių už toną

Norėdami išspręsti šią užduotį "Excel" lentelės procesoriuje, reikia naudoti pirmiau pateiktą "duomenų analizės" įrankį. Toliau pasirinkite skyrių "Regresija" ir nustatykite parametrus. Reikia nepamiršti, kad priklausomo kintamojo verčių asortimentas turi būti įvesta į "Įvesties įvesties intervalo y" (šiuo atveju prekių kaina konkrečiais mėnesiais), o "Įvesties intervalo X" - už nepriklausomas (mėnesio skaičius). Patvirtinkite veiksmus paspausdami OK. Naujame lape (jei tai buvo nurodyta) gauname regresijos duomenis.

Mes statome linijinę lygtį Y \u003d AX + B, kur mėnesio ir koeficientų ir linijų "Y-sankryžos" santykis nuo lapo su regresijos analizės rezultatais išsikiša kaip A ir B parametrai Taigi, regresijos linijinė lygtis (UR) 3 užduoties yra parašyta forma:

Kaina į produktą n \u003d 11,714 * mėnuo mėnuo + 1727.54.

arba algebrine žymime

y \u003d 11,714 x + 1727,54

Rezultatų analizė

Nuspręsti, ar gautos linijinės regresijos lygtys yra tinkamai, daugialypės koreliacijos koeficientai (KMK) ir nustatymo, taip pat žvejybos kriterijus ir studento kriterijus. Lentelėje "Excel" su regresijos rezultatais jie veikia kaip kelis R, R kvadrato, F-statistikos ir T-statistikos, atitinkamai.

KMK R leidžia įvertinti tikimybės ryšį tarp nepriklausomų ir priklausomų kintamųjų. Jo didelė vertė rodo pakankamai tvirtą ryšį tarp kintamųjų "mėnesio skaičiaus" ir "produkto N rublių kaina už 1 toną." Tačiau šio ryšio pobūdis išlieka nežinomas.

Nusistovėjusio koeficiento R2 (RI) kvadratas yra skaitinė visų sklaidos dalis ir parodo, kokios eksperimentinių duomenų dalis, t.y. Priklausomo kintamojo vertės atitinka linijinę regresijos lygtį. Atsižvelgiant į nagrinėjamą problemą, ši vertė yra 84,8%, t.y., statistiniai duomenys, turintys didelį tikslumą, aprašyti arba gauta.

F-statistika, taip pat vadinama Fisher kriterijumi, yra naudojamas siekiant įvertinti linijinės priklausomybės svarbą, paneigti arba patvirtinti jo egzistavimo hipotezę.

(Studentų kriterijus) padeda įvertinti nežinomo ar laisvo linijinės priklausomybės narės koeficiento reikšmę. Jei T-kriterijaus vertė yra\u003e T, laisvos linijinės lygties nario nereikšmingumo hipotezė atmetama.

NEMOKAMAI NEMOKAMAI NEMOKAMAI NARAI, naudojant "Excel" įrankius, jis buvo gautas, kad t \u003d 169,20903 ir p \u003d 2.89e-12, ty mes turime nulinę tikimybę, kad teisinga hipotezė nežymi narys bus atmestas. Už koeficientą nežinomam t \u003d 5,79405 ir p \u003d 0,001158. Kitaip tariant, tikėtina, kad teisinga koeficiento nereikšmingumo hipotezė yra atmesta nežinomu, yra 0,12%.

Taigi galima teigti, kad gauta linijinės regresijos lygtis yra tinkamai.

Užduotis dėl akcijų paketo įsigijimo galimybių

Keli regresija "Excel" atliekamas naudojant visą "duomenų analizės" įrankį. Apsvarstyti konkrečią taikomą užduotį.

Valdymo įmonė "NNN" turėtų nuspręsti, kaip įsigyti 20% akcijų MMM UAB. Pakuotės kaina (SP) yra 70 mln. JAV dolerių. Specialistai "NNN" surinko duomenis apie panašius sandorius. Buvo nuspręsta įvertinti tokių parametrų kaštų išlaidas, išreikštas milijonais Amerikos dolerių, kaip:

  • mokėtinos sumos (VK);
  • metinės apyvartos apimtis (VO);
  • gautinos sumos (VD);
  • ilgalaikio turto sąnaudos (SOF).

Be to, naudojama darbo užmokesčio įmonės (V3 P) gyvenvietė tūkstančiais JAV dolerių.

Sprendimo įrankiai stalo procesoriui Excel

Visų pirma, jums reikia pateikti šaltinių duomenų lentelę. Ji turi tokią formą:

  • skambinkite langą "Duomenų analizė";
  • pasirinkite skyrių "Regresija";
  • "Įvesties intervalo Y" lange įvedami įvairūs priklausomi kintamieji nuo g kolonėlės;
  • spustelėkite piktogramą su raudona rodykle į lango "Įvesties intervalo X" dešinėje ir paskirstykite visų verčių diapazoną nuo B, C, D, F.

Elementas "Naujas darbo sąrašas" ir spustelėkite "Gerai".

Gauti šios užduoties analizę.

Rezultatų ir išvadų tyrimas

"Surinkite" nuo apvalintų duomenų, pateiktų pirmiau pateiktame lentelės procesoriaus "Excel", regresijos lygtis:

SP \u003d 0,103 * SOF + 0,541 * VO - 0,031 * VK + 0,405 * VD + 0,691 * VZP - 265,844.

Labiau pažįstama matematinė forma, ji gali būti parašyta kaip:

y \u003d 0,103 * x1 + 0,541 * x2 - 0,031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Duomenys MMM UAB pateikiami lentelėje:

Pakeitus juos į regresijos lygtį, jie gauna 64,72 mln. JAV dolerių figūrą. Tai reiškia, kad MMM UAB akcijos neturėtų būti perkamos, nes jų kaina 70 milijonų JAV dolerių yra pakankamai pervertinta.

Kaip matome, "Excel" stalo procesoriaus ir regresijos lygčių naudojimas leido priimti pagrįstą sprendimą dėl visiškai konkretaus sandorio įgyvendinamumo.

Dabar žinote, kokia yra regresija. Pirmiau aptartos "Excel" pavyzdžiai padės jums išspręsti praktines užduotis nuo ekonometrijos srities.

Regresijos analizė yra viena iš labiausiai pageidaujamų metodų statistinių tyrimų. Su juo galima nustatyti nepriklausomų verčių įtakos priklausomam kintamam asmeniui laipsnį. "Microsoft Excel" funkcionalumas turi panašaus tipo analizės tipą. Analizuosime, kad jie atstovauja save ir kaip juos naudoti.

Tačiau, norint naudoti funkciją, leidžiančią atlikti regresijos analizę, pirmiausia, reikia aktyvuoti analizės paketą. Tik tada šiam procedūrai reikalingi įrankiai bus rodomi tremtyje.


Dabar, kai pereisime prie skirtuko "Duomenys"ant prietaiso bloko juostelės "Analizė" Matysime naują mygtuką - "Duomenų analizė".

Regresijos analizės rūšys

Yra keletas regresijų tipų:

  • parabolinis;
  • galia;
  • logaritminis;
  • eksponentinis;
  • orientacinė;
  • hiperbolinis;
  • tiesinė regresija.

Daugiau kalbėsime apie paskutinio tipo regresijos analizės įgyvendinimą "Excele".

Linijinė regresija "Excel" programoje

Pavyzdžiui, pateikiama lentelė, kurioje nurodoma vidutinė dienos oro temperatūra gatvėje ir nurodoma parduotuvių pirkėjų skaičius atitinkamam darbo dienai. Išsiaiškinkime su regresijos analize pagalba, tiksliai, kaip oro sąlygos oro temperatūros forma gali turėti įtakos komercinės įstaigos dalyvavimui.

Bendra linijinių rūšių regresijos lygybė yra tokia: y \u003d a0 + a1x1 + ... + AKK. Šioje formulėje. \\ T Y. reiškia kintamąjį, veiksnių įtaką, kuriam bandėme ištirti. Mūsų atveju tai yra pirkėjų skaičius. Vertė x. - Tai yra įvairūs veiksniai, turintys įtakos kintamąjį. Parametrai a. Yra regresijos koeficientai. Tai yra, tai yra tie, kurie nustato tam tikro veiksnio svarbą. Indeksas k. Nurodo bendrą šių veiksnių skaičių.


Analizės analizė

Regresijos analizės rezultatai rodomi lentelės formoje nustatytuose nustatytuose vietoje.

Vienas iš pagrindinių rodiklių yra R kvadrato. Tai rodo modelio kokybę. Mūsų atveju šis koeficientas yra 0,705 arba apie 70,5%. Tai yra priimtinas kokybės lygis. Priklausomybė yra mažesnė nei 0,5 yra bloga.

Kitas svarbus rodiklis yra sankryžos linijoje ląstelėje "Y-sankryžos" ir stulpelis "Faktoriai". Jame nurodoma, kokia vertė bus y, ir mūsų atveju tai yra pirkėjų skaičius, su visais kitais veiksniais, lygiais nuliui. Ši lentelė yra 58,04 šioje lentelėje.

Vertę grafiko sankirtoje "Kintamasis x1" ir. \\ T "Faktoriai" Rodo Y lygį, priklausomai nuo X. Mūsų atveju, tai yra priklausomybės nuo parduotuvių klientų skaičius nuo temperatūros lygio. 1.31 koeficientas laikomas gana aukštu poveikio rodikliu.

Kaip matote, naudojant "Microsoft Excel" programą yra gana lengva padaryti regresijos analizės lentelę. Tačiau dirbti su duomenimis, gautais pasitraukimu ir suprasti jų esmę, galės tik paruoštas asmuo.


Uždaryti