Kabuuang kinalabasan

Talahanayan 8.3a. Mga istatistika ng pagbabalik
Mga istatistika ng pagbabalik
Maramihang R. 0,998364
R-square 0,99673
Normal r-square 0,996321
Karaniwang error 0,42405
Mga obserbasyon 10

Una, isaalang-alang ang itaas na bahagi ng mga kalkulasyon, iniharap sa talahanayan 8.3a, ay mga istatistika ng pagbabalik.

Ang halaga ng R-Square, na tinatawag ding isang sukatan ng katiyakan, ay nagpapakilala sa kalidad ng nakuha na direktang pagbabalik. Ang kalidad na ito ay ipinahayag sa antas ng pagsang-ayon sa pagitan ng pinagmulan ng data at ang modelo ng pagbabalik (kinakalkula data). Ang sukatan ng katiyakan ay palaging nasa loob ng agwat.

Sa karamihan ng mga kaso, ang halaga ng R-Square ay nasa pagitan ng mga halagang ito, na tinatawag na Extreme, I.e. Sa pagitan ng zero at yunit.

Kung ang halaga ng R-Square ay malapit sa isa, nangangahulugan ito na ang constructed na modelo ay nagpapaliwanag ng halos lahat ng pagkakaiba-iba ng mga kaukulang variable. Sa kabaligtaran, ang halaga ng R-square, malapit sa zero, ay nangangahulugan ng mahinang kalidad ng itinayo na modelo.

Sa aming halimbawa, ang sukatan ng katiyakan ay 0.99673, na nagpapahiwatig ng isang napakahusay na angkop na regisyon direktang sa unang data.

Maramihang R. - Ang maramihang corelation koepisyent R - ay nagpapahayag ng antas ng pagtitiwala ng mga independiyenteng variable (X) at ang dependent variable (Y).

Maramihang R ay katumbas ng square root mula sa coefficient ng pagpapasiya, ang halaga na ito ay tumatagal ng mga halaga sa hanay mula sa zero sa isa.

Sa simpleng linear regression analysis, ang maramihang R ay katumbas ng Pearson Correlation Coefficient. Sa katunayan, ang maramihang R sa aming kaso ay katumbas ng koepisyent ng Pearson Correlation mula sa nakaraang halimbawa (0.998364).

Talahanayan 8.3b. Mga coefficients ng pag-urong.
Mga kadahilanan Karaniwang error t-istatistika
Y-crossing. 2,694545455 0,33176878 8,121757129
Variable x 1. 2,305454545 0,04668634 49,38177965
* Ang isang pinutol na opsyon sa pagkalkula ay ibinigay.

Ngayon isaalang-alang ang gitnang bahagi ng mga kalkulasyon, iniharap sa talahanayan 8.3b. Regression koepisyent B (2.305454545) at ang offset kasama ang ordinate axis, i.e. Pare-pareho ang isang (2,694545455).

Batay sa mga kalkulasyon, maaari naming isulat ang equation ng pagbabalik sa ganitong paraan:

Y \u003d x * 2,305454545 + 2,694545455.

Ang direksyon ng komunikasyon sa pagitan ng mga variable ay tinutukoy batay sa mga palatandaan (negatibo o positibo) mga coefficients ng pag-urong. (koepisyent b).

Kung ang sign ay urong koepisyent. - Positibo, ang kaugnayan ng dependent variable na may independiyenteng magiging positibo. Sa aming kaso, ang koepisyent ng pagbabalik ay positibo, samakatuwid, ang koneksyon ay positibo rin.

Kung ang sign ay urong koepisyent. - Negatibo, ang relasyon ng dependent variable na may independiyenteng ay negatibo (reverse).

Talahanayan 8.3b. Ang mga resulta ng output ng residues ay iniharap. Upang lumitaw ang mga resultang ito sa ulat, kinakailangan upang maisaaktibo ang checkbox na "labi" kapag nagsisimula ang tool na "pagbabalik".

Katapusan Residue.

Talahanayan 8.3b. Residues.
Pagmamasid Hinulaang y. Residues. Standard Residues.
1 9,610909091 -0,610909091 -1,528044662
2 7,305454545 -0,305454545 -0,764022331
3 11,91636364 0,083636364 0,209196591
4 14,22181818 0,778181818 1,946437843
5 16,52727273 0,472727273 1,182415512
6 18,83272727 0,167272727 0,418393181
7 21,13818182 -0,138181818 -0,34562915
8 23,44363636 -0,043636364 -0,109146047
9 25,74909091 -0,149090909 -0,372915662
10 28,05454545 -0,254545455 -0,636685276

Sa bahaging ito ng ulat, maaari naming makita ang mga deviation ng bawat punto mula sa constructed regression line. Ang pinakamalaking absolute value.

Pagsusuri ng pagbabalik - Paraan ng pagmomodelo sa sinusukat data at pag-aaral ng kanilang mga ari-arian. Ang data ay binubuo ng mga halaga ng singaw dependent variable. (variable ng tugon) at independiyenteng variable (nagpapaliwanag ng variable). Ang modelo ng pagbabalik ay ang pag-andar ng isang independiyenteng variable at parameter na may dagdag na random na variable. Ang mga parameter ng modelo ay naka-configure sa isang paraan na ang modelo ay pinakamahusay na nagdudulot ng data. Ang criterion para sa kalidad ng approximation (target function) ay karaniwang ang karaniwang error: ang kabuuan ng mga parisukat ng pagkakaiba pattern ng mga halaga ng modelo at ang dependent variable para sa lahat ng mga halaga ng malayang variable bilang isang argumento. Pagsusuri ng pagbabalik - seksyon ng mga istatistika ng matematika at pag-aaral ng makina. Ipinapalagay na ang dependent variable ay ang kabuuan ng mga halaga ng isang tiyak na modelo at random na variable. Tungkol sa likas na katangian ng pamamahagi ng magnitude na ito, ang mga pagpapalagay ay ginawa, na tinatawag na teorya ng henerasyon ng data. Upang kumpirmahin o i-refutate ang teorya na ito, ginagawa ang mga statistical test, na tinatawag na residue analysis. Ipinapalagay nito na ang isang independiyenteng variable ay hindi naglalaman ng mga error. Ang pagtatasa ng pagbabalik ay ginagamit upang mahulaan, pag-aaral ng serye ng oras, pagsubok ng mga hypotheses at tukuyin ang mga nakatagong interconnections sa data.

Kahulugan ng pagtatasa ng pagbabalik

Ang sample ay maaaring hindi isang function, ngunit isang saloobin. Halimbawa, ang data para sa pagtatayo ng pagbabalik ay maaaring tulad :. Sa ganitong sample, ang isang halaga ng variable ay tumutugma sa ilang mga variable na halaga.

Linear regression.

Ipinapalagay ng linear regression na ang function ay depende sa mga parameter linearly. Sa kasong ito, ang linear dependence sa libreng variable ay opsyonal,

Sa kaso kapag ang linear regression tampok ay.

narito ang mga bahagi ng vector.

Ang mga halaga ng mga parameter sa kaso ng linear regression ay matatagpuan gamit ang hindi bababa sa paraan ng parisukat. Ang paggamit ng pamamaraang ito ay pinatutunayan ng palagay ng pamamahagi ng Gaussian ng isang random na variable.

Ang mga pagkakaiba sa pagitan ng mga aktwal na halaga ng dependent variable at naibalik ay tinatawag na rESIDES RESIDES. (Residuals). Ang mga kasingkahulugan ay ginagamit din sa panitikan: sustiso at mGA ERRORS.. Ang isa sa mga mahahalagang pagtatantya ng criterion ng kalidad na nakuha ang pagtitiwala ay ang kabuuan ng mga parisukat ng mga residues:

Dito - kabuuan ng mga error na squared.

Ang pagpapakalat ng mga residues ay kinakalkula ng formula

Narito - Mean square error, ang karaniwang error.

Ang mga graph ay nagpapakita ng mga sample na ipinahiwatig ng mga asul na tuldok, at mga dependency ng pagbabalik na ipinahiwatig ng mga solidong linya. Sa abscissa axis, ang isang libreng variable ay ipinagpaliban, at kasama ang ordinate axis - umaasa. Ang lahat ng tatlong dependency ay linear na may kaugnayan sa mga parameter.

Nonlinear regression.

Nonlinear regression models - mga modelo ng form.

na hindi maaaring katawanin bilang isang produkto ng scalar.

kung saan - ang mga parameter ng modelo ng pagbabalik, ay isang libreng variable mula sa espasyo, isang dependent variable, - isang random na halaga at isang function mula sa isang set set.

Ang mga halaga ng mga parameter sa kaso ng nonlinear regression ay natagpuan gamit ang isa sa mga pamamaraan ng gradient descent, halimbawa, ang Levenberg-Marquardt algorithm.

Tungkol sa mga tuntunin

Ang terminong "pagbabalik" ay ipinakilala ni Francis Galton sa pagtatapos ng ika-19 na siglo. Natuklasan ni Galton na ang mga anak ng mga magulang na may mataas o mababang paglago ay karaniwang hindi nagmamay-ari ng isang natitirang paglago at tinatawag na hindi pangkaraniwang bagay na ito "pagbabalik sa pagiging kasinungalingan." Sa una, ang terminong ito ay eksklusibo na ginagamit sa biological na kahulugan. Matapos ang mga gawa ni Charles Pearson, ang terminong ito ay nagsimulang gamitin at sa mga istatistika.

Sa statistical literatura makilala ang pagbabalik sa paglahok ng isang libreng variable at may ilang mga libreng variable - isang-dimensional. at multidimensional. pagbabalik. Ipinapalagay na gumagamit kami ng ilang mga libreng variable, iyon ay, isang libreng variable - vector. Sa partikular na mga kaso, kapag ang libreng variable ay isang scalar, ito ay itinalaga. Makilala linear at nonlinear. pagbabalik. Kung ang modelo ng pagbabalik ay hindi isang linear na kumbinasyon ng mga function mula sa mga parameter, pinag-uusapan nila ang tungkol sa nonlinear regression. Kasabay nito, ang modelo ay maaaring isang di-makatwirang superposisyon ng mga function mula sa ilang hanay. Ang mga nonlinear na modelo ay, pagpaparami, trigonometriko at iba pa (halimbawa, mga function ng radial na batayan o Penspond Rosenblatt), na nagtatalaga ng relasyon sa pagitan ng mga parameter at ang dependent variable nonlinear.

Makilala parametric at non-parametric pagbabalik. Mahigpit na hangganan sa pagitan ng dalawang uri ng mga regressions ay mahirap gastusin. Ngayon walang karaniwang tinatanggap na pamantayan para makilala ang isang uri ng mga modelo mula sa iba. Halimbawa, pinaniniwalaan na ang mga linear na modelo ay parametric, at mga modelo na kasama ang pag-average ng dependent variable sa puwang ng isang libreng variable-notparametric. Isang halimbawa ng isang modelo ng parametric regression: isang linear predictor, isang multilayer perceptron. Mga halimbawa ng isang mixed na modelo ng pagbabalik: mga function ng radial base. Ang di-parametric na modelo ay isang sliding averaging sa window ng ilang lapad. Sa pangkalahatan, di-parametric regression ay naiiba mula sa parametric sa na ang dependent variable ay depende hindi mula sa isang halaga ng isang libreng variable, ngunit mula sa isang tiyak na ipinakita kapitbahayan ng halaga na ito.

May pagkakaiba sa pagitan ng mga termino: "approximation of function", "approximation", "interpolation", at "regression". Ito ay ang mga sumusunod.

Approximation ng mga function. Ang pag-andar ng isang discrete o tuloy-tuloy na argumento ay ibinigay. Kinakailangan upang makahanap ng isang function mula sa ilang mga parametric pamilya, halimbawa, bukod sa algebraic polynomials ng isang degree. Ang mga parameter ng function ay dapat maghatid ng minimum na ilang pag-andar, halimbawa,

Termino approximation. - Kasingkahulugan para sa terminong "approximation ng mga function". Ito ay mas madalas na ginagamit pagdating sa isang naibigay na function bilang function ng discrete argument. Kinakailangan din nito na makahanap ng ganitong function na nagaganap na pinakamalapit sa lahat ng mga punto ng tinukoy na function. Sa kasong ito, ipinakilala ang konsepto sustiso - Mga distansya sa pagitan ng mga tuldok ng tuluy-tuloy na pag-andar at kaukulang mga punto ng pag-andar ng discrete argument.

Pag-aapoy mga function - isang espesyal na kaso ng gawain ng approximation, kapag kinakailangan upang maging sa ilang mga punto, tinatawag mga node ng interpolation. Ang mga halaga ng pag-andar at ang papalapit na pag-andar ay nag-tutugma. Sa isang mas pangkalahatang kaso, ang mga paghihigpit sa mga halaga ng ilang derivatives ay ipinapataw. Iyon ay, ang pag-andar ng discrete argument ay ibinigay. Kinakailangan na mahanap ang gayong pag-andar na dumadaan sa lahat ng mga punto. Sa kasong ito, ang sukatan ay karaniwang hindi ginagamit, gayunpaman, ang konsepto ng "kinis" ay madalas na ipinakilala.

Ang layunin ng pagtatasa ng pagbabalik ay upang masukat ang koneksyon sa pagitan ng dependent variable at isa (ipinares na pagtatasa ng pagbabalik) o ilang (maramihang) mga independiyenteng variable. Ang mga independiyenteng variable ay tinatawag ding kadahilanan, nagpapaliwanag, pagtukoy, regressors at predictors.

Ang dependent variable ay minsan tinutukoy bilang ang tinukoy na ipinaliwanag, "tugon". Ang labis na laganap na pagtatasa ng pagbabalik sa mga empirical na pag-aaral ay hindi lamang nauugnay sa katotohanan na ito ay isang maginhawang testing tool hypotheses. Ang pagbabalik, lalo na ng maramihang, ay isang epektibong paraan ng pagmomolde at pagtataya.

Ang paliwanag ng mga prinsipyo ng pagtatrabaho sa pagtatasa ng pagbabalik ay magsisimula sa isang mas simpleng paraan ng pares.

Paired Regression Analysis.

Ang unang pagkilos na gumagamit ng pagtatasa ng pagbabalik ay halos magkapareho sa amin sa balangkas ng pagkalkula ng koepisyent ng ugnayan. Tatlong pangunahing kondisyon para sa pagiging epektibo ng pag-aaral ng ugnayan gamit ang Pearson na paraan - ang normal na pamamahagi ng mga variable, pagsukat ng agwat ng mga variable, linear bond sa pagitan ng mga variable ay may kaugnayan para sa maraming pagbabalik. Alinsunod dito, sa unang yugto, ang mga diagram ng pagsabog ay binuo, ang isang istatistika na naglalarawan ng pagtatasa ng mga variable ay isinasagawa at ang linya ng pagbabalik ay kinakalkula. Tulad ng balangkas ng pag-aaral ng ugnayan, ang mga linya ng pagbabalik ay itinayo ng pinakamaliit na paraan ng parisukat.

Upang mas malinaw na ilarawan ang mga pagkakaiba sa pagitan ng dalawang paraan ng pagtatasa ng data, binabaling namin ang itinuturing na halimbawa sa mga variable na "suporta ng ATP" at "bahagi ng populasyon ng kanayunan". Ang pinagmulan ng data ay magkapareho. Ang pagkakaiba sa scattering diagram ay magiging sa pagtatasa ng pagbabalik, ang dependent variable ay tama disappointing - sa aming kaso "suporta para sa ATP" kasama ang y axis, samantalang sa pag-aaral ng ugnayan ay hindi mahalaga. Pagkatapos ng paglilinis ng mga emissions, ang scattering diagram ay:

Ang pangunahing ideya ng pagtatasa ng pagbabalik ay ang pagkakaroon ng pangkalahatang trend para sa mga variable - sa anyo ng isang linya ng pagbabalik, - maaari mong hulaan ang halaga ng dependent variable, pagkakaroon ng isang independiyenteng halaga.

Isipin ang isang maginoo matematiko linear function. Anumang direktang sa espasyo ng Euclidean ay maaaring inilarawan ng formula:

kung saan ang isang ay isang pare-pareho na nagtatakda ng offset kasama ang axis ng ordinate; B ay isang koepisyent na tumutukoy sa anggulo ng mga linya.

Alam ang angular koepisyent at pare-pareho, maaari mong kalkulahin (hulaan) ang halaga para sa anumang x.

Ang pinakasimpleng pag-andar na ito ay nabuo ang batayan ng modelo ng pagtatasa ng pagbabalik sa reservation na ang halaga ng aming hulaan ay hindi tumpak, ngunit sa loob ng ilang agwat ng pagtitiwala, i.e. tungkol sa.

Ang pare-pareho ay ang intersection point ng linya ng pagbabalik at ang ordinate axis (F-crossing, sa statistical packages, bilang isang panuntunan, na tinutukoy ng "interceptor"). Sa aming halimbawa sa isang pagboto para sa ATP, ang bilugan na halaga ay 10.55. Ang angular koepisyent kommersant ay humigit-kumulang -0.1 (tulad ng pagtatasa ng ugnayan, ipinapakita ng tanda ang uri ng komunikasyon - direktang o reverse). Kaya, ang resultang modelo ay magkakaroon ng anyo ng joint venture c \u003d -0.1 x village. US. + 10.55.

Kaya, para sa kaso ng "Republika ng Adygea" sa pagbabahagi ng rural populasyon ng 47% ng hinulaang halaga ay 5.63:

ATP \u003d -0.10 x 47 + 10.55 \u003d 5.63.

Ang pagkakaiba sa pagitan ng paunang at hinulaang mga halaga ay tinatawag na residue (kasama ang terminong ito - na may prinsipyo para sa mga istatistika - nakaranas na kami kapag pinag-aaralan ang mga talahanayan ng conjugacy). Kaya, para sa kaso ng "Republika ng Adygea" ang nalalabi ay magiging katumbas ng 3.92 - 5.63 \u003d -1.71. Ang mas malaki ang modular na halaga ng nalalabi, mas matagumpay ang halaga ay hinulaang.

Kalkulahin ang mga hinulaang halaga at residues para sa lahat ng mga kaso:
Nangyayari Sel. US. Salamat

(paunang)

Salamat

(hinulaang)

Residues.
Republika ng Adygea. 47 3,92 5,63 -1,71 -
Altai Republic. 76 5,4 2,59 2,81
Republika ng Bashkortostan 36 6,04 6,78 -0,74
Ang Republika ng Buryatia 41 8,36 6,25 2,11
Ang Republika ng Dagestan 59 1,22 4,37 -3,15
Ang Republika ng Ingushetia. 59 0,38 4,37 3,99
Atbp.

Ang pagsusuri ng ratio ng paunang at hinulaang mga halaga ay ginagamit upang masuri ang kalidad ng modelo na nakuha, ang kakayahan nito sa prognostic. Ang isa sa mga pangunahing tagapagpahiwatig ng mga istatistika ng pagbabalik ay ang maramihang koepisyent ng ugnayan ng R - ang koepisyent ng ugnayan sa pagitan ng paunang at hinulaang mga halaga ng dependent variable. Sa pares ng pagtatasa ng pagbabalik, katumbas ito ng karaniwang koepisyent ng ugnayan ng Peonon sa pagitan ng umaasa at malayang variable, sa aming kaso - 0.63. Upang mabigyang-kahulugan ang maramihang R, dapat itong ma-convert sa coefficient ng pagpapasiya. Ginagawa ito sa parehong paraan tulad ng sa pag-aaral ng ugnayan - ang pagtatayo ng parisukat. Ang determinasyon koepisyent r -kvadrat (R 2) ay nagpapakita ng proporsyon ng pagkakaiba-iba ng dependent variable, ipinaliwanag ng mga independiyenteng (malayang) mga variable.

Sa aming kaso, r 2 \u003d 0.39 (0.63 2); Nangangahulugan ito na ang variable na "bahagi ng populasyon ng kanayunan" ay nagpapaliwanag tungkol sa 40% ng pagkakaiba-iba ng pagkakaiba-iba ng "suporta para sa ATP". Ang mas malaki ang halaga ng coefficient ng pagpapasiya, mas mataas ang kalidad ng modelo.

Ang isa pang tagapagpahiwatig ng kalidad ng modelo ay isang karaniwang error sa pagtatantya (karaniwang error ng pagtatantya). Ito ay isang tagapagpahiwatig ng kung magkano ang punto ay "nakakalat" sa paligid ng linya ng pagbabalik. Ang panukalang pagkakaiba-iba para sa mga variable ng agwat ay ang karaniwang paglihis. Alinsunod dito, ang karaniwang error sa pagsusuri ay ang karaniwang paglihis ng pamamahagi ng residue. Ang mas mataas na halaga nito, mas malakas ang pagkalat at mas masahol pa ang modelo. Sa aming kaso, ang karaniwang error ay 2.18. Ito ay para sa magnitude na ito na ang aming modelo ay "mali sa average" kapag predicting ang halaga ng "suporta para sa ATP" variable.

Kasama rin sa mga istatistika ng pagbabalik ang pagtatasa ng pagpapakalat. Sa pamamagitan nito, nalaman natin: 1) Aling proporsyon ng pagkakaiba-iba (pagpapakalat) ng dependent variable ay ipinaliwanag ng isang malayang variable; 2) Aling proporsyon ng pagpapakalat ng dependent variable ay bumaba sa balanse (hindi maipaliliwanag na bahagi); 3) Ano ang saloobin ng dalawang halaga (/ "- saloobin). Ang mga istatistika ng pagpapakalat ay lalong mahalaga para sa mga pag-aaral ng sample - ipinapakita nito kung gaano kadalas ang pagkakaroon ng komunikasyon sa pagitan ng mga independiyenteng at dependent na mga variable sa pangkalahatang populasyon. Gayunpaman, para sa patuloy pananaliksik (tulad ng sa aming halimbawa), ang pag-aaral ng mga resulta ng pagtatasa ng pagpapakalat ay hindi siniyasat. Sa kasong ito, sinuri ang mga ito kung ang natukoy na statistical pattern ay sanhi ng isang pagkakataon na ito ay katangian ng kumplikadong mga kondisyon kung saan ang surveyed set ay nakatakda, ibig sabihin, hindi ang katotohanan ng resulta na nakuha para sa ilang mas malawak na pangkalahatang pinagsama-samang, at ang antas ng mga pattern nito, kalayaan mula sa di-sinasadyang epekto.

Sa aming kaso, ang mga istatistika ng pagtatasa ng pagpapakalat ay ang mga sumusunod:

Ss. df. MS. F. halaga
Regnet. 258,77 1,00 258,77 54,29 0.000000001
Kaliwa. 395,59 83,00 L, 11.
Kabuuan 654,36

F-ratio 54.29 makabuluhang sa antas ng 0.0000000001. Alinsunod dito, maaari naming confidently tanggihan ang zero hypothesis (na ang koneksyon na natuklasan namin ay random na character).

Ang isang katulad na pag-andar ay ginaganap ng criterion t, ngunit na may kaugnayan sa mga coefficients ng pagbabalik (angular at f-intersection). Sa tulong ng isang criterion / suriin namin ang teorya na sa pangkalahatang set regression coefficients ay zero. Sa aming kaso, maaari naming muli confidently itapon ang zero hypothesis.

Maramihang Pagsusuri ng Pagbabalik

Ang maramihang modelo ng pagbabalik ay halos magkapareho sa ipinares na modelo ng pagbabalik; Ang pagkakaiba lamang ay ang ilang mga independiyenteng mga variable ay sunud-sunod na kasama sa linear function:

Y \u003d b1x1 + b2x2 + ... + bpxp + a.

Kung ang mga independiyenteng mga variable ay higit sa dalawa, wala kaming pagkakataon upang makakuha ng isang visual na ideya ng kanilang koneksyon, sa pagsasaalang-alang sa maramihang pagbabalik na hindi gaanong "visual" kaysa sa steam room. Kung mayroong dalawang malayang mga variable, ang data ay kapaki-pakinabang upang ipakita sa isang three-dimensional scattering diagram. Sa mga propesyonal na statistical software packages (halimbawa, istatistika), mayroong isang pagpipilian upang i-rotate ang isang tatlong-dimensional diagram, na nagbibigay-daan sa iyo upang biswal isipin ang istraktura ng data.

Kapag nagtatrabaho sa maraming pagbabalik, sa kaibahan sa silid ng singaw, kinakailangan upang matukoy ang algorithm ng pagtatasa. Kasama sa karaniwang algorithm ang lahat ng umiiral na predictors sa huling modelo ng pagbabalik. Ang isang sunud-sunod na algorithm ay nagpapahiwatig ng isang sunud-sunod na pagsasama (pagbubukod) ng mga independiyenteng variable, batay sa kanilang paliwanag na "timbang". Ang hakbang-hakbang na paraan ay mabuti kapag maraming mga independiyenteng mga variable; Siya ay "nililinis" ang isang modelo mula sa mga lantaran na mahinang prediktor, na ginagawang mas compact at laconic.

Ang isang karagdagang kondisyon para sa katumpakan ng maramihang pagbabalik (kasama ang interminity, normalidad at linearity) ay ang kawalan ng multicollinarity - ang pagkakaroon ng malakas na mga bono ng ugnayan sa pagitan ng mga independiyenteng mga variable.

Ang interpretasyon ng maraming istatistika ng pagbabalik ay kinabibilangan ng lahat ng mga glement na itinuturing ng US para sa kaso ng pares ng pagbabalik. Bilang karagdagan, mayroong iba pang mahahalagang bahagi sa mga istatistika ng maraming pagtatasa ng pagbabalik.

Ilalarawan natin ang trabaho na may maramihang pagbabalik sa halimbawa ng pagsubok na mga hypotheses na nagpapaliwanag ng mga pagkakaiba sa aktibidad ng elektoral sa mga rehiyon ng Russia. Sa kurso ng kongkreto empirical pag-aaral, ang mga pagpapalagay ay ginawa na ang antas ng pagbabalik ng tungkulin ng botante ay nakakaapekto:

Ang pambansang kadahilanan (ang variable na "populasyon ng Russia"; ay nakaligtas bilang bahagi ng populasyon ng Ruso sa mga paksa ng Russian Federation). Ipinapalagay na ang pagtaas sa bahagi ng populasyon ng Ruso ay humahantong sa pagbawas sa aktibidad ng botante;

Ang kadahilanan ng urbanisasyon (ang variable na "populasyon ng lunsod"; ay surveyed bilang bahagi ng populasyon ng lunsod sa mga paksa ng Russian Federation, nagtrabaho na kami sa kadahilanang ito sa balangkas ng pag-aaral ng ugnayan). Ipinapalagay na ang pagtaas sa bahagi ng populasyon ng lunsod ay humahantong din sa pagbawas sa aktibidad ng botante.

Ang dependent variable - ang "intensity of electoral activity" ("asset") ay nakaligtas sa pamamagitan ng na-average na data ng hitsura ng mga rehiyon sa pederal na halalan mula 1995 hanggang 2003. Ang source table ng data para sa dalawang independiyenteng at isang dependent variable ay may sumusunod na form:

Nangyayari Mga variable.
Mga asset. Mga bundok US. Rus. US.
Republika ng Adygea. 64,92 53 68
Altai Republic. 68,60 24 60
Ang Republika ng Buryatia 60,75 59 70
Ang Republika ng Dagestan 79,92 41 9
Ang Republika ng Ingushetia. 75,05 41 23
Republika ng Kalmykia. 68,52 39 37
Karachay-circassian. 66,68 44 42
Republika ng Karelia. 61,70 73 73
Komi Republic. 59,60 74 57
Mari El Republic. 65,19 62 47

Atbp. (pagkatapos ng paglilinis ng emissions 83 kaso sa 88)

Mga istatistika na naglalarawan sa kalidad ng modelo:

1. Maramihang R \u003d 0.62; L-square \u003d 0.38. Dahil dito, ang pambansang kadahilanan at kadahilanan ng urbanisasyon ay magkakasama ipaliwanag ang tungkol sa 38% ng pagkakaiba-iba ng variable na "aktibidad ng elektoral".

2. Ang average na error ay 3.38. Ito ay kaya "ang average ay mali" ang constructed modelo kapag predicting ang antas ng hitsura.

3. / L-ratio ng ipinaliwanag at hindi maipaliliwanag pagkakaiba ay 25.2 sa antas ng 0.000000003. Ang zero hypothesis tungkol sa pagkakataon ng mga natukoy na koneksyon ay tinanggihan.

4. Criterion / para sa pare-pareho at regression coefficients ng mga variable "urban populasyon" at "russian populasyon" kahulugan sa antas ng 0.0000001; 0.00005 at 0.007, ayon sa pagkakabanggit. Ang zero hypothesis tungkol sa randomness ng coefficients ay tinanggihan.

Ang mga karagdagang kapaki-pakinabang na istatistika sa pagtatasa ng ratio ng paunang at hinulaang mga halaga ng dependent variable ay ang distansya ng Mahalabis at ang distansya ng lutuin. Ang unang - sukatan ng pagiging natatangi ng kaso (nagpapakita kung magkano ang kumbinasyon ng mga halaga ng lahat ng mga independiyenteng variable para sa isang naibigay na kaso deviates mula sa ibig sabihin ng halaga sa lahat ng mga independiyenteng variable nang sabay-sabay). Pangalawang - sukatan ng impluwensya ng kaso. Ang iba't ibang mga obserbasyon sa iba't ibang paraan ay nakakaapekto sa slope ng linya ng pagbabalik, at sa tulong ng distansya ng lutuin, maaari silang ihambing sa tagapagpahiwatig na ito. Ito ay kapaki-pakinabang kapag ang paglilinis ng emissions (ang paglabas ay maaaring kinakatawan bilang isang labis na maimpluwensyang kaso).

Sa aming halimbawa, ang Dagestan ay tumutukoy sa mga natatanging at maimpluwensyang mga kaso.

Nangyayari Pinagmulan

mga halaga

Predica.

mga halaga

Residues. Distansya

MAHALANOBIS.

Distansya
Adygea. 64,92 66,33 -1,40 0,69 0,00
Altai Republic. 68,60 69.91 -1,31 6,80 0,01
Ang Republika ng Buryatia 60,75 65,56 -4,81 0,23 0,01
Ang Republika ng Dagestan 79,92 71,01 8,91 10,57 0,44
Ang Republika ng Ingushetia. 75,05 70,21 4,84 6,73 0,08
Republika ng Kalmykia. 68,52 69,59 -1,07 4,20 0,00

Ang aktwal na modelo ng pagbabalik ay may mga sumusunod na parameter: U-intersection (constant) \u003d 75.99; B (bundok. US.) \u003d -0.1; Kommersant (Rus. US.) \u003d -0.06. Final formula:

AACIVE, \u003d -0.1 X Mountains. R + - 0.06 x rus. R + 75.99.

Maaari naming ihambing ang "paliwanag puwersa" ng mga tagahula, batay sa halaga ng koepisyent 61. Sa kasong ito, oo, dahil ang parehong mga independiyenteng mga variable ay may parehong porsyento na format. Gayunpaman, ang karamihan sa maraming regression deal sa mga variable na sinusukat sa iba't ibang mga antas (halimbawa, ang antas ng kita sa rubles at edad sa mga taon). Samakatuwid, sa pangkalahatan, upang ihambing ang mga predictive na posibilidad ng mga variable sa pamamagitan ng ratio ng regression nang hindi tama. Sa mga istatistika ng maraming pagbabalik para sa layuning ito, mayroong isang espesyal na beta koepisyent (b) kinakalkula nang hiwalay para sa bawat independiyenteng variable. Ito ay isang pribado (kinakalkula pagkatapos na isinasaalang-alang ang impluwensya ng lahat ng iba pang mga tagahula) ang koepisyent ng ugnayan ng kadahilanan at tugon at nagpapakita ng independiyenteng kontribusyon ng kadahilanan sa hula ng mga halaga ng tugon. Sa pares ng pagtatasa ng pagbabalik, ang mga coefficients ng beta para sa mga halatang kadahilanan ay katumbas ng koepisyent ng pares ng correlation sa pagitan ng umaasa at malayang variable.

Sa aming halimbawa beta (bundok. US.) \u003d -0.43, beta (rus.) \u003d -0.28. Kaya, ang parehong mga kadahilanan ay nakakaapekto sa antas ng aktibidad ng elektoral, habang ang kahalagahan ng kadahilanan ng urbanisasyon ay mas mataas kaysa sa kahalagahan ng pambansang kadahilanan. Ang pinagsama-samang impluwensya ng parehong mga kadahilanan ay tumutukoy tungkol sa 38% ng pagkakaiba-iba ng variable na "aktibidad ng elektoral" (tingnan ang L-square value).

Pagsusuri ng pagbabalik ay isang paraan ng pananaliksik sa istatistika na nagpapakita ng pag-asa ng isang parameter mula sa isa o ilang mga independiyenteng variable. Ang application ay mahirap na gamitin ito sa isang compuscript panahon, lalo na kung ito ay tungkol sa malaking halaga ng data. Ngayon, natututo kung paano bumuo ng pagbabalik sa Excel, maaari mong malutas ang kumplikadong mga gawain sa istatistika sa literal sa loob ng ilang minuto. Nasa ibaba ang mga kongkretong halimbawa mula sa larangan ng ekonomiya.

Mga uri ng pagbabalik

Ang konsepto na ito ay ipinakilala sa matematika noong 1886. Nangyayari ang pagbabalik:

  • linear;
  • parabolic;
  • kapangyarihan;
  • pagpaparami;
  • hyperbolic;
  • nagpapahiwatig;
  • logarithmic.

Halimbawa 1.

Isaalang-alang ang gawain ng pagtukoy ng pag-asa ng bilang ng mga taong napapatay ng mga miyembro ng koponan mula sa average na suweldo sa 6 pang-industriya na negosyo.

Isang gawain. Sa anim na negosyo na pinag-aralan ang average na buwanang pasahod at ang bilang ng mga empleyado na huminto sa kanilang sariling kahilingan. Sa tabular form na mayroon kami:

Ang bilang ng kupas

Ang suweldo

30000 rubles.

35,000 rubles.

40000 rubles.

45,000 rubles.

50,000 rubles.

55,000 rubles.

60000 rubles.

Para sa problema ng pagtukoy ng pag-asa ng dami ng mga manggagawa na nalulula mula sa average na suweldo sa 6 na negosyo, ang modelo ng pagbabalik ay may anyo ng isang equation y \u003d A 0 + A 1 x 1 + ... + akxk, kung saan Xi ang Ang mga variable na nakakaimpluwensya, at ang mga coefficients ng pagbabalik, ay ang bilang ng mga kadahilanan.

Para sa gawaing ito, Y ay isang tagapagpahiwatig ng mga nag-aaway ng mga empleyado, at ang impluwensya ng kadahilanan - ang suweldo na X ay tinutukoy ng X.

Gamit ang mga kakayahan ng "Excel" na processor ng talahanayan

Ang pagtatasa ng pagbabalik sa Excel ay dapat na mauna sa pamamagitan ng application sa umiiral na data ng talahanayan ng built-in na mga function. Gayunpaman, para sa mga layuning ito mas mahusay na gumamit ng isang napaka-kapaki-pakinabang na superstructure "analysis package". Upang maisaaktibo ito, kailangan mo:

  • mula sa tab na file, pumunta sa seksyong "Mga Parameter";
  • sa window na bubukas, piliin ang string ng "Superstructure";
  • mag-click sa "pindutan ng Go" sa ibaba, sa kanan ng "pamamahala" ng hilera;
  • maglagay ng tsek sa tabi ng pangalan na "Pagsusuri ng Pakete" at kumpirmahin ang iyong mga aksyon sa pamamagitan ng pag-click sa OK.

Kung tama ang lahat ng bagay, sa kanang bahagi ng tab na "Data", na matatagpuan sa itaas ng workstation na "Excel", lilitaw ang nais na pindutan.

sa Excel.

Ngayon, kapag mayroon kang lahat ng mga kinakailangang virtual na tool para sa pagpapatupad ng mga kalkulasyon ng ekonometriko, maaari naming magpatuloy upang malutas ang aming gawain. Para dito:

  • mag-click sa pindutan ng "Pagsusuri ng Data";
  • sa window na bubukas, mag-click sa pindutan ng "pagbabalik";
  • sa tab na lumilitaw, ipinapasok namin ang hanay ng mga halaga para sa Y (ang bilang ng mga inalis na empleyado) at para sa X (kanilang suweldo);
  • kumpirmahin ang iyong mga aksyon sa pamamagitan ng pagpindot sa pindutan ng "OK".

Bilang resulta, ang programa ay awtomatikong punan ang isang bagong sheet ng talahanayan ng processor na may data ng pagtatasa ng pagbabalik. Tandaan! Ang Excel ay may kakayahang mag-iisa na tanungin ang lugar na gusto mo para sa layuning ito. Halimbawa, maaaring ito ay ang parehong sheet kung saan ang mga halaga ay y at x, o kahit isang bagong libro na partikular na dinisenyo upang iimbak ang naturang data.

Pagsusuri ng mga resulta ng pagbabalik para sa R-Square

Sa Excel, ang data na nakuha sa panahon ng pagproseso ng data sa ilalim ng pagsasaalang-alang ay tila:

Una sa lahat, dapat mong bigyang pansin ang halaga ng R-Square. Ito ay ang determinasyon koepisyent. Sa halimbawang ito, r-square \u003d 0.755 (75.5%), i.e. Ang kinakalkula na mga parameter ng modelo ay nagpapaliwanag ng kaugnayan sa pagitan ng mga parameter na isinasaalang-alang ng 75.5%. Kung mas mataas ang halaga ng koepisyent ng pagpapasiya, ang napiling modelo ay itinuturing na mas naaangkop para sa isang partikular na gawain. Ito ay pinaniniwalaan na ito ay tama ang naglalarawan ng aktwal na sitwasyon na may halaga ng R-square sa itaas 0.8. Kung r-square<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Pagsusuri ng mga coefficients.

Ang numero 64,1428 ay nagpapakita kung ano ang magiging Y kung ang lahat ng mga variable XI sa modelo namin ay i-reset. Sa madaling salita, maaari itong argued na ang halaga ng pinag-aralan na parameter ay nakakaapekto rin sa iba pang mga kadahilanan na hindi inilarawan sa partikular na modelo.

Ang sumusunod na koepisyent -0.16285, na matatagpuan sa B18 cell, ay nagpapakita ng bigat ng epekto ng variable X sa Y. Nangangahulugan ito na ang average na buwanang suweldo ng mga empleyado sa loob ng modelo sa ilalim ng pagsasaalang-alang ay nakakaapekto sa bilang ng -0,16285, ibig sabihin, Ang antas ng impluwensya nito ay maliit. Ang pag-sign "-" ay nagpapahiwatig na ang koepisyent ay may negatibong halaga. Ito ay halata, tulad ng alam ng lahat na ang mas suweldo sa enterprise, ang mas kaunting mga tao ay nagpapahayag ng pagnanais na wakasan ang kontrata ng trabaho o na-dismiss.

Maramihang pagbabalik

Sa ilalim ng naturang termino ay nauunawaan bilang equation ng komunikasyon sa ilang mga independiyenteng mga variable ng form:

y \u003d f (x 1 + x 2 + ... x m) + ε, kung saan ang y ay isang nagresultang tampok (dependent variable), at x 1, x 2, ... x m ay mga palatandaan ng mga kadahilanan (malayang mga variable).

Pagsusuri ng mga parameter

Para sa maraming pagbabalik (MR), isinasagawa ito gamit ang paraan ng pinakamaliit na mga parisukat (MNC). Para sa linear equation ng form y \u003d A + B 1 x 1 + ... + b m x m + ε Gumawa kami ng isang sistema ng mga normal na equation (tingnan sa ibaba)

Upang maunawaan ang prinsipyo ng pamamaraan, isaalang-alang ang isang dalawang-factor na kaso. Pagkatapos ay mayroon kaming sitwasyon na inilarawan ng formula

Mula dito nakukuha namin:

kung saan σ ay ang pagpapakalat ng kaukulang tampok na makikita sa index.

Ang MNK ay naaangkop sa isang Equation ng MR sa isang standardized scale. Sa kasong ito, nakuha namin ang equation:

kung saan t y, t x 1, ... t xm ay standardized variable na kung saan ang average na halaga ay 0; β Ako ay standardized regression coefficients, at ang standard deviation ay 1.

Mangyaring tandaan na ang lahat ng β Ako sa kasong ito ay tinukoy bilang normalized at sentralisadong, samakatuwid, ang kanilang paghahambing ay itinuturing na tama at matatanggap. Bilang karagdagan, karaniwan na magsagawa ng mga kaugalian ng mga kadahilanan, itinapon ang mga kung saan ang pinakamaliit na halaga ng βi.

Gawain gamit ang linear regression equation.

Ipagpalagay na mayroong isang talahanayan ng dinamika ng presyo ng isang partikular na produkto n sa nakalipas na 8 buwan. Ito ay kinakailangan upang magpasya sa pagiging posible ng pagkuha ng kanyang partido sa isang presyo ng 1850 rubles / t.

bilang ng buwan

pangalan ng buwan

presyo ng Produkto N.

1750 rubles per tonelada

1755 rubles per tonelada

1767 rubles per tonelada

1760 rubles bawat tonelada

1770 rubles per tonelada

1790 rubles per tonelada

1810 rubles per tonelada

1840 rubles per tonelada

Upang malutas ang gawaing ito sa Excel Table Processor, kinakailangang gamitin ang tool na "Pagsusuri ng Data" na ipinakita sa itaas. Susunod, piliin ang seksyong "pagbabalik" at itakda ang mga parameter. Dapat na tandaan na ang hanay ng mga halaga para sa dependent variable ay dapat na ipinakilala sa "Input Input Interval Y" (sa kasong ito, ang presyo ng mga kalakal sa mga partikular na buwan), at sa "Input Interval X" - para sa isang independiyenteng (bilang ng buwan). Kumpirmahin ang mga pagkilos sa pamamagitan ng pagpindot sa OK. Sa isang bagong sheet (kung ito ay ipinahiwatig) nakakuha kami ng data para sa pagbabalik.

Itinayo namin ang linear equation ng form Y \u003d AX + B, kung saan ang ratio ng bilang ng buwan at ang mga coefficients at linya na "Y-intersection" ay kumikilos bilang mga parameter A at b. Kaya, ang regression linear equation (ur) para sa Task 3 ay nakasulat sa form:

Presyo sa produkto n \u003d 11.714 * buwan buwan + 1727.54.

o sa algebraic notation.

y \u003d 11,714 x + 1727,54.

Pagsusuri ng mga resulta

Upang magpasiya kung ang mga nagresultang linear regression equation ay sapat, ang maramihang mga coefficients ng ugnayan (KMK) at determinasyon, pati na rin ang pamantayan ng Fisher at ang pamantayan ng estudyante ay ginagamit. Sa talahanayan na "Excel" sa mga resulta ng pagbabalik, kumilos sila bilang maraming R, R-Square, F-istatistika at T-istatistika, ayon sa pagkakabanggit.

Ginagawang posible ng KMK R na suriin ang pagkakalapit ng probabilistic na koneksyon sa pagitan ng mga independiyenteng at umaasa na mga variable. Ang mataas na halaga nito ay nagpapahiwatig ng sapat na malakas na koneksyon sa pagitan ng mga variable na "bilang ng buwan" at "ang presyo ng isang produkto n sa rubles bawat 1 tonelada." Gayunpaman, ang likas na katangian ng koneksyon na ito ay nananatiling hindi kilala.

Ang parisukat ng pagpapasiya koepisyent R 2 (RI) ay isang numerong katangian ng bahagi ng kabuuang scattering at nagpapakita ng scatter ng kung aling bahagi ng experimental data, i.e. Ang mga halaga ng dependent variable ay tumutugma sa linear regression equation. Sa problema sa pagsasaalang-alang, ang halaga na ito ay 84.8%, i.e., ang statistical data na may mataas na antas ng katumpakan ay inilarawan ng o nakuha.

Ang mga istatistika, na tinatawag ding pamantayan ni Fisher, ay ginagamit upang masuri ang kahalagahan ng linear na pag-asa, pagpapainit o pagkumpirma ng teorya ng pagkakaroon nito.

(Ang criterion ng mag-aaral) ay tumutulong na masuri ang kahalagahan ng koepisyent sa isang hindi kilalang o libreng miyembro ng linear na pag-asa. Kung ang halaga ng T-criterion ay\u003e t, ang teorya ng kawalan ng kabuluhan ng isang libreng miyembro ng linear equation ay tinanggihan.

Sa problema sa ilalim ng pagsasaalang-alang para sa isang libreng miyembro, gamit ang "Excel" na mga tool, ito ay nakuha na t \u003d 169,20903, at p \u003d 2.89e-12, ibig sabihin, mayroon kaming isang zero posibilidad na ang tamang teorya ng walang kabuluhan ng isang libre ang miyembro ay tatanggihan. Para sa koepisyent sa isang hindi kilalang t \u003d 5,79405, at p \u003d 0.001158. Sa madaling salita, ang posibilidad na ang tamang teorya ng kawalan ng halaga ng koepisyent ay tinanggihan sa isang hindi kilala, ay 0.12%.

Kaya, maaari itong argued na ang nagreresultang equation ng linear regression ay sapat.

Gawain sa pagiging posible ng pagbili ng isang pakete ng pagbabahagi

Maramihang pagbabalik sa Excel ay ginanap gamit ang buong "pagtatasa ng data". Isaalang-alang ang isang partikular na inilapat na gawain.

Ang kumpanya ng pamamahala "nnn" ay dapat magpasya sa pagiging posible ng pagbili ng 20% \u200b\u200btaya sa MMM JSC. Ang halaga ng package (SP) ay 70 milyong dolyar. Ang mga espesyalista na "NNN" ay nakolekta ang data sa mga katulad na transaksyon. Ito ay nagpasya na masuri ang gastos ng isang taya sa naturang mga parameter na ipinahayag sa milyun-milyong Amerikanong dolyar bilang:

  • mga account na pwedeng bayaran (VK);
  • dami ng taunang paglilipat (VO);
  • receivables (vd);
  • ang gastos ng mga fixed asset (SOF).

Bilang karagdagan, ang pag-areglo ng wage enterprise (v3 p) sa libu-libong dolyar ay ginagamit.

Mga tool sa solusyon para sa isang processor ng talahanayan Excel.

Una sa lahat, kailangan mong gumawa ng isang talahanayan ng data ng pinagmulan. Mayroon itong sumusunod na form:

  • tawagan ang window ng "Pagsusuri ng Data";
  • piliin ang seksyon na "pagbabalik";
  • sa window ng "Input Inter Y", ang isang hanay ng mga halaga ng mga dependent variable mula sa haligi G ay ipinakilala;
  • mag-click sa icon na may pulang arrow sa kanan ng window na "Input Interval X" at ilaan ang hanay ng lahat ng mga halaga mula sa mga haligi B, C, D, F.

Ang item na "Bagong listahan ng trabaho" at i-click ang "OK".

Makatanggap ng pagtatasa para sa gawaing ito.

Pag-aralan ang mga resulta at konklusyon

"Kolektahin" mula sa bilugan na data na ipinakita sa itaas sa isang sheet ng isang excel ng talahanayan ng excel, ang equation ng pagbabalik:

Sp \u003d 0.103 * sof + 0.541 * Vo - 0.031 * VK + 0.405 * vd + 0.691 * VZP - 265,844.

Sa isang mas pamilyar na form sa matematika, maaari itong isulat bilang:

y \u003d 0.103 * x1 + 0,541 * x2 - 0.031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Ang data para sa MMM JSC ay iniharap sa talahanayan:

Ang pagpapalit ng mga ito sa equation ng pagbabalik, nakatanggap sila ng figure na 64.72 milyong dolyar. Nangangahulugan ito na ang pagbabahagi ng MMM JSC ay hindi dapat bilhin, dahil ang kanilang halaga ng 70 milyong dolyar ay sapat na overestimated.

Tulad ng nakikita natin, ang paggamit ng "Excel" na processor ng talahanayan at ang mga equation ng pagbabalik ay posible na magpatibay ng makatwirang desisyon tungkol sa pagiging posible ng isang ganap na tiyak na transaksyon.

Ngayon alam mo kung ano ang pagbabalik. Ang mga halimbawa ng Excel na tinalakay sa itaas ay tutulong sa iyo sa paglutas ng mga praktikal na gawain mula sa larangan ng ekonometrics.

Ang pagtatasa ng pagbabalik ay isa sa mga pinaka-tanyag na pamamaraan ng statistical research. Sa pamamagitan nito, posible na itatag ang antas ng impluwensya ng mga independiyenteng halaga sa dependent variable. Ang pag-andar ng Microsoft Excel ay may mga tool na inilaan para sa isang katulad na uri ng pagtatasa. Pag-aralan natin na kinakatawan nila ang kanilang sarili at kung paano gamitin ang mga ito.

Ngunit, upang magamit ang isang function na nagbibigay-daan sa iyo upang isagawa ang isang pagtatasa ng pagbabalik, una sa lahat, kailangan mong i-activate ang pagtatasa ng pakete. Lamang pagkatapos ang mga tool na kinakailangan para sa pamamaraan na ito ay lilitaw sa pagpapatapon tape.


Ngayon, kapag nagpapatuloy kami sa tab "Data"sa laso sa bloke ng tool "Pagsusuri" Makakakita kami ng bagong pindutan - "Pagsusuri sa datos".

Mga uri ng pagtatasa ng pagbabalik

Mayroong ilang mga uri ng regressions:

  • parabolic;
  • kapangyarihan;
  • logarithmic;
  • pagpaparami;
  • nagpapahiwatig;
  • hyperbolic;
  • linear regression.

Mag-uusap kami nang higit pa tungkol sa pagpapatupad ng huling uri ng pagtatasa ng pagbabalik sa Excele nang higit pa.

Linear regression sa Excel program.

Sa ibaba, bilang isang halimbawa, ang isang talahanayan ay iniharap kung saan ang average na pang-araw-araw na temperatura ng hangin sa kalye, at ang bilang ng mga mamimili ng tindahan para sa naaangkop na araw ng pagtatrabaho ay ipinahiwatig. Alamin natin ang tulong ng pagtatasa ng pagbabalik, eksakto kung paano ang mga kondisyon ng panahon sa anyo ng temperatura ng hangin ay maaaring makaapekto sa pagdalo ng komersyal na institusyon.

Ang pangkalahatang equation ng pagbabalik ng mga linear species ay ang mga sumusunod: Y \u003d A0 + A1x1 + ... + AKK. Sa formula na ito Y. ay nangangahulugan ng isang variable, ang impluwensiya ng mga kadahilanan kung saan sinusubukan naming galugarin. Sa aming kaso, ito ang bilang ng mga mamimili. Halaga x. - Ang mga ito ay iba't ibang mga kadahilanan na nakakaapekto sa variable. Mga parameter a. Ay mga coefficients ng pagbabalik. Iyon ay, sila ang tumutukoy sa kahalagahan ng isang partikular na kadahilanan. Index k. Ay nagpapahiwatig ng kabuuang bilang ng mga salik na ito.


Pagsusuri ng mga resulta ng pagtatasa

Ang mga resulta ng pagtatasa ng pagbabalik ay ipinapakita sa anyo ng isang talahanayan sa lugar na ipinahiwatig sa mga setting.

Isa sa mga pangunahing tagapagpahiwatig ay R-square. Ipinapahiwatig nito ang kalidad ng modelo. Sa aming kaso, ang koepisyent na ito ay 0.705 o tungkol sa 70.5%. Ito ay isang katanggap-tanggap na antas ng kalidad. Ang pag-asa ay mas mababa sa 0.5 ay masama.

Ang isa pang mahalagang tagapagpahiwatig ay matatagpuan sa cell sa linya ng pagtawid "Y-intersection" at haligi "Mga Kadahilanan". Ipinapahiwatig nito kung anong halaga ang nasa Y, at sa aming kaso, ito ang bilang ng mga mamimili, kasama ang lahat ng iba pang mga kadahilanan na katumbas ng zero. Ang talahanayan na ito ay 58.04 sa mesa na ito.

Ang halaga sa intersection ng graph "Ang variable x1" at "Mga Kadahilanan" Ipinapakita ang antas ng Y depende sa X. Sa aming kaso, ito ay ang antas ng pagtitiwala sa bilang ng mga kliyente ng tindahan mula sa temperatura. Ang koepisyent ng 1.31 ay itinuturing na isang mataas na tagapagpahiwatig ng impluwensya.

Tulad ng makikita mo, gamit ang programa ng Microsoft Excel ito ay medyo madali upang gumawa ng isang talahanayan ng pagtatasa ng pagbabalik. Ngunit, upang gumana sa data na nakuha sa exit, at maunawaan ang kanilang kakanyahan, ang isang handa na tao ay magagawang.


Malapit