Ipoteze de analiză de regresie. Regresie în Excel: Ecuație, exemple. Regresie liniara. Analiza rezultatelor analizei

Rezultatul total

Tabelul 8.3A. Statistici de regresie.

Statistici de regresie.
Multiple R.	0,998364
R-pătrat.	0,99673
Normal r-pătrat	0,996321
Eroare standard	0,42405
Observații	10

În primul rând, luați în considerare partea superioară a calculelor, prezentată în tabelul 8.3A, este statisticile de regresie.

Valoarea R-Square, numită și o măsură de certitudine, caracterizează calitatea regresiei obținute direct. Această calitate este exprimată prin gradul de conformitate între datele sursă și modelul de regresie (date calculate). Măsura de certitudine este întotdeauna în interval.

În cele mai multe cazuri, valoarea R-Square este între aceste valori, numită Extreme, adică Între zero și unitate.

Dacă valoarea R-pătrat este aproape de una, aceasta înseamnă că modelul construit explică aproape toată variabilitatea variabilelor corespunzătoare. Dimpotrivă, valoarea R-Square, aproape de zero, înseamnă calitatea slabă a modelului construit.

În exemplul nostru, măsura de certitudine este de 0,99673, ceea ce indică o regresie foarte bună, direct la datele inițiale.

Multiple R. - Coeficientul de corelație multiplă R - exprimă gradul de dependență a variabilelor independente (x) și variabila dependentă (Y).

Mai multe R este egală cu rădăcina pătrată din coeficientul de determinare, această valoare ia valorile în intervalul de la zero la unul.

În analiza simplă de regresie liniară, multiplele R este egală cu coeficientul de corelație Pearson. Într-adevăr, mai multe r în cazul nostru este egal cu coeficientul de corelație Pearson din exemplul anterior (0,998364).

Tabelul 8.3b. Coeficienții de recesiune

	Factori	Eroare standard	t-Statistici
Y-Crossing.	2,694545455	0,33176878	8,121757129
Variabila x 1.	2,305454545	0,04668634	49,38177965
* O opțiune de calcul trunchiată este dată.

Acum, luați în considerare partea centrală a calculelor, prezentată în tabelul 8.3b. Coeficientul de regresie B (2.305454545) și offsetul de-a lungul axei ordonate, adică Constant A (2.694545455).

Pe baza calculelor, putem scrie ecuația de regresie în acest fel:

Y \u003d x * 2,305454545 + 2.694545455

Direcția de comunicare între variabile este determinată pe baza semnelor (negative sau pozitive) coeficienții de recesiune (Coeficientul B).

Dacă semnul este coeficientul de recesiune - pozitiv, relația variabilei dependente cu independent va fi pozitivă. În cazul nostru, coeficientul de regresie este pozitiv, prin urmare, conexiunea este, de asemenea, pozitivă.

Dacă semnul este coeficientul de recesiune - negativ, relația variabilei dependente cu independent este negativă (inversă).

Tabelul 8.3b. Rezultatele rezultatelor reziduurilor sunt prezentate. Pentru ca aceste rezultate să apară în raport, este necesar să se activeze caseta de selectare "rămâne" atunci când porniți instrumentul "Regresiv".

Concluzie Reziduu

Tabelul 8.3b. Reziduuri

Observare	A prezis y.	Reziduuri	Reziduuri standard.
1	9,610909091	-0,610909091	-1,528044662
2	7,305454545	-0,305454545	-0,764022331
3	11,91636364	0,083636364	0,209196591
4	14,22181818	0,778181818	1,946437843
5	16,52727273	0,472727273	1,182415512
6	18,83272727	0,167272727	0,418393181
7	21,13818182	-0,138181818	-0,34562915
8	23,44363636	-0,043636364	-0,109146047
9	25,74909091	-0,149090909	-0,372915662
10	28,05454545	-0,254545455	-0,636685276

Cu această parte a raportului, putem vedea abateri ale fiecărui punct de la linia de regresie construită. Cea mai mare valoare absolută

Analiza de regresie. - Metoda de modelare a datelor și a studiilor măsurate asupra proprietăților acestora. Datele constau din valori de abur variabilă dependentă (variabila de răspuns) și variabila independenta (Explicarea variabilei). Modelul de regresie este funcția unei variabile independente și a parametrilor cu variabila aleatorie adăugată. Parametrii modelului sunt configurați astfel încât modelul să fie cel mai bine aduce datele. Criteriul pentru calitatea armonizării (funcția țintă) este, de obicei, eroarea standard: suma pătratelor modelului de diferență a valorilor modelului și variabila dependentă pentru toate valorile variabilei independente ca argument. Analiza de regresie - Secțiunea de statistică matematică și învățarea mașinilor. Se presupune că variabila dependentă este suma valorilor unui anumit model și variabila aleatorie. În ceea ce privește natura distribuției acestei magnitudine, sunt făcute ipoteze, numite ipoteza generației de date. Pentru a confirma sau a refuza această ipoteză, se efectuează teste statistice, numite analiza reziduurilor. Se presupune că o variabilă independentă nu conține erori. Analiza de regresie este utilizată pentru a prezice, analizarea serii de timp, de testare a ipotezelor și identificarea interconexiunilor ascunse în date.

Definiția analiza de regresie

Eșantionul nu poate fi o funcție, ci o atitudine. De exemplu, datele pentru construirea regresiei pot fi astfel :. Într-o astfel de probă, o valoare a variabilei corespunde mai multor valori variabile.

Regresie liniara

Regresia liniară presupune că funcția depinde de parametrii liniar. În acest caz, dependența liniară de variabila liberă este opțională,

În cazul în care funcția de regresie liniară este

iată componentele vectorului.

Valorile parametrilor în cazul regresiei liniare se găsesc utilizând metoda celor mai mici pătrate. Utilizarea acestei metode este justificată prin ipoteza unei distribuții Gaussian a unei variabile aleatorie.

Diferențele dintre valorile reale ale variabilei dependente și restaurate sunt numite reziduuri de regresie (Reziduuri). Sinonime sunt, de asemenea, utilizate în literatură: suspect și erori. Una dintre cele mai importante estimări ale criteriului de calitate obținute dependența este suma pătratelor reziduurilor:

Aici - suma erorilor pătrate.

Dispersia reziduurilor este calculată prin formula

Aici - eroare medie pătrată, eroarea standard.

Graficele prezintă mostre indicate de puncte albastre și dependențe de regresie indicate de linii solide. Pe axa Abscisa, o variabilă liberă este amânată și de-a lungul axei ordonate - dependente. Toate cele trei dependențe sunt liniare în raport cu parametrii.

Regresie neliniară

Modele de regresie neliniare - modele de formular

care nu poate fi reprezentat ca un produs scalar

În cazul în care - parametrii modelului de regresie sunt o variabilă liberă din spațiu, o variabilă dependentă, - o valoare aleatorie și este o funcție dintr-un anumit set set.

Valorile parametrilor în cazul regresiei neliniare se găsesc utilizând una dintre metodele de coborâre a gradientului, de exemplu, algoritmul Levenberg-Marquardt.

Despre Termeni

Termenul "regresie" a fost introdus de Francis Galton la sfârșitul secolului al XIX-lea. Galton a constatat că copiii părinților cu o creștere ridicată sau scăzută, de obicei, nu moștenesc o creștere remarcabilă și numite acest fenomen "regresie la mediocreness". La început, acest termen a fost folosit exclusiv în sensul biologic. După lucrările lui Charles Pearson, acest termen a început să utilizeze și în statistici.

În literatura statistică, distinge regresia cu participarea unei variabile libere și cu mai multe variabile gratuite - unidimensional. și multidimensional. regresie. Se presupune că folosim mai multe variabile gratuite, adică un vector de variabil gratuit. În anumite cazuri, atunci când variabila liberă este scalară, va fi desemnată. Distinge liniar și neliniar regresie. Dacă modelul de regresie nu este o combinație liniară de funcții de la parametri, vorbesc despre regresia neliniară. În același timp, modelul poate fi o suprapunere arbitrară a funcțiilor de la unele seturi. Modelele neliniare sunt, exponențiale, trigonometrice și altele (de exemplu, funcții de bază radiale sau Penspond Rosenblatt), alocând relația dintre parametri și variabila dependentă neliniară.

Distinge parametric și non-parametric. regresie. Limita strictă între aceste două tipuri de regresii este dificil de cheltuit. Acum, nu există nici un criteriu general acceptat pentru a distinge un tip de modele de la celălalt. De exemplu, se crede că modelele liniare sunt parametrice și modele care includ mediere a variabilei dependente în spațiul unei variabile libere-notpentrice. Un exemplu de model de regresie parametrică: un predictor liniar, un perceptor multilativ. Exemple de model de regresie mixtă: funcții de bază radiale. Modelul non-parametric este o medie glisantă în fereastra unei lățimi. În general, regresia non-parametrică diferă de parametrică prin faptul că variabila dependentă nu depinde de o valoare a unei variabile libere, ci dintr-un anumit cartier prezentat de această valoare.

Există o distincție între termenii: "apropierea funcțiilor", "aproximarea", "interpolarea" și "regresia". Este după cum urmează.

Apropierea funcțiilor. Este dată funcția unui argument discret sau continuu. Este necesar să găsiți o funcție din partea unei familii parametrice, de exemplu, printre polinoamele algebrice ale unui anumit grad. Parametrii funcției trebuie să furnizeze minimum anumite funcționalități, de exemplu,

Termen apropiere - Sinonim pentru termenul "apropiere de funcții". Este folosit mai des atunci când vine vorba de o funcție dată ca funcție a argumentului discret. De asemenea, necesită găsirea unei astfel de funcții care are loc cea mai apropiată de toate punctele din funcția specificată. În acest caz, este introdus conceptul suspect - distanțele dintre punctele continue și punctele corespunzătoare ale funcției argumentului discret.

Interpolare funcții - un caz special al sarcinii de aproximare, atunci când este necesar să fie în anumite puncte, numit noduri de interpolare Valorile funcției și funcția de apropiere coincid. Într-un caz mai general, sunt impuse restricții privind valorile unor derivați. Adică este dată funcția argumentului discret. Este necesar să găsiți o astfel de funcție care trece prin toate punctele. În acest caz, metrica nu este de obicei utilizată, totuși, este adesea introdusă conceptul de "netezire".

Scopul analizei de regresie este de a măsura conexiunea dintre variabila dependentă și una (analiza de regresie asociată) sau mai multe variabile independente (multiple). Variabilele independente sunt, de asemenea, numite factori, explicând, definirea, regressorii și predictorii.

Variabila dependentă este uneori menționată ca fiind definită explicată, "răspunsul". Analiza de regresie extrem de răspândită în studiile empirice nu este asociată nu numai cu faptul că acesta este o ipoteză convenabilă a sculei de testare. Regresia, în special multiplu, este o metodă eficientă de modelare și prognoză.

Explicarea principiilor de lucru cu analiza de regresie va începe cu o metodă simplă de perechi.

Analiza de regresie asociată

Primele acțiuni care utilizează analiza de regresie vor fi aproape identice cu noi în cadrul calculării coeficientului de corelare. Trei condiții principale pentru eficacitatea analizei de corelare utilizând metoda Pearson - distribuția normală a variabilelor, măsurarea intervalului variabilelor, legătura liniară între variabile sunt relevante pentru regresia multiplă. În consecință, în prima etapă, se construiește diagrame de împrăștiere, se efectuează o analiză descriptivă statistic a variabilelor și se calculează linia de regresie. Ca și în cadrul analizei de corelare, liniile de regresie sunt construite de cea mai mică metodă pătrată.

Pentru a ilustra mai clar diferențele dintre cele două metode de analiză a datelor, ne îndreptăm spre exemplul deja considerat cu variabilele "sprijinul ATP" și "cota populației rurale". Datele sursă sunt identice. Diferența în diagramele de împrăștiere va fi aceea că în analiza de regresie, variabila dependentă este corect dezamăgitoare - în cazul nostru "Suport pentru ATP" de-a lungul axei Y, în timp ce în analiza de corelare nu contează. După curățarea emisiilor, diagrama de împrăștiere este:

Ideea fundamentală a analizei de regresie este aceea că având o tendință generală pentru variabile - sub forma unei linii de regresie, puteți prezice valoarea variabilei dependente, având o valoare independentă.

Imaginați-vă o funcție liniară matematică convențională. Orice director în spațiul euclidian poate fi descris prin formula:

unde A este o constantă care stabilește offsetul de-a lungul axei ordonatei; B este un coeficient care determină unghiul liniilor.

Cunoașterea coeficientului unghiular și constantă, puteți calcula valoarea (preziceți) pentru oricare x.

Această cea mai simplă funcție a constituit baza modelului de analiză a regresiei cu rezervarea că valoarea noastră vom prezice nu cu exactitate, ci într-un anumit interval de încredere, adică. despre.

Constata este punctul de intersecție al liniei de regresie și axa ordonată (F-Crossing, în pachetele statistice, de regulă, denotată de "interceptor"). În exemplul nostru cu votul pentru ATP, valoarea sa rotunjită va fi de 10,55. Coeficientul unghiular Kommersant va fi de aproximativ -0.1 (ca în analiza corelației, semnul arată tipul de comunicare - direct sau invers). Astfel, modelul rezultat va avea forma satelor de joint venture C \u003d -0.1 x. ne. + 10.55.

Deci, pentru cazul "Republicii Adygea" cu acțiunile populației rurale de 47% din valoarea previzibilă va fi de 5.63:

ATP \u003d -0,10 x 47 + 10,55 \u003d 5.63.

Diferența dintre valorile inițiale și cele mai previzionate se numește reziduul (cu acest termen - principiul de statistici - am întâlnit deja atunci când analizăm tabelele de conjugacie). Deci, pentru cazul "Republicii Adygea", reziduul va fi egal cu 3,92 - 5.63 \u003d -1.71. Cu cât valoarea modulară este mai mare a reziduului, cu atât este prevăzută valoarea mai puțin cu succes.

Calculați valorile prezise și reziduurile pentru toate cazurile:

Se întâmplă	SEL. ne.	mersi (iniţială)	mersi (prezis)	Reziduuri
Republica Adygea	47	3,92	5,63	-1,71 -
Altai Republica.	76	5,4	2,59	2,81
Republica Bashkortostan	36	6,04	6,78	-0,74
Republica Buryatia	41	8,36	6,25	2,11
Republica Dagestan	59	1,22	4,37	-3,15
Republica Ingushetia	59	0,38	4,37	3,99
Etc.

Analiza raportului dintre valorile inițiale și previzionate este utilizată pentru a evalua calitatea modelului obținut, capacitatea sa de prognostic. Unul dintre principalii indicatori ai statisticilor de regresie este coeficientul de corelație multiplă R - coeficientul de corelație dintre valorile inițiale și previzionate ale variabilei dependente. În analiza regresiei perechilor, este egală cu coeficientul obișnuit de corelație al PEONON între variabila dependentă și independentă, în cazul nostru - 0,63. Pentru a interpreta în mod substanțial mai multe r, acesta trebuie convertit în coeficientul de determinare. Acest lucru se face în același mod ca și în analiza corelației - construcția pătratului. Coeficientul de determinare R -Kvadrat (R2) prezintă proporția variației variabilei dependente, explicată de variabile independente (independente).

În cazul nostru, R2 \u003d 0,39 (0,63 2); Aceasta înseamnă că variabila "Ponderea populației rurale" explică aproximativ 40% din variația variației "suportului pentru ATP". Cu cât este mai mare valoarea coeficientului de determinare, cu atât este mai mare calitatea modelului.

Un alt indicator de calitate a modelului este o eroare de estimare standard (eroare standard de estimare). Acesta este un indicator al cât de mult este "împrăștiată" în jurul liniei de regresie. Măsura de variație pentru variabilele intervalului este deviația standard. În consecință, eroarea standard de evaluare este abaterea standard a distribuției reziduurilor. Cu cât este mai mare valoarea sa, cu atât este mai puternic răspândirea și cu atât este mai rău modelul. În cazul nostru, eroarea standard este de 2.18. Este pentru această amploare că modelul nostru va fi "greșit în medie" atunci când prezice valoarea variabilei "suport pentru ATP".

Statisticile de regresie include, de asemenea, analiza dispersiei. Cu aceasta, aflăm: 1) care proporție de variație (dispersie) a variabilei dependente este explicată de o variabilă independentă; 2) care proporția de dispersie a variabilei dependente cade pe sold (partea inexplicabilă); 3) Care este atitudinea acestor două valori (/ "atitudine). Statisticile de dispersie sunt deosebit de importante pentru studiile de eșantionare - arată cât de probabilă disponibilitatea comunicării între variabilele independente și cele dependente în populația generală. Cu toate acestea, pentru continuu Cercetare (ca și în exemplul nostru), învățarea rezultatelor analizei dispersiei nu sunt inspectate. În acest caz, acestea sunt verificate dacă modelul statistic identificat este cauzat de o coincidență că este caracteristică acelui complex de condiții în care setul intervievat este stabilită, adică nu adevărul rezultatului obținut pentru un agregat general mai larg și gradul de modele, libertatea de impact accidental.

În cazul nostru, statisticile privind analiza dispersiei sunt după cum urmează:

	SS.	dF.	DOMNIȘOARĂ.	F.	valoare
Regnetul.	258,77	1,00	258,77	54,29	0.000000001
Stânga.	395,59	83,00	L, 11.
Total	654,36

F-RATIO 54.29 semnificativ la nivelul de 0,0000000001. În consecință, putem respinge cu încredere ipoteza zero (că conexiunea pe care am descoperit-o este caracterul aleator).

O funcție similară se efectuează prin criteriul T, dar deja în legătură cu coeficienții de regresie (unghiular și intersecția F). Cu ajutorul unui criteriu / verificăm ipoteza că, în coeficienții de regresie generală, sunt zero. În cazul nostru, putem renunța cu încredere în ipoteza zero.

Analiza multiplă de regresie

Modelul de regresie multiplă este aproape identic cu modelul de regresie pereche; Singura diferență este că mai multe variabile independente sunt incluse în mod secvențial în funcția liniară:

Y \u003d b1x1 + b2x2 + ... + bpxp + a.

Dacă variabilele independente sunt mai mult de două, nu avem posibilitatea de a obține o idee vizuală despre conexiunea lor, în această privință regresia multiplă mai puțin "vizuală" decât camera de aburi. Dacă există două variabile independente, datele sunt utile pentru a fi afișate pe o diagramă de împrăștiere tridimensională. În pachetele de software statistic profesional (de exemplu, statistic), există o opțiune de a roti o diagramă tridimensională, care vă permite să vă imaginați vizual structura de date.

Când lucrați cu regresie multiplă, spre deosebire de camera de aburi, este necesar să se determine algoritmul de analiză. Algoritmul standard include toți predictorii existenți în modelul final de regresie. Un algoritm pas cu pas implică o incluziune secvențială (excepție) a variabilelor independente, pe baza "greutății" lor explicative. Metoda pas cu pas este bună atunci când există multe variabile independente; El "curăță" un model de la predictori sinceri slabi, făcându-l mai compact și laconic.

O condiție suplimentară pentru corectitudinea regresiei multiple (împreună cu intervalul, normalitatea și liniaritatea) este absența multicolinarității - prezența unor obligațiuni puternice de corelație între variabilele independente.

Interpretarea unor statistici multiple de regresie include toate glementele considerate de noi pentru cazul regresiei perechilor. În plus, există și alte componente importante în statisticile analizei de regresie multiple.

Vom ilustra munca cu regresie multiplă cu privire la exemplul de ipoteze de testare care explică diferențele în activitatea electorală în regiunile Rusiei. În cursul studiilor empirice concrete, s-au făcut ipoteze că nivelul cifrei de afaceri alegătorilor afectează:

Factorul național (variabila "populația rusă"; este supraviețuită ca pondere a populației ruse la subiecții Federației Ruse). Se presupune că creșterea ponderii populației ruse duce la o scădere a activității alegătorilor;

Factorul de urbanizare (variabila populației urbane; este chestionată ca ponderea populației urbane la subiecții Federației Ruse, am lucrat deja cu acest factor în cadrul analizei de corelare). Se presupune că o creștere a ponderii populației urbane duce, de asemenea, la o scădere a activității alegătorilor.

Variabila dependentă - "intensitatea activității electorale" ("activ") este supraviețuită prin datele medii ale apariției regiunilor în alegerile federale din 1995 până în 2003. Tabelul sursă al datelor pentru două variabile independente și dependente au următoarea formă:

Se întâmplă	Variabile
Se întâmplă	Active.	Munţi ne.	Rus. ne.
Republica Adygea	64,92	53	68
Altai Republica.	68,60	24	60
Republica Buryatia	60,75	59	70
Republica Dagestan	79,92	41	9
Republica Ingushetia	75,05	41	23
Republica Kalmykia.	68,52	39	37
Karachay-circassian	66,68	44	42
Republica Karelia	61,70	73	73
Republica Komi.	59,60	74	57
Mari El Republica.	65,19	62	47

Etc. (După curățarea emisiilor 83 de cazuri din 88)

Statistici care descriu calitatea modelului:

1. mai multe r \u003d 0,62; L-pătrat \u003d 0,38. În consecință, factorul național și factor de urbanizare explică împreună aproximativ 38% din variația variabilei "activitatea electorală".

2. Eroarea medie este de 3,38. Este așa "media este greșită" modelul construit atunci când prezice nivelul de aspect.

3. / Raportul L de variație explicată și inexplicabil este de 25,2 la nivelul de 0,000000003. Ipoteza zero despre șansa de conexiuni identificate este respinsă.

4. Criteriul / pentru coeficienții constanți și de regresie a variabilelor "populația urbană" și "populația rusă" înseamnă la nivelul de 0,0000001; 0.00005 și, respectiv, 0,007. Ipoteza zero despre randomitatea coeficienților este respinsă.

Statistici suplimentare utile în analiza raportului valorilor inițiale și previzionate ale variabilei dependente sunt distanța de Mahalabis și distanța de bucătar. Prima măsură a unicității cauzei (arată cât de mult combinația de valori ale tuturor variabilelor independente pentru un anumit cauză se abate de la valoarea medie a tuturor variabilelor independente simultan). A doua - măsura influenței cazului. Diferite observații în diferite căi afectează panta liniei de regresie și cu ajutorul distanței de bucătar, ele pot fi comparate cu acest indicator. Acest lucru este util la curățarea emisiilor (emisia poate fi reprezentată ca un caz prea influent).

În exemplul nostru, Dagstanul se referă la cazuri unice și influente.

Se întâmplă	Sursă valori	Predua. valori	Reziduuri	Distanţă Mahanobis.	Distanţă
Adygea.	64,92	66,33	-1,40	0,69	0,00
Altai Republica.	68,60	69.91	-1,31	6,80	0,01
Republica Buryatia	60,75	65,56	-4,81	0,23	0,01
Republica Dagestan	79,92	71,01	8,91	10,57	0,44
Republica Ingushetia	75,05	70,21	4,84	6,73	0,08
Republica Kalmykia.	68,52	69,59	-1,07	4,20	0,00

Modelul actual de regresie are următorii parametri: intersecția U (constantă) \u003d 75,99; B (munți. US.) \u003d -0.1; Kommersant (Rus. US.) \u003d -0,06. Formula finală:

Aaciv, \u003d -0.1 x munți. R + - 0,06 x RUS. R + 75.99.

Putem compara "Forța explicativă" a predictorilor, pe baza valorii coeficientului 61. În acest caz, da, deoarece ambele variabile independente au același format procentual. Cu toate acestea, cel mai adesea se ocupă de regresia multiplă cu variabilele măsurate în diferite scale (de exemplu, nivelul veniturilor din ruble și vârsta în anii). Prin urmare, în general, compararea posibilităților predictive ale variabilelor prin raportul de regresie incorect. În statisticile regresiei multiple în acest scop, există un coeficient de beta special (B) calculat separat pentru fiecare variabilă independentă. Este privat (calculat după luarea în considerare a influenței tuturor celorlalți predictori) coeficientul de corelare a factorului și răspunsului și prezintă contribuția independentă a factorului în predicția valorilor de răspuns. În analiza regresiei perechilor, coeficienții beta din motive evidente sunt egale cu coeficientul de corelare a perechilor între variabila dependentă și independentă.

În exemplul nostru beta (Munții, SUA) \u003d -0,43, beta (Rus. Noi) \u003d -0,28. Astfel, ambii factori afectează în mod negativ nivelul activității electorale, în timp ce semnificația factorului de urbanizare este semnificativ mai mare decât semnificația factorului național. Influența cumulativă a ambelor factori determină aproximativ 38% din variația variației "activității electorale" (vezi valoarea L-pătrată).

Analiza de regresie este o metodă de cercetare statistică care arată dependența unui parametru de la una sau mai multe variabile independente. Aplicația a fost dificil de utilizat într-o epocă a calculatorului, mai ales dacă ar fi vorba de cantități mari de date. Astăzi, învățând cum să construim regresie în Excel, puteți rezolva sarcini statistice complexe în literalmente în câteva minute. Mai jos sunt exemple concrete din domeniul economiei.

Tipuri de regresie

Acest concept a fost introdus în matematică în 1886. Regresia se întâmplă:

liniar;
parabolic;
putere;
exponențială;
hiperbolic;
indicativ;
logaritmic.

Exemplul 1.

Luați în considerare sarcina de a determina dependența numărului celor care au stins membrii echipei din salariul mediu în 6 întreprinderi industriale.

O sarcină. În cele șase întreprinderi au analizat salariul mediu lunar și numărul de angajați care au renunțat la propria lor cerere. În forma tabară avem:


		Numărul de decolorate	Salariul
			30000 de ruble
			35.000 de ruble
			40000 de ruble
			45.000 de ruble
			50.000 de ruble
			55.000 de ruble
			60000 de ruble

Pentru problema determinării dependenței de cantitatea de lucrători copleșit de salariul mediu din 6 întreprinderi, modelul de regresie are forma unei ecuații y \u003d a 0 + A 1 x 1 + ... + AKXK, unde XI este Influența variabilelor și coeficienții de regresie, AK este numărul de factori.

Pentru această sarcină, Y este un indicator al celor care au certat angajați și factorului de influență - salariul pe care X este notat de X.

Utilizarea capabilităților procesorului de masă "Excel"

Analiza de regresie în Excel ar trebui să fie precedată de aplicarea datelor de tabel existente ale funcțiilor încorporate. Cu toate acestea, în aceste scopuri este mai bine să utilizați un pachet de analiză foarte util "Pachet de analiză". Pentru ao activa, aveți nevoie de:

din fila Fișier, mergeți la secțiunea "Parametri";
În fereastra care se deschide, selectați șirul "Superstructură";
faceți clic pe butonul "Go" de mai jos, în partea dreaptă a rândului "Management";
puneți o bifă lângă numele "Pachetul de analiză" și confirmați acțiunile făcând clic pe OK.

Dacă totul se face corect, în partea dreaptă a filei "Date", situată deasupra stației de lucru "Excel", va apărea butonul dorit.

în Excel.

Acum, când aveți toate instrumentele virtuale necesare pentru implementarea calculelor econometrice, putem continua să rezolvăm sarcina noastră. Pentru aceasta:

faceți clic pe butonul "Analiza datelor";
În fereastra care se deschide, faceți clic pe butonul "Regresie";
În fila care apare, intrăm în gama de valori pentru y (numărul angajaților aboliți) și pentru X (salariile lor);
confirmați-vă acțiunile apăsând butonul "OK".

Ca rezultat, programul va completa automat o nouă foaie de procesor de tabel cu date de analiză de regresie. Notă! Excel are capacitatea de a cere independent locul pe care îl preferați în acest scop. De exemplu, poate fi aceeași foaie în care valorile sunt y și x, sau chiar o nouă carte concepută special pentru a stoca astfel de date.

Analiza rezultatelor regresiei pentru r-pătrat

În Excel, datele obținute în timpul procesării datelor avute în vedere par a fi:

În primul rând, ar trebui să acordați atenție valorii R-Square. Este coeficientul de determinare. În acest exemplu, R-Square \u003d 0,755 (75,5%), adică parametrii calculați ai modelului explică relația dintre parametrii luați în considerare cu 75,5%. Cu cât este mai mare valoarea coeficientului de determinare, modelul selectat este considerat mai aplicabil pentru o anumită sarcină. Se crede că descrie în mod corect situația actuală cu valoarea R-pătrat de mai sus 0,8. Dacă r-pătrat<0,5, то такой анализа регрессии в Excel нельзя считать резонным.

Analiza coeficienților

Numărul 64,1428 arată ceea ce va fi y dacă toate variabilele Xi în modelul suntem resetate. Cu alte cuvinte, se poate argumenta că valoarea parametrului analizat afectează, de asemenea, alți factori care nu sunt descriși în modelul specific.

Următorul coeficient -0.16285, situat în celula B18, arată greutatea efectului variabilei X pe Y. Aceasta înseamnă că salariul mediu lunar al angajaților din modelul în cauză afectează numărul de -0,16285, adică Gradul de influență este deloc mic. Semnul "-" indică faptul că coeficientul are o valoare negativă. Acest lucru este evident, deoarece toată lumea știe că mai mult salariu în întreprindere, cu atât mai puțini își exprimă dorința de a rezilia contractul de muncă sau a respins.

Regresie multiplă

Într-un astfel de termen se înțelege ca ecuația comunicării cu mai multe variabile independente ale formularului:

y \u003d f (x 1 + x 2 + ... x m) + ε, unde Y este o caracteristică rezultată (variabilă dependentă) și X1, X2, ... X M este semne de factori (variabile independente).

Evaluarea parametrilor

Pentru regresia multiplă (MR), se efectuează utilizând metoda celor mai mici pătrate (MNC). Pentru ecuațiile liniare ale formei y \u003d a + b 1 x 1 + ... + b m x m + ε construim un sistem de ecuații normale (vezi mai jos)

Pentru a înțelege principiul metodei, luați în considerare un caz cu două factori. Apoi avem situația descrisă prin formula

De aici primim:

unde σ este dispersia caracteristicilor corespunzătoare reflectată în index.

Mnk este aplicabil la o ecuație domnului într-o scară standardizată. În acest caz, primim ecuația:

În care t y, t x 1, ... t XM este variabile standardizate pentru care valorile medii sunt 0; β I este coeficienții de regresie standardizați, iar deviația standard este de 1.

Vă rugăm să rețineți că toate βM în acest caz sunt specificate ca fiind normalizate și centralizate, prin urmare, comparația lor este considerată corectă și admisibilă. În plus, este obișnuit să se efectueze diferențe de factori, aruncând cele din care cele mai mici valori ale lui βi.

Sarcină folosind ecuația de regresie liniară

Să presupunem că există un tabel de dinamică a prețului unui produs specific n în ultimele 8 luni. Este necesar să se decidă asupra fezabilității dobândirii partidului la un preț de 1850 de ruble / t.


numărul de luni	numele lunii	prețul produsului N.
		1750 de ruble pe tonă
		1755 ruble pe tonă
		1767 ruble pe tonă
		1760 de ruble pe tonă
		1770 de ruble pe tonă
		1790 de ruble pe tonă
		1810 ruble pe tonă
		1840 de ruble pe tonă

Pentru a rezolva această sarcină în procesorul de masă Excel, este necesar să se utilizeze instrumentul "Analiza datelor" prezentat mai sus. Apoi, alegeți secțiunea "Regresie" și setați parametrii. Trebuie să se reamintească faptul că gama de valori pentru variabila dependentă trebuie introdusă în "Intervalul de intrare de intrare Y" (în acest caz, prețul mărfurilor în anumite luni) și în "Intervalul de intrare X" - pentru un număr independent (număr de lună). Confirmați acțiunile apăsând OK. Pe o nouă foaie (dacă a fost indicată), obținem date pentru regresie.

Construim ecuația liniară a formei y \u003d ax + b, în \u200b\u200bcazul în care raportul dintre numărul lunii și coeficienții și liniile "intersecția Y" din foaie cu rezultatele analizei de regresie proeminen ca parametri A și B. Astfel, ecuația liniară de regresie (UR) pentru sarcina 3 este scrisă în forma:

Pret la produs N \u003d 11.714 * Luna Luna + 1727.54.

sau în notație algebrică

y \u003d 11,714 x + 1727,54

Analiza rezultatelor

Pentru a decide dacă ecuațiile de regresie liniară rezultată sunt în mod adecvat, sunt utilizate coeficienții multipli de corelare (KMK) și determinarea, precum și criteriul Fisher și criteriul elevilor. În tabelul "Excel" cu rezultatele regresiei, acestea acționează ca mai multe R, R-Square, F-Statistici și T-statistici, respectiv.

KMK R face posibilă evaluarea apropierii legăturii probabiliste între variabilele independente și cele dependente. Valoarea sa mare indică o conexiune suficient de puternică între variabilele "numărul lunii" și "prețul unui produs N în ruble pe 1 tonă". Cu toate acestea, natura acestei conexiuni rămâne necunoscută.

Piața coeficientului de determinare R2 (RI) este o caracteristică numerică a ponderii împrăștierii totale și arată împrăștierea acelei părți a datelor experimentale, adică. Valorile variabilei dependente corespund ecuației de regresie liniară. În problema examinată, această valoare este de 84,8%, adică datele statistice cu un grad ridicat de precizie sunt descrise de sau obținute.

F-Statisticile, denumite și criteriul lui Fisher, este utilizat pentru a evalua importanța dependenței liniare, refuzării sau confirmării ipotezei existenței sale.

(Criteriul studenților) ajută la evaluarea importanței coeficientului la un membru necunoscut sau liber al dependenței liniare. Dacă valoarea criteriului T este\u003e t, ipoteza nesemnificativă a unui membru liber al ecuației liniare este respinsă.

În problema examinată pentru un membru gratuit, folosind instrumentele "Excel", sa obținut că t \u003d 169,20903, și p \u003d 2.89E-12, adică avem o probabilitate zero ca ipoteza corectă a nesemnificativității libere Membru va fi respins. Pentru coeficientul la un T \u003d 5,79405 necunoscut și p \u003d 0,001158. Cu alte cuvinte, probabilitatea ca ipoteza corectă a nesemnificativității coeficientului să fie respinsă la un necunoscut, este de 0,12%.

Astfel, se poate argumenta că ecuația rezultată a regresiei liniare este adecvată.

Sarcina privind fezabilitatea cumpărării unui pachet de acțiuni

Regresia multiplă în Excel se efectuează utilizând întregul instrument "Analiza datelor". Luați în considerare o sarcină specifică aplicată.

Compania de administrare "NNN" ar trebui să decidă despre fezabilitatea de a cumpăra o participație de 20% în MMM SA. Costul pachetului (SP) este de 70 de milioane de dolari SUA. Specialiștii "NNN" au colectat date privind tranzacțiile similare. Sa decis să se evalueze costul unei participații la astfel de parametri exprimați în milioane de dolari americani, cum ar fi:

conturile plătibile (VK);
volumul cifrei de afaceri anuale (VO);
creanțe (VD);
costul activelor fixe (SOF).

În plus, se utilizează așezarea întreprinderii salariale (V3 P) în mii de dolari americani.

Instrumente de soluție pentru un procesor de masă Excel

În primul rând, trebuie să faceți un tabel de date sursă. Are următoarea formă:

apelați fereastra "Analiza datelor";
selectați secțiunea "Regresie";
În fereastra "Interval de intrare Y", se introduc o serie de valori ale variabilelor dependente din coloana G;
faceți clic pe pictograma cu o săgeată roșie din partea dreaptă a ferestrei "Interval de intrare X" și alocați intervalul tuturor valorilor din coloanele B, C, D, F.

Elementul "Listă nouă de lucru" și faceți clic pe "OK".

Primiți analiza pentru această sarcină.

Studiul rezultatelor și concluziilor

"Colectați" din datele rotunjite prezentate mai sus pe o foaie de procesor de masă Excel, ecuația de regresie:

SP \u003d 0.103 * SOF + 0.541 * VO - 0,031 * VK + 0.405 * VD + 0.691 * VZP - 265.844.

Într-o formă matematică mai familiară, aceasta poate fi scrisă ca:

y \u003d 0,103 * x1 + 0,541 * x2 - 0.031 * x3 + 0,405 * x4 + 0,691 * x5 - 265,844

Datele pentru MMM SA sunt prezentate în tabelul:

Înlocuirea acestora în ecuația de regresie, primesc o cifră de 64,72 milioane de dolari SUA. Aceasta înseamnă că acțiunile MMM SA nu ar trebui achiziționate, deoarece costul lor de 70 de milioane de dolari SUA este suficient de supraestimat.

După cum vedem, utilizarea procesorului de tabel "Excel" și a ecuațiilor de regresie au făcut posibilă adoptarea unei decizii rezonabile privind fezabilitatea unei tranzacții complet specifice.

Acum știi ce regresie este. Exemplele Excel discutate mai sus vă vor ajuta să rezolvați sarcini practice din domeniul econometricelor.

Analiza de regresie este una dintre cele mai căutate metode de cercetare statistică. Cu aceasta, este posibilă stabilirea gradului de influență a valorilor independente asupra variabilei dependente. Funcționalitatea Microsoft Excel are instrumente destinate unui tip similar de analiză. Să analizăm că ele se reprezintă și cum să le folosească.

Dar, pentru a utiliza o funcție care vă permite să efectuați o analiză de regresie, în primul rând, trebuie să activați pachetul de analiză. Numai atunci instrumentele necesare pentru această procedură vor apărea pe banda exilului.

Acum, când mergem la fila "Date"Pe panglică din blocul de scule "Analiză" Vom vedea un nou buton - "Analiza datelor".

Tipuri de analiză de regresie

Există mai multe tipuri de regresii:

parabolic;
putere;
logaritmic;
exponențială;
indicativ;
hiperbolic;
regresie liniara.

Vom vorbi mai mult despre implementarea ultimului tip de analiză de regresie în Excelență mai mult.

Regresia liniară în programul Excel

Mai jos, ca exemplu, este prezentat un tabel în care este indicată temperatura medie zilnică de aer pe stradă, iar numărul de cumpărători de magazin pentru ziua de lucru corespunzătoare este indicat. Să aflăm cu ajutorul analizei de regresie, exact modul în care condițiile meteorologice sub formă de temperatură aerului pot afecta prezența instituției comerciale.

Ecuația generală a regresiei speciilor liniare este după cum urmează: y \u003d a0 + A1x1 + ... + AKK. În această formulă Y. înseamnă o variabilă, influența factorilor pe care încercăm să explorăm. În cazul nostru, acesta este numărul de cumpărători. Valoare x. - Aceștia sunt diferiți factori care afectează variabila. Parametri a. Sunt coeficienți de regresie. Adică, aceștia determină importanța unui anumit factor. Index k. Indică numărul total al acestor factori.

Analiza rezultatelor analizei

Rezultatele analizei de regresie sunt afișate sub forma unei mese în locul indicat în setări.

Unul dintre principalii indicatori este R-pătrat.. Indică calitatea modelului. În cazul nostru, acest coeficient este de 0,705 sau aproximativ 70,5%. Acesta este un nivel acceptabil de calitate. Dependența mai mică de 0,5 este rău.

Un alt indicator important este situat în celulă de pe linia de trecere "Intersecție y" și coloană "Factori". Aceasta indică ce valoare va fi în Y, iar în cazul nostru, acesta este numărul de cumpărători, cu toți ceilalți factori egali cu zero. Acest tabel este de 58,04 în acest tabel.

Valoarea la intersecția graficului "Variabila x1" și "Factori" Afișează nivelul Y în funcție de X. În cazul nostru, este nivelul de dependență a numărului de clienți de magazin de la temperatură. Coeficientul de 1.31 este considerat un indicator destul de ridicat al influenței.

După cum puteți vedea, utilizând programul Microsoft Excel, este destul de ușor să faceți un tabel de analiză de regresie. Dar, pentru a lucra cu datele obținute la ieșire și înțeleg esența lor, doar o persoană pregătită va fi capabilă.

Ipoteze de analiză de regresie. Regresie în Excel: Ecuație, exemple. Regresie liniara. Analiza rezultatelor analizei

Definiția analiza de regresie

Regresie liniara

Regresie neliniară

Despre Termeni

Tipuri de regresie

Exemplul 1.

Utilizarea capabilităților procesorului de masă "Excel"

în Excel.

Analiza rezultatelor regresiei pentru r-pătrat

Analiza coeficienților

Regresie multiplă

Evaluarea parametrilor

Sarcină folosind ecuația de regresie liniară

Analiza rezultatelor

Sarcina privind fezabilitatea cumpărării unui pachet de acțiuni

Instrumente de soluție pentru un procesor de masă Excel

Studiul rezultatelor și concluziilor

Tipuri de analiză de regresie

Regresia liniară în programul Excel

Analiza rezultatelor analizei

Acest lucru nu este sparta - aceasta este Rusia!

Numai reactorul nuclear natural din lume

Spațiu nava de mare "marshal krylov" - video

Teoria condițiilor obedonale ale Skinner și semnificația sa pentru psihoterapia comportamentală

Tipuri și exemple de roluri sociale în societate

Ipoteze de analiză de regresie. Regresie în Excel: Ecuație, exemple. Regresie liniara. Analiza rezultatelor analizei

Definiția analiza de regresie

Regresie liniara

Regresie neliniară

Despre Termeni

Tipuri de regresie

Exemplul 1.

Utilizarea capabilităților procesorului de masă "Excel"

în Excel.

Analiza rezultatelor regresiei pentru r-pătrat

Analiza coeficienților

Regresie multiplă

Evaluarea parametrilor

Sarcină folosind ecuația de regresie liniară

Analiza rezultatelor

Sarcina privind fezabilitatea cumpărării unui pachet de acțiuni

Instrumente de soluție pentru un procesor de masă Excel

Studiul rezultatelor și concluziilor

Tipuri de analiză de regresie

Regresia liniară în programul Excel

Analiza rezultatelor analizei

Articole similare