Vienas iš išskirtinių sparčios mokslo raidos bruožų yra plačiai paplitęs statistinių metodų ir kompiuterinių technologijų naudojimas kuriant informaciją. Šiuo metu neįmanoma įsivaizduoti disciplinos, kuri pažinimo procese nenaudotų schemų, ryšių, priklausomybių skaitinės išraiškos, tendencijų matavimo ir kt. metodų. Tai ypač pasakytina apie ekonomikos mokslus.

Statistinėje literatūroje daug dėmesio skiriama atskirų statistikos metodų ir technikų tyrimui ir taikymui, tačiau nepakankamai sprendžiami vieno ar kito statistinio metodo taikymo tikslingumo ir nuoseklumo, kompleksinio taikymo, įvairių metodų derinimo klausimai. uždengtas. Vieno ar kito tyrimo metodo suabsoliutinimas atneša tik žalą. Tik skirtingų metodų derinys gali duoti pastebimą efektą. Būtent iš šių pozicijų reikia įvertinti statistinio modeliavimo vaidmenį ir vietą įvairių procesų ir reiškinių pažinimo sistemoje. Šiame darbe bandoma susisteminti statistinių metodų integruoto taikymo ekonominiuose tyrimuose metodiką, nagrinėjama statinių metodų ir technikų panaudojimo galimybė ir nuoseklumas statinių ir dinaminių procesų analizėje.

Pirmasis tyrimo etapas – reikiamos informacijos apie tiriamą objektą kaupimas (surinkimas). Jei stebėjimų nėra labai daug, galite juos išdėstyti didėjimo arba mažėjimo tvarka, ty sudaryti reitinguotas serijas. Jei pastebėjimų daug, tuomet tenka griebtis jų grupavimo. Statistinės eilutės yra labai įvairaus pobūdžio, turi skirtingus tikslus ir gali būti naudojamos įvairiems tikslams atliekant ekonominę analizę. Kai kurios statistinės eilutės yra kintamo pasiskirstymo eilutės. Šiose eilutėse parodytas tiriamos populiacijos vienetų pasiskirstymas į atskiras grupes, identifikuotas pagal tam tikrą požymį. Kitas statistinių eilučių tipas yra skaičių seka, atspindinti konkretaus rodiklio reikšmę laikui bėgant. Tai vadinamosios dinamikos serijos. Jie leidžia analizuoti bet kokių reiškinių pokyčius laikui bėgant, apie kuriuos bus kalbama vėliau. Nemenkinant laiko eilučių svarbos, reikia pažymėti, kad kintamo skirstinio eilutės statistinėje analizėje užima ypatingą vietą, nes tik suskirstant sudėtingas populiacijas į kokybiškai vienarūšes grupes galima ištirti jų struktūrą, santykį tarp visumos dalių ir kt. ., be kurio jokia ekonominė analizė. Pasiskirstymo eilutės gali būti sudaromos pagal kokybines (atributines) ir kiekybines charakteristikas, pagal vieną ar kelias charakteristikas, taip suteikiant plačias galimybes tyrinėtojams tirti sudėtingus ekonomikos reiškinius. Paskirstymo serijos gali būti pateiktos lentelės pavidalu arba geometrine, ty grafine forma. Statistinė visuma, pateikta reitinguotų pasiskirstymo eilučių forma, grafiškai pavaizduota kaip give. Jis sudarytas taip: ant abscisių ašies pagal reitingą brėžiami populiacijos elementų skaičiai, o ordinačių ašyje – požymio reikšmės. Ogiva aiškiai parodo tiriamos charakteristikos kitimo intensyvumą. Variacijų pasiskirstymo serijos pavaizduotos grafiškai daugiakampių ir histogramų pavidalu. Diskrečių variacijų pasiskirstymo serijos dažniausiai vaizduojamos daugiakampių pavidalu. Tokiu atveju charakteristikos vertės brėžiamos ant abscisių ašies, o dažniai (arba dažniai) – ant ordinačių ašies. Ordinačių viršūnės yra sujungtos tiesiomis linijomis, todėl susidaro daugiakampis (daugiakampis). Intervalinių variacijų serijas taip pat galima pavaizduoti kaip daugiakampį. Norėdami tai padaryti, vidutinės intervalų vertės laikomos individualiomis charakteristikos vertėmis. Intervalinių variacijų serijos dažniausiai vaizduojamos histogramos pavidalu, kurioje dažniai išreiškiami atitinkamo ilgio stačiakampiais, o stačiakampių pagrindai, remiantis abscisių ašimi, atitinka charakteringos reikšmės intervalą. (Pav. 1).

Ryžiai. 1. Histograma ir pasiskirstymo daugiakampis

Yra vienos viršūnės ir kelių viršūnių skirstiniai. Kelių viršūnių pasiskirstymas, kaip taisyklė, yra tiriamos populiacijos nevienalytiškumo požymis. Iš vienos smailės pasiskirstymo kreivių formų įvairovės galima išskirti tokius būdingiausius tipus: simetriškas, vidutiniškai asimetriškas, itin asimetriškas.

Praktikoje idealiai simetriškas pasiskirstymas dažniausiai pasitaiko retai, dažniau vidutiniškai asimetrinis, kuriame dažniai vienoje sklaidos centro pusėje sumažėja pastebimai greičiau nei kitoje. Asimetriškas pasiskirstymas riboje tampa itin asimetriškas – šiuo atveju didžiausias dažnis yra viename skirstinio gale.

Sprendžiant kai kurias problemas, patogiau naudoti sukauptus paskirstymo dažnius. Sukaupto dažnio pasiskirstymo kreivė vadinama „kaupiamuoju pasiskirstymu“. Statant kumuliacijas, charakteristikos reikšmės brėžiamos ant abscisių ašies, o sukaupti dažniai – ant ordinačių ašies. Variacinės paskirstymo serijos konstrukcija ir jos grafinis vaizdavimas leidžia susidaryti pirmą idėją apie būdingiausius bendruosius jos bruožus. Tuo pačiu metu statistinis populiacijos tyrimas negali apsiriboti vien stebimų kiekių užsakymu. Be to, paskirstymo serijos ir jų grafikai gali būti gana sudėtingi, nes juose pateikiama visa pradinė informacija. Todėl racionaliausias būdas statistiškai apibūdinti pasiskirstymą bus apskaičiuoti tam tikras skaitines charakteristikas, kurios atspindi realias populiacijos savybes. Tokios charakteristikos pirmiausia apima pasiskirstymo serijos centrinės tendencijos charakteristikas, t.y. jos centrinės vertės radimą; atributų reikšmių dispersija paskirstymo centro atžvilgiu; asimetrija ir didžiausias pasiskirstymas. Skirstinių statistinių charakteristikų tyrimą patartina pradėti nuo paprasčiausių ir tuo pačiu dažniausiai statistinėje analizėje naudojamų, t.y., nuo vidutinių dydžių tyrimo; tada išmokite matuoti svyravimus, išstudijuokite nuožulnios ir aštrumo matmenis. Visi šie tam tikrų pasiskirstymo požymių rodikliai sudaro vieną statistinių charakteristikų sistemą.

Tačiau tam tikrų statistinių metodų naudojimas pirmiausia suponuoja tiriamos populiacijos homogeniškumą: neįmanoma, pavyzdžiui, išanalizuoti populiaciją, susidedančią iš skirtingų kategorijų ūkių, įskaitant skirtingų specializacijų įmones ir pan. spręsti problemas, būtinas gilus tiriamo proceso ar reiškinio esmės suvokimas. Atsižvelgiant į ekonominių reiškinių ir procesų sudėtingumą ir nevienalytiškumą, analizę būtina atlikti taip, kad reikšmingiausi skirtumai tarp atskirų reiškinių grupių nebūtų užgožti, o išryškinti sėkmingesniam tyrimui. Kartu panašių to paties tipo reiškinių grupavimas padeda nustatyti jų požymius ir ypatybes, kurios gali likti nepastebėtos tiriant kiekvieną reiškinį atskirai. Socialinių/ekonominių reiškinių tipų nustatymas kiekviename rinkinyje yra pagrindinė jos mokslinės analizės sąlyga. Ir tai galima padaryti tik naudojant tipologinių grupuočių metodą.

Masiniai įmonių ekonominės veiklos reiškiniai, kurie yra statistinio tyrimo objektas, yra sudėtingo pobūdžio, turi šiam reiškiniui būdingą kokybinį bendrumą, tačiau kartu turi ir skirtumų. Taigi, bet kurio produkto gamybą vykdo žemės ūkio įmonės ir ūkiai ir kt. Todėl apibūdinant šios rūšies produktų gamybą regione, reikėtų vadovautis kokybinėmis šių produkciją gaminančių įmonių ypatybėmis. priešingu atveju išvados bus netikslios, o tokių išvadų pagrindu priimti sprendimai yra neveiksmingi.

Tipologinis duomenų grupavimas yra pagrindinis ekonominių reiškinių tyrimo metodas, užtikrinantis kokybinį populiacijos vienetų palyginamumą ir leidžiantis gauti apibendrintą kiekybinę charakteristikos reikšmę.

1.2. Bendrųjų populiacijos charakteristikų matavimo metodai

Grupavimo metodas leidžia tirti ekonominių reiškinių būklę ir ryšius, jei grupės pasižymi rodikliais, atskleidžiančiais reikšmingiausius tiriamo reiškinio aspektus.

Analizuojant ir planuojant reikia remtis ne atsitiktiniais faktais, o rodikliais, išreiškiančiais pagrindinį, tipinį, esminį. Šią charakteristiką suteikia įvairių tipų vidutinės vertės, taip pat režimas ir mediana.

Populiacijos homogeniškumo klausimas neturėtų būti formaliai sprendžiamas pagal jos pasiskirstymo formą. Jis, kaip ir tipinio vidurkio klausimas, turi būti sprendžiamas remiantis priežastimis ir sąlygomis, kurios sudaro agregatą. Vienalytė aibė yra tokia aibė, kurios vienetai susidaro veikiant bendroms pagrindinėms priežastims ir sąlygoms, lemiančioms bendrą tam tikros charakteristikos, būdingos visai aibei, lygį.

Remiantis tipologinių grupuočių teorija, lemiama reikšmė vertinant populiacijos homogeniškumą priklauso ne pasiskirstymo formai, o variacijos dydžiui ir susidarymo sąlygoms. Kokybiškai vienalyčiai populiacijai būdinga kaita tam tikrose ribose, po kurios prasideda nauja kokybė. Kartu šios populiacijos kokybinio vienalytiškumo vertinimo ribos turi būti žvelgiamos iš esmės, o ne formaliai, nes tas pats kiekis skirtingomis sąlygomis išreiškia naują kokybę. Pavyzdžiui, turinčios tą patį darbuotojų skaičių, vienos pramonės šakos įmonės yra didelės, o kitos – mažos.

Norint visapusiškai ir nuodugniai ištirti reiškinius, objektyviai apibūdinti reiškinių tipus, jų ryšius ir procesus, nulemtus visos sistemos raidos, reikia derinti grupių vidurkius su bendraisiais vidurkiais. Tokių vidurkių derinys yra vienas pagrindinių sudėtingų sistemų analizės elementų. Šis derinys į vieną ištisą susieja du statistinius metodus, kurie organiškai papildo vienas kitą: vidurkių metodą ir grupavimo metodą. Skaičiuojant vidurkį, individualios vertės, kurios skiriasi grupėje, pakeičiamos viena vidutine verte. Tokiu atveju atsitiktiniai atskirų vienetų charakteristikos nuokrypiai didėjimo arba mažėjimo kryptimi yra tarpusavyje subalansuoti ir vienas kitą panaikina, o vidutinė vertė atskleidžia tipinį tam tikros grupės charakteristikos dydį. Vidutinė reikšmė tarnauja kaip visumos charakteristika ir kartu nurodo atskirą jos elementą – reiškinio kokybinių požymių nešėją. Vidurkio reikšmė gana konkreti, bet kartu ir abstrakti; jis gaunamas abstrahuojantis iš kiekvieno vieneto atsitiktinio individo, siekiant identifikuoti tą bendrą tipinį dalyką, būdingą visiems vienetams ir kuris sudaro tam tikrą visumą. Skaičiuojant vidutinę reikšmę, vienetų skaičius populiacijoje turi būti gana didelis. Vidutinė reikšmė apibrėžiama kaip bendros reiškinių apimties ir populiacijos vienetų skaičiaus grupėje santykis. Nesugrupuotiems duomenims tai bus paprastas aritmetinis vidurkis:

o sugrupuotų duomenų atveju, kai kiekviena charakteristika turi savo dažnį, svertinis aritmetinis vidurkis:

Kur X i– atributo reikšmė; f i– šių charakteristikų reikšmių dažnis.

Kadangi aritmetinis vidurkis apskaičiuojamas kaip charakteristikų reikšmių sumos ir bendro skaičiaus santykis, jis niekada neviršija šių verčių. Aritmetinis vidurkis turi daugybę savybių, kurios plačiai naudojamos skaičiavimams supaprastinti.

1. Individualių charakteristikų verčių nuokrypių nuo vidutinės vertės suma visada lygi nuliui:

Įrodymas. n

Kairės ir dešinės pusės padalijimas į

2. Jei charakteristikos (X i) reikšmės yra pakeistos k kartų, tada aritmetinis vidurkis taip pat pasikeis x kartą.

Įrodymas.

Naujų atributo reikšmių aritmetinį vidurkį žymime X, tada:

Pastovi reikšmė 1/ k galima išimti už sumos ženklo, tada gauname:

3. Jei iš visų charakteristikos reikšmių X i atimti arba pridėti tą patį pastovų skaičių, tada aritmetinis vidurkis sumažės arba padidės šia suma.

Įrodymas.

Būdingų verčių nuokrypių nuo pastovaus skaičiaus vidurkis bus lygus:

Lygiai taip pat tai galima įrodyti sudėjus pastovų skaičių.

4. Jei visų charakteristikų reikšmių dažniai yra sumažinti arba padidinti n kartų, tada vidurkis nepasikeis:

Jei yra duomenų apie bendrą atributo tūrį ir žinomas reikšmes, bet nežinomi dažniai, vidurkiui nustatyti naudojama svertinio aritmetinio vidurkio formulė.

Pavyzdžiui, yra įvairių pardavimo laikotarpių duomenų apie kopūstų pardavimo kainas ir bendras pajamas (1 lentelė).

1 lentelė.

Kopūstų pardavimo kaina ir bendros pajamos įvairiais pardavimo laikotarpiais


Kadangi vidutinė kaina parodo visų pajamų ir bendro parduotų kopūstų kiekio santykį, pirmiausia turite nustatyti skirtingų pardavimo laikotarpių parduotų kopūstų kiekį kaip pajamų ir kainos santykį, o tada nustatyti vidutinę parduotų kopūstų kainą.

Mūsų pavyzdyje vidutinė kaina bus:

Jei vidutinę pardavimo kainą šiuo atveju skaičiuosime naudodami paprastą aritmetinį vidurkį, gausime kitokį rezultatą, kuris iškreips tikrąją situaciją ir pervertins vidutinę pardavimo kainą, nes nebus atsižvelgta į tai, kad didelė dalis pardavimai patenka į vėlyvuosius kopūstus su mažesne kaina.

Kartais reikia nustatyti vidutinę vertę, kai charakteristikos reikšmės pateikiamos trupmeninių skaičių forma, t. Tokiais atvejais patartina naudoti harmoninio vidurkio formulę:

Taigi vidutinis laikas, reikalingas produkcijos vienetui pagaminti, yra harmoninis vidurkis. Jei X 1 = 1/4 valandos, X 2 = 1/2 valandos, X 3 = 1/3 valandos, tada šių skaičių harmoninis vidurkis yra:

Norint apskaičiuoti vidutinę vertę iš dviejų to paties pavadinimo rodiklių, pavyzdžiui, augimo tempų, santykio, naudojamas geometrinis vidurkis, apskaičiuojamas pagal formulę:

kur yra X1? X 2...? ... X 4 – dviejų to paties pavadinimo reikšmių santykis, pavyzdžiui, grandinės augimo tempai; n– augimo tempo santykių aibės skaičius.

Nagrinėjamos vidutinės vertės turi maorancy savybę:

Pavyzdžiui, turėkime šias reikšmes X(20; 40), tada anksčiau svarstyti vidutinių verčių tipai bus lygūs:

Tiriant populiacijos sudėtį, tipinį bruožo dydį galima spręsti pagal vadinamąsias struktūrines priemones – modą ir medianą.

MadaDažniausiai agregate pasitaikanti charakteristikos reikšmė vadinama. Intervalų variacijų serijose pirmiausia randamas modalinis intervalas. Rastame modaliniame intervale režimas apskaičiuojamas pagal formulę:

kur X 0 yra modalinio intervalo apatinė riba; d – intervalo dydis; f 1, f 2, f 3 – premodalinių, modalinių ir postmodalinių intervalų dažniai.

Režimo reikšmę intervalų serijoje galima gana lengvai rasti remiantis grafiku. Norėdami tai padaryti, aukščiausiame histogramos stulpelyje nubrėžkite dvi linijas nuo dviejų gretimų stulpelių ribų. Nuo šių linijų susikirtimo taško statmenas nuleidžiamas į abscisių ašį. Objekto reikšmė x ašyje bus režimas (2 pav.).


Ryžiai. 2

Sprendžiant praktines problemas, dažniausiai labiausiai domina režimas, išreikštas kaip intervalas, o ne kaip atskiras skaičius. Tai paaiškinama režimo paskirtimi, kuri turėtų atskleisti dažniausiai pasitaikančius reiškinio matmenis.

Vidurkis – tai visiems vienalytės populiacijos vienetams būdinga reikšmė. Režimas taip pat yra tipinis dydis, tačiau jis tiesiogiai lemia atributo dydį, kuris būdingas, nors ir reikšmingai daliai, bet vis tiek ne visai populiacijai. Tai labai svarbu sprendžiant tam tikras problemas, pavyzdžiui, numatant, kokių dydžių batai, drabužiai turi būti skirti masinei gamybai ir pan.

Mediana– atributo, esančio reitinguojamos serijos viduryje, reikšmė. Jis nurodo vienetų pasiskirstymo populiacijoje centrą ir padalija jį į dvi lygias dalis.

Mediana yra geriausia centrinės tendencijos charakteristika, kai ekstremalių intervalų ribos yra atviros. Mediana yra priimtinesnė pasiskirstymo lygio charakteristika, net jei pasiskirstymo eilutėse yra pernelyg didelių arba per mažų verčių, turinčių didelę įtaką vidutinei vertei, bet ne medianai. Be to, mediana turi tiesinio minimumo savybę: visų populiacijos vienetų charakteristikos vertės nuokrypių nuo medianos absoliučių verčių suma yra minimali, t.y.

Ši savybė labai svarbi sprendžiant kai kurias praktines problemas – pavyzdžiui, apskaičiuojant trumpiausią įmanomą atstumą įvairioms transporto rūšims, degalinių išdėstymui taip, kad atstumas iki visų tam tikroje stotyje aptarnaujamų automobilių būtų minimalus ir pan. .

Kai randama mediana, pirmiausia nustatomas jos serijos numeris paskirstymo serijoje:

Toliau, pagal serijos numerį, iš sukauptų serijos dažnių randama pati mediana. Diskrečioje eilutėje - be jokio skaičiavimo, o intervalų eilutėje, žinant medianos eilės numerį, sukauptais dažniais randamas medianos intervalas, kuriame medianos reikšmė nustatoma paprasčiausiu interpoliacijos metodu. Mediana apskaičiuojama pagal formulę:

Kur X 0 – apatinė medianinio intervalo riba; d– intervalo dydis; f _ 1 – dažnis, sukauptas iki medianinio intervalo; f– medianinio intervalo dažnis.

Apskaičiuokime vidutinę reikšmę, režimą ir medianą naudodami intervalų skirstinio pavyzdį. Duomenys pateikti lentelėje. 2.


Taigi kaip pasiskirstymo centras gali būti naudojami įvairūs rodikliai: vidutinė vertė, režimas ir mediana,


ir kiekviena iš šių savybių turi savo ypatybes. Taigi vidutinei reikšmei būdinga tai, kad visi atskirų požymio verčių nukrypimai nuo jos yra abipusiai panaikinami, t.y.

Medianai būdinga tai, kad individualių charakteristikos verčių nukrypimų nuo jos suma (neatsižvelgiant į požymius) yra minimali. Mada apibūdina dažniausiai pasitaikančią atributo vertę. Todėl, atsižvelgiant į tai, kokia savybė tyrėją domina, reikėtų pasirinkti vieną iš svarstomų savybių. Kai kuriais atvejais apskaičiuojamos visos charakteristikos.

Jų palyginimas ir ryšių tarp jų nustatymas padeda išsiaiškinti konkrečios variacijų serijos pasiskirstymo ypatybes. Taigi, simetrinėse serijose, kaip ir mūsų atveju, visos trys charakteristikos (vidurkis, režimas ir mediana) maždaug sutampa. Kuo didesnis režimo ir vidurkio neatitikimas, tuo serija asimetriškesnė. Nustatyta, kad vidutiniškai asimetrinėse eilutėse skirtumas tarp modo ir aritmetinio vidurkio yra maždaug tris kartus didesnis nei skirtumas tarp medianos ir aritmetinio vidurkio:

Šiuo santykiu galima nustatyti vieną rodiklį iš dviejų žinomų. Iš to išplaukia, kad režimo, medianos ir vidurkio derinys taip pat svarbus pasiskirstymo tipui apibūdinti.

1.3. Požymių kitimo ir pasiskirstymo vienarūšėje populiacijoje tyrimo metodai

Statistinis populiacijos aprašymas būtų neišsamus, jei apsiribotume tik centrinės tendencijos rodikliais, ty vidutinėmis reikšmėmis, režimu ir mediana, kurios yra daugelio kintančių charakteristikos reikšmių rezultatas. Kai kuriais atvejais požymio reikšmė sutelkta labai arti prie tam tikro centro, kitais atvejais pastebima didelė dispersija, nors vidutinė reikšmė gali būti tokia pati. Šiuo atžvilgiu vidutinė reikšmė, kaip centrinės tendencijos rodiklis, nepateikia išsamaus tiriamos populiacijos aprašymo. Reikia ištirti bruožo sklaidos pobūdį. Nors nukrypimus nuo vidurkio reguliuoja visiems vidurkį formuojantiems gyventojų vienetams bendros priežastys, tačiau kartu juos lemia ir individualios priežastys. Pavyzdžiui, atskirų darbuotojų, dirbančių toje pačioje komandoje, taigi ir tomis pačiomis darbo sąlygomis, produktyvumo nukrypimus lemia ne bendros sąlygos ir priežastys, o individualios darbuotojų aplinkybės ir jų kvalifikacija, sveikata, nuotaika, intelektas. ir tt Todėl tyrėją labai domina nuokrypių nuo jų dydžių vidurkio ir pasiskirstymo modelių tyrimas. Tai visų pirma svarbu vertinant populiacijos homogeniškumą, kuriam būdinga tam tikra vidutinė vertė, nes kokybiškai vienalyčiai populiacijai būdingas kitimas tam tikrose ribose. Todėl kuo mažesnė variacija, tuo populiacija kokybiškai homogeniškesnė, tuo tipiškesnė ir objektyvesnė ją apibūdinanti vidutinė reikšmė.

Svyravimo matavimas taip pat turi didelę reikšmę tiriant tiriamų ekonomikos reiškinių ir procesų stabilumą. Taigi žemės ūkiui labai svarbu ne tik gauti vidutinį žemės ūkio augalų derlių, bet ir užtikrinti jo stabilumą laike ir erdvėje, o tam reikia išmokti skaičiuoti tvarumo rodiklius, išmokti matuoti reiškinių kitimą. studijuojamas? ? 1.25 A.

Kad įvertintų bruožo kitimą, statistika žino ir naudoja kelis rodiklius. Paprasčiausias iš jų yra variacijos diapazonas, apskaičiuojamas pagal formulę: X max – X min, t.y. kaip skirtumas tarp didžiausios ir minimalios atributo reikšmės. Tačiau šis rodiklis toli gražu nėra tobulas, nes jo konstrukcija apima tik kraštutines atributo reikšmes, kurios gali būti atsitiktinės.

Galima tiksliau nustatyti charakteristikos kitimą naudojant indikatorių, kuriame atsižvelgiama į visų charakteristikos verčių nuokrypius nuo vidurkio. Tai yra vadinamieji absoliutieji rodikliai: vidutinis tiesinis nuokrypis A ir standartinis nuokrypis?. Vidutinis tiesinis nuokrypis yra individualių charakteristikų verčių nuokrypių nuo vidutinės vertės absoliučių verčių aritmetinis vidurkis. Bet nukrypimų nuo vidurkio suma

visada yra lygus nuliui (viena iš vidutinės vertės savybių), todėl norint apskaičiuoti vidutinį tiesinį nuokrypį, absoliutūs nuokrypiai sumuojami neatsižvelgiant į jo ženklą:


Standartinis nuokrypis taip pat gali būti paprastas arba svertinis:

Standartinis nuokrypis yra labiausiai paplitęs kitimo matas ir yra šiek tiek didesnis nei tiesinis vidutinis nuokrypis. Nustatyta, kad simetriniuose arba vidutiniškai asimetriškuose skirstiniuose ryšį tarp jų galima užrašyti taip:

1,25A.

Taip pat reikia turėti omenyje, kad vidutinis tiesinis nuokrypis bus minimalus, jei jis bus skaičiuojamas iš medianos, t.y.:

Skaičiuojant nuo aritmetinio vidurkio standartinis nuokrypis yra minimalus, tas pats galioja ir dispersijai, kuri yra standartinio nuokrypio kvadratas.

Sklaida

plačiai naudojamas dispersijos analizėje, bet ne kaip variacijos matas, nes jo matmuo neatitinka charakteristikos dimensijos.

Panagrinėkime vidutinio tiesinio ir standartinio nuokrypio apskaičiavimą pagal lentelėje pateiktų duomenų pavyzdį. 3.

3 lentelė.

Dviejų komandų darbuotojų detalių apdorojimo laiko analizė


Vidutinis dalies apdorojimo laikas yra 124 minutės abiejose komandose. Pirmajai brigadai X 1 = 992/8 = 124 min. o antrajam – X 2 = 1240/10 = 124 min.

Vidutinės vertės abiejose grupėse taip pat yra panašios. Taigi, pirmajai brigadai Khme = (116+132)/2 = 124 min. Antrajai brigadai - Khme = (122+126)/2 + 124 min.

Modalinės vertės šiuo atveju negali būti nustatytos, nes kiekviena būdinga vertė nesikartoja.

Remiantis gautais rezultatais, galime daryti išvadą, kad abiems populiacijoms būdingi tie patys pasiskirstymo centro rodikliai, tačiau jie gali skirtis pagal atskirų požymių reikšmių sklaidos pobūdį aplink šiuos centrus.

Norėdami apibūdinti sklaidą, apskaičiuojame vidutinį tiesinį nuokrypį. Pirmajai brigadai:


Palyginus vidutinius tiesinius ir standartinius nuokrypius, galima daryti išvadą, kad dalių apdorojimo laiko svyravimai pirmoje komandoje yra žymiai didesni nei antrojoje.

Taip pat reikėtų pažymėti, kad standartinis nuokrypis abiem atvejais yra šiek tiek didesnis nei tiesinis vidutinis nuokrypis:

1 = 1,22a 1;

2 = 1,20a 2.

Tai rodo, kad mes susiduriame su vidutiniškai iškreiptu pasiskirstymu.

Nagrinėjami kitimo rodikliai (variacijos diapazonas, vidutinis tiesinis nuokrypis, standartinis nuokrypis) leidžia palyginti kelių populiacijų homogeniškumo laipsnį, tačiau tik vienos charakteristikos atžvilgiu, nes tai įvardijami dydžiai, kurių matavimo vienetai yra vienodi. kaip pati savybė.

Tačiau dažnai tyrėjui tenka lyginti skirtingų charakteristikų variacijas, todėl šios variacijos priemonės negali būti naudojamos.

Įvairių charakteristikų kitimui apibūdinti apskaičiuojami santykiniai kitimo rodikliai, redukuojami iki vienos bazės, t.y., išreiškiami procentais (variacijos diapazono dalis, vidutinis tiesinis nuokrypis ir standartinis nuokrypis) nuo tiriamos charakteristikos vidutinės reikšmės. .

Tai yra vadinamasis virpesių koeficientas, santykinis nuokrypis ir variacijos koeficientas.

Virpesių koeficientas apskaičiuojamas pagal formulę:


Mūsų pavyzdyje šie rodikliai yra:


Visi apskaičiuoti santykiniai kitimo rodikliai taip pat rodo stipresnį pirmosios komandos darbuotojų dalių apdorojimo laiko kitimą, palyginti su antruoju, kur vidutinis apdorojimo laikas yra objektyvesnė, tipiškesnė tam tikros komandos, kaip komandos, darbo charakteristika. visuma, t.y. antroji komanda kaip populiacija yra homogeniškesnė.

Santykiniai kitimo rodikliai, kaip jau minėta, leidžia palyginti charakteristikų, turinčių tuos pačius matavimo vienetus, bet skirtingus vidurkių lygius, kitimo laipsnį. Pavyzdžiui, nors grūdinių kultūrų ir bulvių derliaus matavimo vienetai yra vienodi, būtų neteisinga lyginti šių savybių kitimą absoliučiais dydžiais, nes pačių grūdų ir bulvių derlingumo lygiai labai skiriasi. Taigi, pavyzdžiui, regione standartinis nuokrypis buvo: rugių derliui - 5 centneriai iš hektaro (c/ha) ir bulvių derliui - 20 c/ha, o pačių rugių derliui buvo 25 c/ha. ha, o bulvėms - 200 c/ha . Variacijos koeficientas yra atitinkamai lygus:

Tai reiškia, kad pagal bulvių derlių, tam tikro regiono ūkių visuma yra homogeniškesnė nei pagal rugių derlių, t.y., bulvių derlius yra stabilesnis nei rugių derlius.

Lyginant skirtingų populiacijų tos pačios charakteristikos absoliučius kitimo rodiklius kartais daroma kitokia išvada nei lyginant santykinius kitimo rodiklius.

Taigi, jei vienoje populiacijoje absoliutus kitimo rodiklis yra didesnis nei kitoje, o joje tiriamos charakteristikos vidutinis lygis taip pat žymiai didesnis nei kitoje, tai santykinis variacijos rodiklis gali būti mažesnis.

Taigi, pavyzdžiui, jei standartinis rugių derlingumo nuokrypis viename plote buvo 5 centneriai, kitame - 3 centneriai, o pats derlingumo vidurkis atitinkamai buvo 25 ir 10 centnerių / ha, tai santykiniai kitimo rodikliai lemia kitokia išvada.

Vadinasi, derlingumo padidėjimas, susijęs su nežymiu absoliutaus kitimo rodiklio padidėjimu, negali sumažinti jo stabilumo.

Santykiniai kitimo rodikliai taip pat būtini norint palyginti skirtingų charakteristikų, turinčių skirtingus matavimo vienetus, kitimą, nes absoliutūs kitimo rodikliai šiuo atveju negali būti naudojami kaip kitimo matas.

Pavyzdžiui, lyginant konkretaus pasėlio derliaus ir savikainos kitimą, negalima naudoti absoliučių kitimo rodiklių, nes jie turės skirtingus matavimo vienetus: c/ha ir rublius. už 1 toną. Tokiu atveju, norint apskaičiuoti vadinamąjį normalizuotą nuokrypį, patartina naudoti standartinį nuokrypį:

charakterizuojant individualių charakteristikos verčių nuokrypį nuo vidurkio ( Xi?X) ir standartinio nuokrypio vienetui. Normalizuotas nuokrypis leidžia palyginti skirtingais matavimo vienetais išreikštus nuokrypius. Praktiškai normalizuoti nuokrypiai svyruoja nuo 0 iki 3.

Tačiau visumoje gali būti atskirų vienetų, kuriuose t> 3. Tai parodys populiacijos nevienalytiškumą, todėl patartina išskirti tokius populiacijos vienetus kaip anomalius, netipinius šiai populiacijai.

Jei gyventojų skaičius mažas (3? n? 8), tada populiacijos homogeniškumą, t.y., pirminių duomenų tinkamumo patikrinimą, galima atlikti taip. Apskaičiuojamas rodiklis, apibūdinantis skirtumo tarp abejotinų ir gretimų serijų, išdėstytų didėjančia tvarka, ir skirtumo tarp kraštutinių verčių santykį, t.y.:

jei kyla abejonių dėl pirmosios atributo reikšmės iš eilės ir:

jei abejojama dėl paskutinės atributo vertės serijoje.

Apskaičiuota vertė K palyginti su jo lentelės verte tam tikram stebėjimų skaičiui ir tikimybės lygiui. Jeigu K f > K lentelę, tada abejotina vertė neturėtų būti apdorojama. Jeigu K f< K lentelę, tada abejotina vertė nėra išmesta. Pažvelkime į šią techniką su pavyzdžiu.

Tarkime, kad pelenų kiekiui pašarų mėginiuose procentais gauti šie rezultatai: 2,25; 2,19; 2,11; 2,38; 2.32 ir 3.21.

Analizės duomenis išdėstome jų reikšmių didėjimo tvarka: 2.11; 2,19; 2,25; 2,32; 2,38; 3.21.

Skaičiuojame:

4 lentelė.VertybėsK priklausomai nuo patikimumo laipsnio (p)

ir bendras atributų reikšmių skaičius (n)

Didumas K lentelė = 0,70. Todėl 3,21 vertė turėtų būti neįtraukta kaip netipiška šiai populiacijai.

Jei būdingų reikšmių skaičius yra didesnis nei trys (ir daugiau nei aštuonios), galite naudoti kitą metodą pirminių duomenų tinkamumui nustatyti. Visų suvestinio požymio verčių atveju pirmiausia apskaičiuokite vidutinę reikšmę (X) ir standartinį nuokrypį (?), tada pagal skirtumą (neatsižvelgiant į ženklą) tarp didžiausios nukrypimo reikšmės (X max) ir vidutinę reikšmę, raskite kriterijaus R max reikšmę naudodami formulę:

R max vertė lyginama su jos lentelės verte tam tikram būdingų tikimybės verčių skaičiui p = 0,99 (5 lentelė).

Jei R max > R lentelę, tada abejotina reikšmė (X) turėtų būti neįtraukta, bet jei R max< R табл, то значение (X max) следует принимать в расчет.

At n> 20 Rmax indikatorius? 3, o tinkamumo sąlyga yra tokia:

5 lentelė.R reikšmės maks dėl patikimumo laipsniop = 0,99 priklausomai

nuo vienetų skaičiaus populiacijojen


Grįžkime prie ankstesnio pavyzdžio ir apskaičiuokime:


Apskaičiuojant vidutinę vertę ir standartinį nuokrypį, naudojamos visos charakteristikos vertės. Tada apskaičiuojame:

Dėl n= 6, R lentelė _ 2,13; kadangi 2,22 > 2,13, abejotina reikšmė 3,21 turi būti pašalinta iš statistinio apdorojimo. Jei kyla abejonių ne dėl vienos, o dėl kelių verčių, pirmiausia atlikite minėtus skaičiavimus tik vienai iš jų (labiausiai nukrypstančiajai). Ją pašalinę, pakartokite kitos abejotinos vertės skaičiavimą, skaičiuodami dar kartą X Ir?.

Tikrinant duomenų tinkamumą bet kokia technika, galima atmesti ne daugiau kaip trečdalį populiacijos vienetų.

Jei neįtraukiama daugiau nei trečdalis visų populiacijos vienetų, populiacija laikoma nevienalyte.

Tirdama ekonominius reiškinius, statistika susiduria su įvairiais bruožais, apibūdinančiais atskirus populiacijos vienetus. Ženklų dydžiai skiriasi priklausomai nuo įvairių priežasčių ir sąlygų. Kuo įvairesnės sąlygos, turinčios įtakos bruožo dydžiui, tuo didesnis jo kitimas.

Nagrinėjami centrinės tendencijos rodikliai ir kitimo rodikliai yra ypatingi tam tikros vieningos pasiskirstymo statistinių charakteristikų sistemos atvejai. Tokią vieningą charakteristikų sistemą galima pavaizduoti statistinio pasiskirstymo momentais. Jei skaičiuojant momentus aritmetinis vidurkis laikomas savavališka konstanta, tai tokie momentai vadinami centriniais.

Bendra k-os eilės centrinių momentų formulė yra tokia:

Kitaip tariant, k-osios eilės centriniai momentai yra aritmetinis vidurkis k–x būdingų verčių nuokrypio nuo aritmetinio vidurkio laipsniai.

1. Centrinis nulinės eilės momentas lygus vienybei ties k = 0:

2. Pirmosios eilės centrinis momentas lygus nuliui at k = 1:

3. Antros eilės centrinis momentas parodo tam tikro skirstinio sklaidą ties k = 2:

4. Trečiosios eilės centrinis momentas turi tokią formą:

Jei pasiskirstymas yra simetriškas, nesunku pastebėti, kad trečios eilės centrinis momentas yra lygus nuliui, nes atėmus nuokrypius ( X i -X) 3 kairėje skirstinio šakoje bus subalansuotas teigiamais nuokrypiais dešinėje. Šis abipusis simetrinio pasiskirstymo eilučių nuokrypių panaikinimas galioja visiems nelyginiams centriniams momentams.

Statistinė populiacija-

Rinkinys vadinamas vienalytis,

nevienalytis.

2 klausimas. Ženklai ir jų klasifikacija

Pasirašyti- tai kokybinis agregato vieneto požymis. Pagal tiriamos populiacijos vienetų savybių rodymo pobūdį ženklai skirstomi į dvi pagrindines grupes;

charakteristikos, turinčios tiesioginę kiekybinę išraišką, pavyzdžiui, amžius, darbo stažas, vidutinis uždarbis ir pan. Jie gali būti atskiri arba tęstiniai;

charakteristikos, kurios neturi tiesioginės kiekybinės išraiškos.Šiuo atveju atskiri gyventojų vienetai skiriasi savo turiniu (pavyzdžiui, pramonės šakos – mediena, mineraliniai produktai, maisto produktai ir kt.). Tokie ženklai paprastai vadinami atributinė(filosofijoje „atributas“ yra neatsiejama objekto savybė).

Statistinio tyrimo bruožas yra tas, kad jis tiria tik įvairias charakteristikas, ty charakteristikas, kurios įgauna skirtingas reikšmes (atributo charakteristikas) arba turi skirtingą kiekybinį lygį atskiruose populiacijos vienetuose.

Variacija - tai charakteristikos dydžio arba reikšmės pokytis, kai pereinama iš vieno objekto (ar objektų grupės) į kitą; tiksliau, iš vieno visumos vieneto į kitą. Paprastai variacija reiškia verčių pasikeitimą, kurį sukelia įvairių veiksnių susikertanti įtaka tam tikram reiškiniui tik vienalytėje populiacijoje.

Jeigu tiriamo reiškinio pokyčiai vyksta skirtingais laikotarpiais ir yra reguliaraus pobūdžio, tai jau kalbame ne apie charakteristikos kitimą, o apie jo dinamika.

3 klausimas. Statistinis rodiklis, statistinių rodiklių sistema

Statistinis rodiklis yra sąvoka (kategorija), atspindinti socialinių reiškinių charakteristikų santykio kiekybines charakteristikas (dimensijas). Statistiniai rodikliai gali būti tūriniai (gyventojų skaičius, pardavimų apimtis, apyvarta) ir skaičiuojami (vidutinės reikšmės). Jie gali būti planuojami, ataskaitiniai ir prognoziniai (t. y. veikti kaip prognozės įverčiai). Statistinius rodiklius reikėtų skirti nuo statistinių duomenų. Statistiniai duomenys- tai konkrečios skaitinės statistinių rodiklių reikšmės. Jie visada nustatomi ne tik kokybiškai, bet ir kiekybiškai bei priklauso nuo konkrečių vietos ir laiko sąlygų.

Statistikos tikslai šia kryptimi yra šie:

a) teisingas statistinio rodiklio (bendrojo nacionalinio produkto, nacionalinių pajamų, eksporto, importo ir kt.) turinio nustatymas;

b) statistinio rodiklio apskaičiavimo metodikos parengimas.

Statistinio rodiklio atributai:

1. Kokybinė pusė: objektas, jo savybė, kategorija.

2. Kiekybinė pusė: skaičius ir matavimo vienetai.

3. Objekto teritorinės, sektorinės ir kitos ribos.

4. Intervalas arba laiko taškas.

Statistinių rodiklių sistema- Tai statistinių rodiklių rinkinys, atspindintis objektyviai egzistuojančius ryšius tarp reiškinių. Kiekvienai socialinei-ekonominei formacijai būdinga tam tikra socialinių reiškinių tarpusavio sąsajų sistema. Todėl susidaro sistema ir statistiniai rodikliai.

Statistinių rodiklių sistema apima visus visuomenės aspektus įvairiais lygmenimis: šalies, regiono – makro lygmeniu; įmonės, firmos, asociacijos ir kt. – mikro lygiu.

Statistinių rodiklių sistemos turi šias savybes:

1) jie yra istorinio pobūdžio - kinta gyventojų ir visuomenės gyvenimo sąlygos, keičiasi ir statistinių rodiklių sistemos;

2) statistinių rodiklių skaičiavimo metodika nuolat tobulinama.

4 klausimas. Statistinis modelis. Didžiųjų skaičių dėsnis

Statistinis modelis – priežasties-pasekmės ryšiai, pasireiškiantys masinių reiškinių ir socialinio gyvenimo procesų, susijusių su tam tikra erdve ir laiku, seka, pakartojamumu, dėsningumu.
Dėsningumai, kuriuose būtinybė kiekviename atskirame reiškinyje neatsiejamai susijusi su atsitiktinumu ir daugelyje reiškinių pasireiškia tik kaip dėsnis, vadinami statistiniais.
Statistiniai modeliai turi stabilumo savybę, t.y. stabilumas ir pakartojamumas atliekant pakartotinius stebėjimus.

Statistiniai modeliai tiria statistinės aibės vienetų pasiskirstymą pagal individualias charakteristikas, veikiant visam veiksnių rinkiniui.

Statistinis dėsningumas veikia kaip objektyvus sudėtingo masinio proceso dėsningumas ir yra priežastinio ryšio forma. Jis aptinkamas kaip masinio statistinio stebėjimo rezultatas. Tai lemia jo ryšį su didelių skaičių dėsniu.

Statistinis dėsningumas su tam tikra tikimybe garantuoja vidutinių verčių stabilumą, išlaikant pastovų sąlygų, sukeliančių tam tikrą reiškinį, rinkinį.

Statistinių modelių savybė- pasireiškia tik reiškinių mase, kai duomenys apibendrinami per pakankamai didelį vienetų skaičių, vadinamą didelių skaičių dėsniu.

Didžiųjų skaičių dėsnis paprasčiausia forma skaito kad kiekybiniai masinių reiškinių modeliai aiškiai pasireiškia tik pakankamai dideliame jų kiekyje.

Esmė- skaičiuose, gautuose masinio stebėjimo metu, atsiranda tam tikras teisingumas, kurio negalima aptikti nedaugelyje faktų.

Didžiųjų skaičių dėsnis išreiškia atsitiktinio ir būtino dialektiką. Dėl abipusio atsitiktinių nukrypimų panaikinimo vidutinės vertės, apskaičiuotos to paties tipo kiekiams, tampa tipiškos, atspindinčios pastovių ir reikšmingų faktų poveikį tam tikromis vietos ir laiko sąlygomis.

Didžiųjų skaičių dėsnio pagalba atskleistos tendencijos ir modeliai galioja tik kaip masinės tendencijos, bet ne kaip dėsniai kiekvienu atskiru atveju.

Jis charakterizuoja tik vieną iš šablonų pasireiškimo masiniuose kiekybiniuose santykiuose formų X.

Taigi atskirų prekių kainos gali mažėti, o kitų – didėti, tačiau bendras visų vartojimo prekių ir paslaugų kainų pokytis rodo tolygų kainų augimą. Statistiniai suvestiniai rodikliai dažnai vadinami masės reiškiniais.

7 klausimas. Statistinių ataskaitų klasifikavimas ir grupavimas.

Suvestinė klasifikacija

apie pirminės informacijos apdorojimo gylį, gautas atlikus statistinį stebėjimą:

· paprastas;

· kompleksas.

Paprasta santrauka apima viso statistinių stebėjimo vienetų rinkinio sumų apskaičiavimą. Šiuo atveju nustatomas bendras tiriamo reiškinio tūris.

Sudėtinga santrauka yra procedūrų rinkinys, apimantis populiacijos vienetų grupavimą, kiekvienos grupės ir visos populiacijos populiacijos vienetų charakteristikų sumų apskaičiavimą, taip pat gautų rezultatų pateikimą statistinių lentelių pavidalu.

Remiantis informacijos apdorojimo forma:

· centralizuotas;

· decentralizuotas.

Centralizuota santrauka numato visos pradinės statistinės informacijos sutelkimą viename įstaigoje (Rosstat, Federal Customs Service..), kurioje ji visiškai apdorojama. decentralizuota santrauka pirminių duomenų apibendrinimas atliekamas nuosekliais etapais iš apačios į viršų pagal hierarchinę sistemą (statistinės ataskaitos).

Priklausomai nuo technikos:

· automatizuotas

· vadovas.

Grupinė klasifikacija

Priklausomai nuo jų pagrindu esančių atributų skaičiaus:

paprastas

daugiamatis (sudėtingas)

Grupavimas pagal vieną charakteristiką vadinamas paprastu.

Daugiamatis (sudėtingas) grupavimas atliekamas pagal dvi ar daugiau charakteristikų. Ypatingas daugiamatės grupavimo atvejis yra kombinuotas grupavimas, pagrįstas dviem ar daugiau charakteristikų, paimtų tarpusavyje, derinant.

Pagal charakteristikų ryšį:

hierarchinis

· nehierarchinis

Hierarchinis grupavimas atliekamas pagal dvi ar daugiau charakteristikų, o antrosios charakteristikos reikšmės nustatomos pagal pirmosios reikšmių diapazoną (pavyzdžiui, pramonės šakų klasifikavimas pagal subsektorius, produktų grupės pagal produktų elementus ir tt).

Nehierarchinis (pavyzdžiui, grupavimas pagal prekių grupes pagal papročius ar šalį ir pan.).

Pagal informacijos apdorojimo tvarką:

· P pirminis (suvestas remiantis pirminiais duomenimis)

· ir antriniai, kurie yra anksčiau sugrupuotų duomenų pergrupavimo rezultatas.

Skiriasi statistinės grupės ir klasifikacijos siekiamiems tikslams:

· tipologinis, nustatant kokybiškai vienarūšes populiacijas

· struktūrinis, tiriant gyventojų struktūrą

· analitinis (fakcinis) esamų priklausomybių tyrimai

9 klausimas. Paskirstymo serija. Atributinio ir variacinio pasiskirstymo eilutės

Statistinių stebėjimų suvestinės arba grupavimo rezultatai parodo statistinio pasiskirstymo eilutės.

Šiuo atveju kokybiniu pagrindu suformuotos paskirstymo eilutės vadinamos atributais (pvz., eksporto ar importo pasiskirstymas pagal prekių grupes, muitines, sandorio pobūdį, užsienio prekybos veiklos dalyvių kategorijas).

Jei kiekybinė charakteristika veikia kaip grupuotė, tada gaunama variacinio pasiskirstymo eilutė.

Atributų pasiskirstymo serija

Patartina ištirti struktūrą pagal atributines charakteristikas, remiantis tūriniais rodikliais, tokiais kaip eksportas ir importas. Taigi, eksportas (importas) gali būti skirstomas pagal visas tas charakteristikas, kurios atsispindi muitinės deklaracijoje (prekių grupės, šalys, pramonės šakos, muitų režimai ir kt.).

Atributų serijos struktūros elementas yra reikšmių grupės, kurias vienija kokybinės charakteristikos (pramonės šakų struktūra, šalis, produkto padėtis). Norint aiškiau apibūdinti paskirstymo eilučių struktūrą, naudojamos santykinės reikšmės (akcijos, %). Grafinis vaizdas dar aiškesnis.

Variacijų serijų tyrimo objektas - skaičiuoti tiriamo rodiklio reikšmių atsiradimo dažnumą ir analizuoti charakteristikų dažnumą

Bet kuri variacijų serija susideda iš elementų: parinkčių ir dažnių.

Variantai (x) yra individualios charakteristikos reikšmės, kurias ji užima variacijų serijoje, t.y. kintamos charakteristikos vertės.

Dažniai (/) – tai atskirų variantų skaičius arba kiekviena variacijų serijos grupė, t.y. Tai skaičiai, rodantys, kaip dažnai paskirstymo serijoje atsiranda tam tikrų parinkčių. Visų dažnių suma lemia populiacijos dydis, jo tūris. Pavyzdžiui, tiriant vidutinę prekės kainą, dažnis bus kilogramų skaičius prekės, kurios kaina patenka į tam tikrą intervalą.

Dažnis, arba santykinis dažnis (m) – dažnumo ir visos populiacijos apimties santykis, t.y. dažnis išreikštas procentais nuo bendro.

Atliekant variacinę analizę, pradiniai duomenys sugrupuojami skirstinio eilučių pavidalu, apskaičiuojamos statistinės charakteristikos, apibūdinančios skirstinio formą, sudaromas jo grafikas. Tada daroma išvada apie reguliarumo ir atsitiktinumo ryšį.

~ Statistikoje variacijų eilutės skirstomos į diskrečiąsias, kuriose charakteristikos reikšmės išreiškiamos izoliuotų dydžių pavidalu (dažniausiai sveikaisiais skaičiais), ir intervalą (nepertraukiamą), kur nurodomos charakteristikos reikšmės. tam tikru intervalu. Pavyzdžiui, užsienio ekonominės veiklos dalyviai pagal prekybos apyvartą skirstomi į grupes: $1000-10000, $10000-20000.

Statistinis diskrečiųjų variacijų eilučių pasiskirstymas yra parinkčių sąrašas didėjančia tvarka ir juos atitinkantys dažniai (santykiniai dažniai).

Statistinis nuolatinių variacijų eilučių skirstinys yra intervalų seka didėjančia tvarka ir juos atitinkantys dažniai (į šį intervalą patenkančių parinkčių suma laikoma intervalą atitinkančiu dažniu)

Paprastos lentelės

Paprastose lentelėse yra temos gyventojų, laiko ar teritorijų vienetų sąrašas.

Grupiniai stalai

Grupių lentelės yra tos, kurios turi populiacijos vienetų grupes pagal vieną požymį.

Kombinuotosios lentelės

Kombinuotose lentelėse yra populiacijos vienetų temų grupavimas pagal dvi ar daugiau charakteristikų.

Atsižvelgiant į predikato rodiklių raidos pobūdį, jie išskiriami:

§ lentelės su paprastu predikato rodiklių vystymu, kuriose yra lygiagretus predikato rodiklių išdėstymas.

§ lentelės su kompleksine predikato rodiklių raida, kuriose vyksta predikato rodiklių derinys: grupėse, suformuotose pagal vieną požymį, pogrupiai išskiriami pagal kitą požymį.

Norint pasiekti didžiausią statistinės lentelės išraiškingumą, ją kuriant būtina laikytis tam tikrų taisyklių.

1 Statistinės lentelės forma turi atitikti esamas lenteles, kad būtų galima palyginti kelių laikotarpių duomenis.

2 Lentelės pavadinimas (bendras pavadinimas) turi trumpai ir tiksliai apibūdinti pagrindinį jos turinį.Šis reikalavimas vienodai taikomas subjekto ir lentelės predikato pavadinimams.Jei bendras pavadinimas suformuluotas nepakankamai detaliai, galite pastabas prie jo.

3 Lentelėje turi būti nurodyta, kokiai teritorijai ar kokiam laikotarpiui ar laiko momentui duomenys teikiami, taip pat šių duomenų pobūdis (faktinis, standartinis, skaičiuojamas ir kt.).

4 Lentelės rodikliai turi turėti matavimo vienetus

5 Visos šio rodiklio skaitinės reikšmės yra pažymėtos tokiu pačiu tikslumu ir kt.

Santykinės vertybės

Santykinės vertybės pavaizduoti dviejų dydžių koeficientą ir apibūdinti kiekybinį ryšį tarp jų.

Skaičiuojant santykines reikšmes reikia turėti omenyje, kad in skaitiklis visada yra rodiklis, atspindintis tiriamą reiškinį, ir in vardiklis- rodiklis, su kuriuo lyginamas, laikomas lyginimo pagrindu arba pagrindu.

Priklausomai nuo palyginimo bazės, santykio rezultatas gali būti išreikštas forma koeficientas arba %.

Jei bazės arba palyginimo bazės reikšmė imama kaip viena (prilyginama vienetui), tai santykinė reikšmė (lyginimo rezultatas) yra koeficientas ir parodo, kiek kartų tiriama reikšmė yra didesnė už bazę. (tik tuo atveju, jei lyginamoji vertė yra žymiai didesnė už tą, su kuria ji lyginama.) Jei bazės arba palyginimo pagrindo reikšmė laikoma 100%, santykinės vertės apskaičiavimo rezultatas taip pat bus išreikštas %.

Pagal reikšmę jie skirstomi į santykines struktūros, palyginimo, dinamikos, intensyvumo, koordinacijos vertes.

Santykinės vertybės struktūros charakterizuoja tiriamų populiacijų sudėtį ir apskaičiuojamos kaip kiekvieno grupavimo elemento absoliučios vertės santykis su visu tūriu, t.y. kaip dalies santykis su visuma. Lyginant santykines struktūros vertes skirtingais laikotarpiais, galima atsekti struktūrinius pokyčius. (Eksporto ir importo dalis (dalis) užsienio prekybos apyvartos apimtyje... o eksporto dalis 3:4*100=75%).

Santykinės vertybės palyginimai atspindi to paties pavadinimo rodiklių kiekybinį ryšį, t.y. parodykite, kiek kartų (arba kiek%) vienas rodiklis yra didesnis (mažiau) už kitą. (importo padengimo eksportu koeficientas. - eksportas 3 kartus viršija importą.)

Santykinės vertybės garsiakalbiai charakterizuoti tiriamo reiškinio kitimą laikui bėgant, t.y. parodyti, kiek kartų ar kiek procentų ataskaitinio laikotarpio lygis yra didesnis arba mažesnis už bazinio laikotarpio lygį. (pagrindas arba grandinė)

intensyvumo- kiek vienos populiacijos vienetų tenka kitos populiacijos vienetui. Jos apskaičiuojamos vienos tiriamo reiškinio aibės absoliučią reikšmę padalijus iš aplinkos tūrį apibūdinančios reikšmės (per metus vienam darbuotojui buvo 500 deklaracijų).

koordinacija- santykis tarp atskirų stat. agregatas ir parodo, kiek kartų lyginamoji dalis yra didesnė arba mažesnė už dalį, kuri laikoma palyginimo pagrindu. Santykinis koordinacijos dydis apskaičiuojamas taip: 650: 6500 = 10%, t.y. kas 10 žmonių, turinčių aukštąjį išsilavinimą, yra 1 asmuo. su antrine technine.

Vidutinės vertės

išlyginant požymio vertės skirtumus, atsirandančius dėl vienokių ar kitokių priežasčių. Vidutinė reikšmė yra vienas iš įprastų kiekybinių rodiklių apibendrinimo būdų.

Apsvarstykime ženklą x(vidutinė charakteristika), pagal kurį reikia surasti Vidutinė vertė . Vidutinės charakteristikos reikšmės pateikiamos viena šalia kitos atskiros reikšmės arba parinktis (x 1, x 2, x 3....x n) (pavyzdžiui, variacijų serija) su dažnius individualias vertybes (f 1 , f 2 , f 3 , … f n) .

Vid. reikšmė matuojama tokio paties dydžio kaip ir atributas.

Kiekviena vidutinė reikšmė apibūdina tiriamą populiaciją pagal kurią nors vieną požymį.

viso

* aritmetinis vidurkis;

* geometrinis vidurkis;

* harmoninis vidurkis;

Aritmetinis vidurkis naudojami absoliučioms reikšmėms apibūdinti.

1. Jei kiekviena charakteristikos reikšmė atsiranda vieną kartą iš eilės, apskaičiuojama naudojant paprastą formulę (visų reikšmių suma, padalyta iš šių reikšmių skaičiaus
,
Kur x 1, x 2 atributo vertė (kaina)

n- reikšmių skaičius.

2. Jei ta pati charakteristinė reikšmė pasitaiko kelis kartus, naudokite formulę svertinis aritmetinis vidurkis. ,

f i- šios savybės pasikartojimo dažnis (gaminio svoris).

Aritmetinis vidurkis apskaičiuojamas skirtingai diskrečiųjų ir intervalų variacijų eilutėse.

Diskrečiose serijose požymio variantai dauginami iš dažnių, šie sandaugai sumuojami, o gauta sandaugų suma dalijama iš dažnių sumos.

Intervalų serijose charakteristikos reikšmė nurodoma intervalų forma, todėl reikia pereiti prie diskrečiųjų. Atitinkamų intervalų vidurys naudojamas kaip X i parinktys. - kaip pusė apatinės ir viršutinės ribų sumos.

Harmoninis vidurkis reikšmė yra vertė, apskaičiuota iš atvirkštinių kintančios charakteristikos verčių. Jis taip pat naudojamas kaip santykinių dydžių apibendrinanti charakteristika.

Vidutinė harmonika paprasta:

Svertinis harmoninis vidurkis:

,

Geometrinis vidurkis apskaičiuotą kiekį įprasta vadinti šaknimi n- darbinis laipsnis n atskiri požymio variantai.

Jis taip pat paprastai naudojamas santykiniams dydžiams apibūdinti ir apskaičiuojamas pagal formulę:

,

Tais atvejais, kai kai kurie arba visi pasirinkimai (pvz., augimo greičio koeficientai) yra susiję su laikotarpiais, kurių trukmė nėra vienoda:

, (10.6)

kur x yra parinktys; f i - svoriai; - svorių suma.

Nustatykite intervalo ilgį

(Xmax – Xmin)/k

kur Xmax, Xmin yra atitinkamai didžiausios ir minimalios indikatoriaus vertės;

k - intervalų skaičius.

1 klausimas. Statistinė populiacija. Populiacijos homogeniškumas

Statistinė populiacija- Tai visuma socialinių ir ekonominių socialinio gyvenimo objektų ar reiškinių, kuriuos vienija tam tikras kokybinis pagrindas, bendras ryšys, tačiau skiriasi vienas nuo kito individualiomis savybėmis. Tai, pavyzdžiui, namų ūkių rinkinys, šeimų rinkinys, įmonių, firmų, asociacijų rinkinys ir t. t. Aibės gali būti vienarūšės arba nevienalytės.

Rinkinys vadinamas vienalytis, jeigu vienas ar keli esminiai tiriamų jo objektų požymiai yra bendri visiems vienetams. Rinkinys yra vienalytis būtent šių savybių požiūriu.

Nagrinėjamas rinkinys, apimantis įvairių tipų reiškinius nevienalytis. Populiacija vienu atžvilgiu gali būti vienalytė, kitu – nevienalytė. Kiekvienu individualiu atveju populiacijos homogeniškumas nustatomas atliekant kokybinę analizę, išsiaiškinant tiriamo socialinio reiškinio turinį. Statistinė visuma susideda iš atskirų vienetų(užsienio prekybos statistikoje - atskiros prekių partijos), kurios turi savo savybes ir savybes.

Visuomenės vienetas yra pagrindinis statistinės visumos elementas, kuris yra registruojamų požymių nešėjas ir tyrimo metu tvarkomos sąskaitos pagrindas.

Yra žinoma, kad dviejų asmenų grupių (pavyzdžiui, vyrų ir moterų) buvimas, vidutinės tiriamų charakteristikų reikšmės skiriasi viena nuo kitos, gali sukelti klaidingą koreliaciją. Klaidinga koreliacija atsiranda, kai charakteristikose, tarp kurių nustatomas ryšys, atsiranda heterogeniškumo. Į heterogeniškumo problemą atkreipė dėmesį Kolleris. Koreliaciją gali lemti, pavyzdžiui, lyčių skirtumai, nors nagrinėjant grupes, kurias sudaro tik vyrai arba moterys, nėra ryšio tarp tirtų savybių. Fig. 8.4 schematiškai pavaizduotas šis atvejis. Duomenų nevienalytiškumas gali, priešingai, užgožti koreliaciją arba pakeisti jos ženklą.

Ryžiai. 8.4. Scheminis koreliacijos atsiradimo dėl duomenų nevienalytiškumo pavyzdys. Nėra ryšio tarp tirtų savybių ir y tiek vyrų, tiek moterų grupei. Tačiau kadangi vyrų grupė turi visas charakteristikų reikšmes ir y daugiau nei moterų, koreliacijos koeficientas, apskaičiuotas kaip visuma abiem grupėms, yra reikšmingas.

Kadangi faktorių analizė yra pagrįsta koreliacijomis tarp kintamųjų, duomenų nevienalytiškumas taip pat turi įtakos faktoriaus sprendimui. Thurstone'as jau atkreipė į tai dėmesį. Toliau keli pavyzdžiai, sukurti kaip modeliai, rodo heterogeniškumo įtaką faktoriaus struktūrai. Norėdami tai padaryti, naudojame skaitinį pavyzdį, kurį jau nagrinėjome anksčiau (7.5 ir 7.6 lentelės).

Prie nagrinėjamo pavyzdžio duomenų matricos pridedama antra matrica su duomenimis, atspindinčiais tų pačių 10 kintamųjų 200 asmenų stebėjimų rezultatus. Visiems duomenims nustatoma koreliacijos matrica. Šiuo atveju 2-osios stebėjimų grupės kintamieji redukuojami į standartinę formą. Standartizuotų kintamųjų vidurkis yra nulis, o standartinis nuokrypis yra vienas. Koreliacijos koeficientai tarp šių kintamųjų yra lygūs koreliacijos koeficientams, nurodytiems lentelėje. 7.6, ty dviejų koreliacinių matricų faktorių struktūra yra žinoma ir jos yra identiškos. Jei prie visų antrosios duomenų grupės kintamųjų reikšmių pridedama pastovi vertė, tada jų vidutinės vertės taps lygios šiai pastoviai vertei. Šios duomenų grupės kintamųjų koreliacijos koeficientai nesikeis.

Jei laikysime šią pastovią vertę a lygią 3, tada kombinuotas duomenų rinkinys skirsis pagal jo nevienalytiškumą. Galima parodyti, kad jei pradinis koreliacijos koeficientas tarp dviejų kintamųjų, priklausančių dviem duomenų grupėms, yra lygus , tai koreliacijos koeficientas, apskaičiuotas iš kombinuotų duomenų rinkinio aukščiau nurodytomis sąlygomis, bus lygus

kur yra konstantos, kurių dydžiu pasislenka vidutinės kintamųjų x ir y reikšmės. X ir Y žymi kombinuoto duomenų rinkinio kintamuosius. Įveskime naują kintamąjį, žymėdami jį Y. Be to, pirmai duomenų grupei priklausančiam individui jis įgis reikšmę, lygią nuliui, o antrai duomenų grupei priklausančiam individui – reikšmę, lygią vienai. Koreliacijos koeficientas tarp šio naujo Y kintamojo ir kintamojo X kombinuotam duomenų rinkiniui yra toks:

Naudojant šias dvi formules, koreliacijos matricos elementams, pateiktiems lentelėje, buvo apskaičiuoti atitinkami koreliacijos koeficientai. 7.6, ir buvo įvestos įvairios sąlygos, kurios lėmė duomenų nevienalytiškumą. Tada, naudojant gautas koreliacijos matricas, buvo atlikta faktorių analizė, įskaitant varimax sukimąsi, ir palyginimas su lentelėje pateiktu varimax tirpalo rezultatu. 7.5.

1 pavyzdys. Prie visų antrosios duomenų grupės pirmojo kintamojo reikšmių pridedame konstantą. Koreliacijos koeficientai tarp jo ir kitų kintamųjų keičiasi lyginant su lentelėje pateiktomis reikšmėmis. 7.6. Lentelėje 8.1 lentelėje pateikiami tik tie koreliacijos koeficientai, kurių reikšmės pasikeitė, palyginti su nurodytomis lentelėje. 7.6.

2 pavyzdys. Į duomenų matricą įtraukiame 11 kintamąjį, kad atsektume duomenų heterogeniškumo įtaką faktoriaus sprendimui. Etiketės kintamasis įgauna nulinę reikšmę asmeniui, priklausančiam pirmai duomenų grupei, ir vienetą asmeniui, priklausančiam antrai duomenų grupei.

8.1 lentelė. Koreliacijos koeficientai, kurie pasikeitė, palyginti su nurodytais lentelėje. 7.6 dėl duomenų nevienalytiškumo

Koreliacijos koeficientai tarp šio kintamojo ir kitų kintamųjų, apskaičiuotų iš 400 asmenų imties, taip pat pateikti lentelėje. 8.1. Šių dviejų pavyzdžių koreliacijos matricų faktorizavimo naudojant varimax rotaciją rezultatai pateikti lentelėje. 8.4, kur jie kontrastuojami su pirminiu faktoriaus sprendimu, gautu iš vienarūšių duomenų. Jei heterogeniškumo priežastis yra vieno kintamojo transformacija, tai faktorių atvaizdavimas keičiasi tik tiek, kiek sumažėja to kintamojo bendrumas. Tik antrajame pavyzdyje ženklinant 11 kintamąjį atsiranda trečiasis veiksnys, heterogeniškumo faktorius, ir jis labai apkraunamas. Nors individualūs koreliacijos koeficientai sumažėjo, kai buvo įvestas heterogeniškumas, faktorių žemėlapis pasikeitė mažai. Dėl naujo kintamojo heterogeniškumo atsirado naujas veiksnys.

3 pavyzdys. Prie antrosios pradinių duomenų matricos pirmųjų trijų kintamųjų verčių pridedame konstantą, t.y. padidiname duomenų nevienalytiškumą.

4 pavyzdys. Be 3 pavyzdžio sąlygų, pristatome žymėjimo kintamąjį 11.

Šių dviejų pavyzdžių koreliacijos matrica parodyta apatiniame lentelės kampe. 8.2. Palyginus su lentele. 7.6. Į akis krenta tai, kad dėl duomenų nevienalytiškumo kai kurie koreliacijos koeficientai keičiasi labai stipriai (pavyzdžiui, koreliacijos koeficientas tarp 2 ir 3 kintamųjų pakeitė savo reikšmę – nuo ​​0,546 iki + 0,524!). Nepaisant to, faktorių sudarymas mažai pasikeitė, kaip matyti iš lentelės. 8.4, nes kartu su nevienalytiškumu vis dar veikia pirminiai kintamųjų ir veiksnių ryšiai. Tačiau pirmojo veiksnio kintamųjų 1-3 apkrovos sumažėjo. Abiejuose paskutiniuose pavyzdžiuose trečiasis veiksnys atsiranda dėl duomenų nevienalytiškumo. Jis turi reikšmingų apkrovų iš 1–3 ir 11 kintamųjų.

5 ir 6 pavyzdžiai. Prie pirmųjų penkių kintamųjų reikšmių pridedame pastovią reikšmę. Šie kintamieji apkrauna pirmąjį veiksnį. Vadinasi, heterogeniškumas būdingas tiems kintamiesiems, kurie lemia pirmąjį veiksnį. Dėl šios situacijos sunku nustatyti heterogeniškumo įtaką šiam veiksniui. 6 pavyzdyje papildomai įvedamas žymėjimo kintamasis. Šių dviejų pavyzdžių koreliacijos matrica parodyta viršutiniame dešiniajame lentelės kampe. 8.2.

8.2 lentelė. Koreliacijos matricos 3 ir 4 pavyzdžiams (apatiniame kairiajame kampe) ir 5 ir 6 pavyzdžiams (viršutiniame dešiniajame kampe)

(žr. nuskaitymą)

Nuo stalo 8.4 rodo, kad dėl faktorinės analizės procedūrų skirstomi trys veiksniai. Trečiasis veiksnys nustatomas pagal kintamuosius 1-5, o jo atsiradimą lemia heterogeniškumo įvedimas. Lyginant su pirminiu faktorių kartografavimu, antrojo faktoriaus apkrovos praktiškai nesikeičia, o kai kurios pirmojo faktoriaus apkrovos keičiasi. I ir III faktorių apkrovos iš 1–5 kintamųjų yra teigiamos ir priešingo pobūdžio. Prasmingas pirmojo veiksnio aiškinimas šiame pavyzdyje sukeltų didelių sunkumų. Etiketės kintamasis 6 pavyzdyje rodo, kad duomenų nevienalytiškumas turėjo įtakos keičiant pirmojo faktoriaus apkrovas.

7 ir 8 pavyzdžiai. Prie 1 ir 3 kintamųjų reikšmių pridedama konstanta, antrojo kintamojo reikšmės yra pastovios. Koreliacijos matrica rodoma apatiniame kairiajame lentelės kampe. 8.3. Kai kurie koreliacijos koeficientai šioje matricoje labai pasikeitė, palyginti su pradinės matricos elementais ir 3 bei 4 pavyzdžių matrica. 7 pavyzdyje duomenų nevienalytiškumas visiškai nulemia trečiojo faktoriaus atsiradimą, kuris turi dideles teigiamas apkrovas nuo 1 ir 3 kintamieji ir didelė neigiama apkrova iš 2 kintamojo. Vadinasi, heterogeniškumas čia veikia kaip atskiras veiksnys – heterogeniškumo faktorius 1. Ženklinimo kintamasis rodo, kad duomenų heterogeniškumas beveik neturėjo įtakos I ir II faktoriams.

9 ir 10 pavyzdžiai. Prie 1, 3 ir 5 kintamųjų reikšmių pridedama konstanta, o prie 2 ir 4 kintamųjų reikšmių pridedama konstanta. Koreliacijos matrica rodoma viršuje dešinysis stalo kampas. 8.3. Šiuo atveju heterogeniškumo koeficientas sutampa su pirmuoju veiksniu. To pasekmė – sustiprėja pirmųjų penkių kintamųjų ryšys su pirmuoju veiksniu, o jo apkrovos iš šių kintamųjų didėja lyginant su pradiniais. Faktoriaus struktūra ir jo apkrovų požymiai nesikeičia. 10 pavyzdžio faktorinis sprendimas pritaikius varimax sukimosi procedūrą iš esmės sutampa su 9 pavyzdžio faktorių sprendimu ir dėl vietos stokos 2 lentelėje nepateiktas.

Pateikti pavyzdžiai, kuriuose buvo modeliuojamas heterogeniškumas, leidžia padaryti tokias išvadas:

1. Duomenų nevienalytiškumas gali lemti veiksnio atsiradimą tik dėl šio nevienalytiškumo.Jei jis sutampa su kokiu nors veiksniu, tai šio faktoriaus apkrovos didėja lyginant su pradiniais.

8.3 lentelė. Koreliacijos matricos 7 ir 8 pavyzdžiams (apatiniame kairiajame kampe) ir 9 ir 10 pavyzdžiams (viršutiniame dešiniajame kampe)

(žr. nuskaitymą)

8.4 lentelė. Varimax tirpalai gauti įvairiems pavyzdžiams

(žr. nuskaitymą)

Ženklinimo kintamojo įvedimas padeda nustatyti heterogeniškumo faktoriaus įtaką.

2. Duomenų heterogeniškumas keičia faktorių atvaizdavimą. Esant dideliems koreliacijos matricos pakeitimams, faktoriaus ekrane gali netikėtai įvykti tik nedideli pokyčiai. Faktorinė analizė yra mažiau jautri heterogeniškumo poveikiui nei atskiri koreliacijos koeficientai, nes heterogeniškumas faktoriaus sprendime gali pasirodyti kaip atskiras veiksnys ir gali būti pašalintas. Tačiau kai kuriais atvejais heterogeniškumo faktorius gali sutapti su kokiu nors aktyviu veiksniu. Tada šio faktoriaus rodymas pasikeis.

3. Veiksniai, kurie nustatomi iš kintamųjų koreliacijos koeficientų matricos naudojant R techniką, gali būti ir kintamųjų koreliacijos, ir tyrimo medžiagos heterogeniškumo pasekmė. Į tai reikėtų atsižvelgti aiškinant veiksnius. Taigi, yra dviejų tipų veiksniai: veiksniai, kuriuos lemia kintamųjų santykių veiksmas, ir veiksniai, kuriuos lemia duomenų nevienalytiškumas. Be to, yra ir klaidinančių veiksnių. Mūsų pavyzdžiuose faktorių analizės procedūros buvo atliekamos aklai, tačiau galėjome identifikuoti visų tipų veiksnius ir kiekvienu atveju nustatyti heterogeniškumo įtaką.

Jei ryšiai tarp individų būtų analizuojami remiantis kintamųjų imtimi (t. y. Q technika buvo naudojama siekiant nustatyti vienas nuo kito nepriklausomas individų grupes), tada rezultatai būtų panašūs, t. būtų gautas nevienalytiškumas. Šis rezultatas nėra netikėtas, nes pradinė abiejų metodų duomenų matrica yra ta pati. Priklausomai nuo problemos formuluotės, heterogeniškumas gali būti laikomas veiksniu, iškreipiančiu tyrimo rezultatus, kurį reikia atmesti, arba, atvirkščiai, kaip veiksnį, įvestą specialiai faktoriaus sprendimo pokyčiams sekti. Bet kokiu atveju duomenų nevienalytiškumas nėra kliūtis faktorinei analizei. Heterogeniškumą galima nustatyti atliekant faktorių analizę ir pašalinti iš tirpalo, ypač jei heterogeniškumo ženklui pasirenkamas ženklinimo kintamasis. Iš esmės eksperimentinėje medžiagoje visada yra abiejų tipų veiksniai.


Kuris pasižymi jo sudedamųjų dalių priklausymu tam pačiam reiškinio tipui ir elementų panašumu pagal šiam tyrimui esmines charakteristikas.

Verslo terminų žodynas. Akademik.ru. 2001 m.

Pažiūrėkite, kas yra „homogeninis rinkinys“ kituose žodynuose:

    PAKUOTĖ, HOMOGENINĖ- statistinis agregatas, kuriam būdingas jį sudarančių elementų priklausymas to paties tipo reiškiniams ir elementų panašumas pagal šiam tyrimui esmines charakteristikas. Statistinė visuma gali būti...... Didelis ekonomikos žodynas

    Visuomeninio gyvenimo objektų ar reiškinių rinkinys, kurį vienija bendras ryšys, tačiau skiriasi daugybe skirtingų savybių. Šie objektai ar reiškiniai reprezentuoja socialinių sistemų elementus (vienetus). Taigi, S. s. bus populiacija, elementai... ... Didžioji sovietinė enciklopedija

    homogeniška populiacija- (pavyzdžiui, atominės elektrinės) [A.S. Goldberg. Anglų-rusų energetikos žodynas. 2006] Energetikos temos bendrai EN homogeniškoje populiacijoje ... Techninis vertėjo vadovas

    Santykinai vienalytė objektų ar reiškinių grupė, kuriai būdingos tam tikros bendrosios savybės ir kurias reikia tirti renkant kiekybinius duomenis, apdorojant ir analizuojant... Didelis medicinos žodynas

    krūva- ▲, vienarūšės aibės aibė objektų, turinčių k l. bendrosios charakteristikos; homogeniška populiacija; rūšių rinkinys; netvarkinga vienalyčių porų skirtingų elementų kolekcija; ji apima visus tokius elementus;… … Ideografinis rusų kalbos žodynas

Paskaita 1.3

TYRIMO DUOMENŲ ANALIZĖ

Pagrindiniai žvalgymo analizės punktai

2 skaidrė

Tiriamosios analizės tikslas – kompaktiškai ir paprastai pateikti stebimus duomenis, leidžiančius nustatyti juose egzistuojančius modelius ir ryšius. Tiriamoji analizė apima duomenų transformavimą ir jų vizualizavimo, anomalių reikšmių nustatymo, apytikslį pasiskirstymo tipo įvertinimą ir išlyginimą.

Tiriamosios analizės terminas vartojamas ir platesne prasme nei preliminarus duomenų apdorojimas. Pavyzdžiui, atliekant daugiamates procedūras, tokias kaip faktorių analizė, daugiamatis duomenų mastelio keitimas, tiriamosios analizės tikslas, be pirminių duomenų analizės, yra nustatyti minimalų skaičių veiksnių, kurie patenkinamai atkuria kovariacijos (koreliacijos) matricą arba artumo matricą. stebimų kintamųjų

3 skaidrė

Remiantis ankstesne paskaita, manome, kad tyrėjas turi stebėjimų „objekto-ypatybės“ matricos arba požymio vektoriaus pavidalu ir dalinio ar visiško apriorinės informacijos apie šių duomenų priežasties-pasekmės mechanizmą nebuvimą. Analizuojant dažniausiai kyla šie klausimai:

1. Kokį stebėjimų apdorojimą reikėtų atlikti?

2. Kurį modelį turėčiau pasirinkti?

3. Kokias išvadas galima padaryti?

Norint pasirinkti apdorojimo metodą, reikalingas stebimų duomenų modelis. Prieš atliekant stebėjimą, būtina nurodyti matuojamo dydžio pobūdį ir savybes, t.y. naudoti a priori informaciją. Kuo išsamesnė a priori informacija, tuo tiksliau ir mažesnėmis sąnaudomis galima gauti reikiamus rezultatus. Todėl a priori informacijos rinkimo, apdorojimo ir naudojimo metodų formalizavimas yra labai svarbus. Remiantis šios informacijos analize, sukonstruotas tiriamo reiškinio modelis, parenkama įranga, parengiama eksperimento atlikimo metodika.

4 skaidrė

Norint gauti išsamesnę informaciją apie tiriamą reiškinį, atliekama pirminė duomenų analizė, vadinama tiriamoji duomenų analizė. Tiriamoji analizė būtina visais atvejais, išskyrus labai paprastas užduotis. Pavyzdžiui, prieš parenkant tiriamo reiškinio modelių šeimą daugeliu atvejų reikia atlikti preliminarią ir grafinę duomenų analizę. Norėdami tai iliustruoti, apsvarstykite paprastą vienmatės tiesinės regresijos modelį. Pagal šį modelį daroma prielaida, kad stebėjimai n garai ( x 1 ,Y 1), …, (x n, Y n) galima apibūdinti lygtimi



Kaip minimalią preliminarią analizę galima laikyti taško sklaidos diagramą ( x j,Yj). Išanalizavę grafikus galime daryti išvadą, kad dispersija yra pastovi Y i, dėl kintamųjų transformavimo tikslingumo, siekiant nustatyti anomalių stebėjimų buvimą, kurių pašalinimas reikalauja specialių tyrimų. Po tokio duomenų apdorojimo, darant prielaidą, kad modelis (1) yra teisingas, reikia įvertinti parametrus b 0, b 1 ir atlikti grafinę likučių tarp stebimų ir įvertintų verčių analizę. Y i. Remiantis šia analize, galima patvirtinti arba pasiūlyti kitokį modelį.

5 skaidrė

Panagrinėkime paprasčiausias žvalgymo analizės procedūras, susijusias su išankstinis duomenų apdorojimas. Svarstant konkrečias duomenų pateikimo formas, jie papildo pirmoje paskaitoje aprašytus metodus. Paaiškinkime tiriamosios konkrečių vertinimo klausimų analizės poreikį.

Vidurkio įvertinimas. Panagrinėkime paprasčiausią tikrojo vidurkio įvertinimo pavyzdį m nepriklausomas atsitiktinis dydis x pagal tūrinį mėginį n. Jei apskaičiuojamas vidurkio įvertis, kyla klausimas: „kiu įvertis skiriasi nuo nepastebėtos tikrosios vertės? Nuo tikrosios prasmės m nėra, tada nustatomas pasikliautinasis intervalas, kuris tam tikra tikimybe apima tikrąją vertę.

Santykis turi t- Studentų paskirstymas. Labai dažnai sudaromi 95 % pasikliovimo intervalai, darant prielaidą, kad reikšmė t paprastai paskirstytas. Normaliam pasiskirstymui vertė t bus lygus 1,96, o už t- pasiskirstymai pagal laisvės laipsnių skaičių v (v = n– 1), lygus 1; 3 ir 12 balų t, atitinkamai, yra lygus 12,7; 4.3 ir 2.18. Štai kodėl mažiems imčių dydžiams vietoj to naudoja normalųjį pasiskirstymą t- pasiskirstymas lemia dideles intervalo įvertinimo klaidas. Didelis intervalų įverčių skirtumas atsiranda dėl skirtumo t- pasiskirstymas nuo normalaus paskirstymo uodegose.

6 skaidrė

Realiųjų skirstinių uodegos, kaip taisyklė, turi didesnę sklaidą nei normaliojo skirstinio. Skirtumas tarp tikrojo ir normalaus skirstinio gali būti skirtingas:

1. Dauguma matavimų atliekami konkrečiais vienetais, tokiais kaip miligramai, mikronai, o jų reikšmės yra ribotos. Normalaus pasiskirstymo dėsnio reikšmės svyruoja nuo – ¥ iki + ¥.

2. Ryški kai kurių skirstinių asimetrija (pvz., c 2, F) su mažais mėginiais tolygaus pasiskirstymo kraštai yra staigūs.

3. Elgesys paskirstymo „uodegose“. Vienas ar daugiau pašalinių iš daugelio stebėjimų gali žymiai pakeisti vidurkį ir katastrofiškai pakeisti dispersiją. Neįtikėtinos vertės eksperimentiniuose duomenyse beveik neišvengiamos. Tokių verčių skaičius medicininiuose duomenyse siekia iki 30%, o specialiai sukurtuose eksperimentuose – apie 1% visų duomenų.

Vidurkio įvertinimas aritmetiniu vidurkiu turi didelių privalumų: nešališkumas bendroms populiacijoms, turinčioms matematinius lūkesčius, pakankamumas, išsamumas ir atitinkamai visiškas normaliųjų, Puasono, gama skirstinių efektyvumas ir, esant pakankamai plačioms sąlygoms, patogus asimptotiškai normalus skirstinys, o tai daugeliu atvejų jau apytiksliai pasiekiama naudojant vidutinius imties dydžius n. Toks įvertinimas taip pat turi trūkumų: vienodam pasiskirstymui jo efektyvumas yra lygus nuliui, o kai kurių imčių atveju tik vienas neįtikėtinai didelis stebėjimas gali paversti aritmetinio vidurkio įvertinimą nenaudingu.

7 skaidrė

Jei pasiskirstymo normalumą pažeidžia išoriniai duomenys, patartina naudoti tvirtas(tvirtas – stiprus, sveikas, stambus) vertinimai. Tikslaus vidurkio įvertinimo pavyzdys, kuris toleruoja skirstinio uodegų nukrypimus nuo normalaus, yra mediana paskirstymus. Ji, kaip ir stebėjimų vidutinė vertė, nepriklauso nuo vieno ar kelių neįtikėtinai didelių matmenų.

Mediana, kaip patikima, nėra veiksmingas įvertis, palyginti su normaliojo skirstinio aritmetinio vidurkio įverčiu.

8 skaidrė

Sklaidos matas. Praktikoje duomenų sklaidos kiekiui apibūdinti naudojami šie matai: standartinis nuokrypis s arba jo kvadratas - dispersija s 2, taip pat diapazonas R. Šių dydžių įverčiai yra atitinkamai žymimi. S, S 2 , R. Sklaidos įvertinimas pagal S plačiai naudojamas ir naudingas tiesinėms transformacijoms, pvz Y= b + a X. Kai kuriems skirstiniams s 2 = ∞, ir diapazonas yra taikomas; Dėl neįtikėtinai didelių stebėjimų nuokrypių dispersijos įvertis taip pat gali būti labai didelis, todėl pasiskirstymo tipas skiriasi nuo tikrojo.

Sklaidos įvertinimas pagal mėginių diapazoną yra greita procedūra. Ryšium su didelės spartos kompiuterių atsiradimu, skaičiavimo pranašumai R palyginti su S tampa vis mažiau svarbūs, tačiau su skaičiavimo paprastumu susiję privalumai išlieka R ir galimybę ne specialistams taikyti šią statistiką. Taigi taikymo sritis beveik visiškai išstumta S iš kokybės kontrolės sistemų, kuriose nedideli mėginiai imami trumpais laiko intervalais, o kontrolės lentelės sudaromos remiantis vidutinėmis vertėmis ir intervalais.

Reikėtų pažymėti, kad diapazonas gali būti naudojamas didelėms neįtikėtinoms skaičiavimų klaidoms atpažinti S bet kurios populiacijos mėginiams. Tai išplaukia iš ribotų santykių S/R.

9 skaidrė

Apibendrinant aptartus vertinimus, darytina išvada, kad yra priežasčių nevertinti visų duomenų vienodai. Prieš pradedant apdoroti stebėjimus, būtina patikrinti mėginio homogeniškumą ir, jei jis nevienalytis, padalyti į sluoksnius. Išskirtinių stebėjimų buvimas taip pat pažeidžia mėginio homogeniškumą. Šiuo atveju vienas metodas yra pagrįstas šių nuokrypių aptikimu ir pašalinimu.

Nukrypimų pašalinimas užtikrina sąmatos saugumą, tačiau efektyvus tik tuo atveju, jei yra aiški riba tarp pašalintų ir nepašalintų duomenų. Greta akivaizdžių duomenų, kurie ryškiai išsiskiria, yra „abejotinų“ duomenų zona (1 pav.), kurią ne visada galima atpažinti. Čia lengva leisti neteisingus ištrynimus ir nepagrįstus išsaugojimus; net idealiai po ištrynimo negalima tikėtis visiško efektyvumo. Šiuos sunkumus galima įveikti naudojant patikimus įvertinimo metodus. Patikimi algoritmai užtikrina saugų ir efektyvų įvertinimą, kai yra nukrypimų ir abejotinų duomenų.

Ryžiai. 1. Pasiskirstymo tankis. Duomenų padalijimas į tris grupes.

10 skaidrė

Apie rezultatų kokybę Tyrimo tikslas – atsakyti į klausimą: ar rezultatai gali būti pritaikyti praktiškai. Gautų rezultatų tinkamumas gali būti įvertintas kryžminės patikros metodais. Dažniausiai naudojami paprasti ir dvigubo kryžminio patikrinimo metodai.

Paprastas dvigubas patikrinimas. Gautas modelis išbandomas naudojant duomenis, kurie skiriasi nuo tų, iš kurių buvo apskaičiuoti modelio parametrai. Šiuo atveju stebėjimų imtį galima padalyti į dvi (ar daugiau) dalis. Viena dalis naudojama apdorojimui, kita – testavimui. Tada dalys gali būti pakeistos, o tai gali suteikti šiek tiek daugiau informacijos, nors yra tam tikrų sunkumų, kylančių dėl dviejų modelio kokybės vertinimų ryšio.

Toks dvigubas patikrinimas gali būti atliekamas ir daugkartinio duomenų padalijimo atveju, pavyzdžiui, imtį galima padalyti į 10 lygių dalių. Bet kuriame iš 9 įvertinkite modelį, o likusioje dalyje atlikite patikrinimą. Po to pakartokite procedūrą 9 kartus, kiekvieną kartą paimdami naujas 9 dalis. Kai kuriais atvejais procedūra yra sudėtinga. Skaičiavimas atliekamas su visais duomenimis be vieno stebėjimo, o patikrinimas atliekamas pagal atmestą vertę. Skaičiavimai kartojami kiekvienam imties stebėjimui. Nereikėtų suklaidinti paprasto testo rezultatų, nes kontrolinė imtis visada bus panašesnė į darbinę imtį nei į objektų, kurių tyrimo rezultatai bus naudojami, imtį.

Dukart patikrinkite. Bandymas atliekamas naudojant duomenis, kurie skiriasi nuo tų, kuriais remiantis buvo sukurtas modelis, ir tų, kurie buvo naudojami modelio parametrams apskaičiuoti. Gydytojai šį tyrimo metodą vadina „dvigubai aklu“. Pasirinkus modelį ir apskaičiavus parametrus, galima surinkti „šviežius duomenis“ kryžminiam patikrinimui. Jei tokių duomenų gauti neįmanoma, galite kreiptis į archyvinius duomenis, jei jie liko nežinomi kol buvo kuriamas modelis ir buvo skaičiuojami šio modelio parametrai. Atliekant dvigubą patikrinimą, svarbu, kad patikrai naudojami duomenys skirtųsi nuo tų, kuriais remiantis buvo atlikti vertinimai. Galite naudoti skirtingų metų duomenis, jei juos galima priskirti tam pačiam laikui, arba kitų tyrinėtojų duomenis.

11 skaidrė

Heterogeniniai mėginiai

Standartiniai bet kokios imties duomenų statistikos įvertinimo metodai yra pagrįsti prielaida, kad imtis yra paimta iš homogeninės populiacijos, turinčios paprastą pasiskirstymo dėsnio struktūrą. Tuo tarpu praktikoje mėginiai dažnai susidaro veikiant įvairioms priežastims ir sąlygoms ir gali būti pateikiami kaip tam tikro vienarūšių mėginių rinkinio, kurių kiekvienas turi paprastą struktūrą, derinys. Pavyzdžiui, turtingųjų ir kitų valstybės piliečių pajamos negali būti laikomos vienarūšėmis, nes turi skirtingą ekonominį pagrindą; skirtingų vertybių objektai, skirtingi ekonominiais padariniais. Pavyzdžiai apima nehomogeniškas dinaminių modelių sekas atliekant virpesių analizės problemas mechanikos inžinerijoje; seismogramos geofizikoje; kardiogramos su širdies ritmo sutrikimais.

Heterogeniškumo pobūdis gali būti skirtingas. Pavyzdžiui, galima derinti iš populiacijų su skirtingais vidurkiais ir dispersijomis arba su tomis pačiomis priemonėmis, bet skirtingomis dispersijomis. Svarbią heterogeninių mėginių klasę taip pat sudaro mėginiai, kuriuose yra vienas ar daugiau neįtikėtinai dideli arba maži matmenys. Heterogeninių apdorojimas

Tegul stebėjimai susideda iš trijų vienalyčių sluoksnių, kurių kiekvieną galima apibūdinti paprasta vienmate regresija. Šios priklausomybės parodytos fig. 2, kur tiesės yra kiekvienos populiacijos regresijos linijos. Jei apdorosime bendrą šių populiacijų imtį, gausime regresijos ryšį, parodytą Fig. 2 punktyrinė linija. Akivaizdu, kad bendrų duomenų regresija neturi prasmės.

Norint nustatyti imties homogeniškumą, reikalinga išsami tiriamos populiacijos turinio analizė. Ši analizė turėtų būti pagrįsta esminiu neatsitiktiniu požymiu, pagal kurį pradinė populiacija gali būti pavaizduota kaip kelių vienarūšių populiacijų sąjunga. Pavyzdžiui, mokesčių deklaracijas galima suskirstyti į grupes pagal pajamas; įstaigos – pagal darbuotojų skaičių; ūkių – pagal bendrą žemės plotą ir bendrąsias pajamas. Dalinant mėginį į sluoksnius, reikia atsakyti į klausimus, kokiu pagrindu geriau atlikti stratifikaciją, kaip nustatyti ribas tarp sluoksnių, kiek turi būti sluoksnių.

12 skaidrė

Heterogeninės populiacijos padalijimas į vienarūšes

Tegul tiriamos visumos x 1, ..., x n imtyje yra dviejų nepriklausomų atsitiktinių dydžių, kurių pasiskirstymo tankiai f(x,q 1) ir f(x,q 2), elementai. Pažymėkime A imties elementų, priklausančių pirmajam atsitiktiniam dydžiui, rinkinį, B – imties elementų aibę iš antrosios populiacijos. Reikia rasti 1, 2 nežinomų parametrų q 1, q 2 ir aibių A ir B įverčius. Norėdami įvertinti šiuos keturis nežinomuosius, naudojame didžiausios tikimybės metodą. Nežinomuosius q 1, q 2 ir A bei B randame iš tikimybės funkcijos koordinatinio maksimizavimo sąlygos

Kiekviename žingsnyje vieno iš nežinomųjų tikimybės funkcijos reikšmė yra maksimali. 1) < f(x i , 2),. Если f(x i , 1) = f(x i , 2), то оба варианта одинаково правдоподобны, что для непрерывных распределений является маловероятным событием. Далее берем следующий элемент и относим его в то или иное множество. Полученные множества сравниваем с множествами на предыдущем шаге. Если они отличаются, то переходим к шагу 2, в противном случае алгоритм останавливается, и задача считается решенной.

Algoritmo trūkumas yra tas, kad jis sustoja ties pirmuoju tikimybės funkcijos vietiniu maksimumu. Šio trūkumo iš dalies galima išvengti sprendžiant skirtingų pradinių skaidinių uždavinį į poaibius A ir B. Jei galutiniai kelių pradinių sąlygų rezultatai skiriasi, imamas sprendimas, kurio tikimybės funkcijos reikšmė yra didesnė. Iš to išplaukia, kad aukščiau pateiktas algoritmas taip pat taikomas mėginiams, turintiems daugiau nei du sluoksnius.


Uždaryti