Par izlases datiem, ciktāl tie ir pareizi un precīzi
Vai patiesību uzzinām arī santīmos, vai tikai latos
Dr.oec. Signe Bāliņa, Dr.habil.oec. Oļģerts Krastiņš — “Latvijas Vēstnesim”
Mūsdienās visi socioloģiskie, politoloģiskie un sociālekonomiskie pētījumi, kuru rezultāti tiek publicēti zinātniskajā literatūrā un plašsaziņas līdzekļos, balstās uz izlases veidā iegūtiem datiem. Pastāv tradicionāls uzskats, ka tad, ja respondentu (cilvēku, mājsaimniecību, uzņēmumu) skaits pārsniedz tūkstoti, iegūtie dati labi raksturo ģenerālkopu, no kuras ņemta izlase, citiem vārdiem, ir reprezentatīvi. Tomēr visos gadījumos, kad izmantota izlase, ir jārēķinās ar izlases kļūdām. Cik tās ir lielas, to parasti nerēķina un nepublicē. Ja izņēmuma gadījumos to dara, tad ļoti vienkāršoti, pieņemot, ka ir veikta vienkārša gadījumizlase, kaut gan reālā izlase tam neatbilst.
Mūsu pētījumā pirmoreiz Latvijā ir aprēķinātas dažādu to rādītāju izlases kļūdas, kuri iegūti Centrālās statistikas pārvaldes mājsaimniecību budžeta pētījumā 1999. un 2000.gadā, ņemot vērā reālo izlases izvietojumu teritorijā (dizainu) un citus svarīgus apstākļus. Šis pētījums ir viens no lielākajiem vai pat vislielākais sociālekonomiskais pētījums Latvijā. 2000.gadā pētījums notika 3847 gadījumizlases ceļā izvēlētās mājsaimniecībās. Tādēļ iegūtie rezultāti ļauj spriest ne vien par šī, bet arī par citu līdzīgu pētījumu aptuvenām izlases kļūdām: ciktāl šādu pētījumu rezultāti ir vērtējami kā pareizi un ciktāl — kā precīzi.
Izlases kļūdas
Izlases kļūdas var būt sistemātiskas un nejaušas. Turklāt ir jārēķinās ar novērošanas un reģistrācijas kļūdām, kuras galvenokārt rada respondentu ierobežotās atmiņas iespējas un nevēlēšanās atklāt patiesību. Ar pēdējām būtu jārēķinās arī tad, ja novērotu visu interesējošo ģenerālkopu, piemēram, visus Latvijas iedzīvotājus.
Sistemātiskās izlases kļūdas rodas izlases izveidošanas gaitā un pašā novērošanas procesā.
Izlases izveidošanas laikā tās rodas tad, ja visām ģenerālkopas vienībām (Latvijas mājsaimniecībām) nav nodrošināta vienāda varbūtība nonākt izlasē. Piemēram, mājsaimniecību budžetu pētījumā pilsētās mājsaimniecību izlozē pētījumam izmanto Iedzīvotāju reģistra datus par 15 gadus vecām un vecākām personām. Līdz ar to, ja kādā mājsaimniecībā ir trīs šādas personas, tai ir trīsreiz lielāka varbūtība nonākt izlasē nekā vieninieka mājsaimniecībai. Šādu sistemātisko kļūdu novērš, aprēķinot katrai izlases vienībai (mājsaimniecībai) varbūtību, ar kādu tā iekļauta izlasē. Šo varbūtību apgrieztie lielumi veido statistiskos svarus. Tie rāda, cik mājsaimniecību ģenerālkopā pārstāv katra izlasē nokļuvusī mājsaimniecība. Šos svarus ņem vērā, nosakot interesējošo rādītāju skaitliskās vērtības, un šādu procedūru sauc par izlases datu svēršanu (svarošanu).
Sistemātiskās izlases kļūdas pašā novērošanas procesā rodas sakarā ar atteikumiem piedalīties pētījumā (nerespondenci). 2000.gada mājsaimniecību budžetu pētījumā no sadarbības atteicās 10,4% izlases sarakstā iekļauto mājsaimniecību, bet, ņemot vērā arī tās mājsaimniecības, kuras neizdevās sastapt mājās norādītajā adresē, kopējais nerespondences līmenis sasniedza 26%. Izlasē trūkstošās mājsaimniecības aizstāj ar citām, kuras atkal izvēlas gadījumizlases ceļā. Tomēr arī šāda šķietami optimāla rīcība nenovērš sistemātiskas izlases kļūdas. Tās rodas, ja nerespondences līmenis dažādās demogrāfiskajās, sociālajās vai citās grupās ir atšķirīgs. Piemēram, atsaucīgi sadarbībai parasti ir pensionāri, viņus viegli atrast mājās. Turpretī jauni cilvēki, īpaši uzņēmēji, grūtāk atrodami un mazāk atsaucīgi. Tādēļ izlasē parādās relatīvi vairāk pensionāru mājsaimniecību, nekā to ir ģenerālkopā (Latvijā).
Lai šo kļūdu kompensētu, notiek īpašs kalibrēšanas process, kura gaitā izlases vispārinājumus saskaņo ar iepriekš zināmiem ģenerālkopas datiem. Pašreiz ir nodrošināta mājsaimniecību budžetu pētījuma rezultātu atbilstība iedzīvotāju statistikas datiem.
Kā redzams, sistemātisko izlases kļūdu novēršana vai kompensēšana ir tehniski sarežģīta, bet iespējama. To arī dara.
Kad sistemātiskās izlases kļūdas ir novērstas, esam ieguvuši maksimāli pareizu informāciju par interesējošo ģenerālkopu, no kuras ņemta izlase. Dati ir nenobīdīti, efektīvi un atbilst citām statistikas teorijā izvirzītajām prasībām. Tomēr tiem joprojām piemīt nejaušās izlases kļūdas. Dati, būdami pareizi, tomēr nav īsti precīzi, precizitātes pakāpe var būt dažāda, un to novērtē ar matemātiskās statistikas metodēm.
Nejaušo izlases kļūdu lielums ir atkarīgs no izlases lieluma, izlases izvietojuma un interesējošā rādītāja dažādības (variācijas) novērojumos.
Ienākumu un patēriņa izdevumu vērtējumi Latvijā un tās teritorijā
2000.gada mājsaimniecību budžetu pētījumā ir konstatēts, ka vidēji visu Latvijas mājsaimniecību rīcībā esošais ienākums, rēķinot vidēji uz vienu mājsaimniecības locekli, bija Ls 69,19 mēnesī. Svēršanas un kalibrēšanas rezultātā ir novērstas sistemātiskās izlases kļūdas. Taču šis rādītājs nav brīvs no nejaušām jeb gadījuma izlases kļūdām.
Nejaušās izlases kļūdas var uzrādīt trejādi:
1) uzrādot absolūtās izlases kļūdas, kuras ir izteiktas raksturojamās pazīmes vienībās, piemērā — latos.
Rīcībā esošā ienākuma standartkļūda ir Ls 1,56, tas nozīmē, ka, līdzīgas izlases atkārtojot vēl un vēlreiz un rēķinot katrai no tām vidējo rīcībā esošo ienākumu, 68% izlašu rezultāti iekļautos intervālā Ls 69,19 ± Ls 1,56. Citiem vārdiem, standartkļūda ir saistīta ar varbūtību 0,68. Ja vēlas strādāt ar lielāku varbūtību, standartkļūda ir jāpareizina ar īpašu varbūtības koeficientu, iegūstot robežkļūdu. Piemēram, izvēloties varbūtību 0,95, varbūtības koeficients ir 1,96;
2) uzrādot tiešā veidā vērtējuma intervālu. Piemēram, standartintervāls Ls 69,19 ± Ls 1,56 būs no Ls 67,63 līdz Ls 70,75. Ar varbūtību 0,68 var sagaidīt, ka rīcībā esošais ienākums visās Latvijas mājsaimniecībās 2000. gadā nav bijis mazāks par Ls 67,63 un nav bijis lielāks par Ls 70,75 mēnesī;
3) uzrādot izlases relatīvo kļūdu. To atrod, rādītāja standartkļūdu dalot ar pašu rādītāju. Rīcībā esošā ienākuma relatīvā izlases kļūda ir 1,56/69,19 = 2,25 (%).
Visi trīs pieraksta veidi ir vienādi informatīvi, un ir viegli pāriet no viena uz otru ar vienkāršiem izskaitļojumiem. Taču atkarībā no demonstrācijas mērķa šie pieraksti var būt labāk vai sliktāk uzskatāmi.
Mūsu gadījumā visvienkāršākais un uzskatāmākais šķiet intervālu pieraksts un tam atbilstoši veidota tabula. Relatīvo kļūdu pieraksts izraisa pesimistiski skeptisku vizuālo iespaidu par patēriņa izdevumu datu precizitāti, kuru īpatsvars visu patēriņa izdevumu kopumā ir mazs.
Novērtējot tabulā ietvertos datus, var atzīmēt, ka mājsaimniecību budžetu pētījuma galvenie rezultāti ir pietiekami reprezentatīvi valstī kopumā, tāpat atsevišķi Rīgā, sešās citās lielākajās pilsētās un rajonu pilsētās. Dati, kas iegūti no lauku mājsaimniecībām, satur ievērojami lielākas izlases kļūdas. Vispirms to nosaka mazāks izlases vienību skaits. 2000. gadā tika novērota 2571 pilsētu mājsaimniecība, un pēc to datiem aprēķināti pilsētu iedzīvotāju labklājības rādītāji, bet laukos izlasē novērotas tikai 1336 mājsaimniecības jeb apmēram divreiz mazāk.
Turklāt laukos tika izmantots no izlases kļūdu samazināšanas viedokļa neizdevīgs izlases izvietojums (dizains). Veidojot divpakāpju stratificētu izlasi, laukos izlases pirmajā pakāpē no 466 pagastiem un to grupām izlozes ceļā atlasīja tikai 29, un tikai tajos veica konkrētu mājsaimniecību gadījumizlasi. Tā kā Latvijas pagastos saimnieciskā attīstība un iedzīvotāju dzīves līmenis ir ļoti atšķirīgs, izlases pirmajā pakāpē atlasīto pagastu skaits ir mazs un izlases kļūdu galvenā daļa veidojās tieši šajā pakāpē. Ir ieteikts turpmāk izlasi izvietot vairākos pagastos, savukārt katrā no tiem aptaujāt mazāk mājsaimniecību.
Vērtējot datu reprezentativitāti par atsevišķām patēriņa izdevumu grupām, jāatzīmē, ka samērā precīzi dati ir iegūti par pārtikas izdevumiem. Šie izdevumi ir fiksēti visās mājsaimniecībās, diezgan līdzīgās, piesātinājumam tuvās summās, kas samazina novērojumu variāciju un vidējo lielumu izlases kļūdas.
Mājokļa uzturēšanas izmaksām un samaksai par komunālajiem pakalpojumiem ir liela dažādība (variācija) ģenerālkopā. Šo izdevumu apjoms ir atkarīgs no mājokļa piederības pašas mājsaimniecības locekļiem, pašvaldībai vai citai privātpersonai, īpaši no labierīcībām mājoklī, kuru lietošana mūsdienās izmaksā dārgi. Šie apstākļi veido samērā lielāko vidējo lielumu izlases kļūdu. Varbūt atsevišķās samērā homogēnās teritorijās izlases kļūda ir pat mazāka nekā visā Latvijā.
Vislielākās izlases kļūdas ir rādītājiem par tām izdevumu grupām, kur iespējami un sastopami nulles novērojumi: ir samērā daudz mājsaimniecību, kurām šādus izdevumus nevajag un to nav bijis. Piemēram, pensionāru mājsaimniecībām parasti nav izdevumu par izglītību, trūcīgo labklājības grupu iedzīvotājiem reti ir atrasti līdzekļi atpūtai un kultūrai utt. Šāda situācija izlasē, kas atspoguļo situāciju visā Latvijā, palielina izlases kļūdas.
Ir aprēķinātas izlases kļūdas arī dzīves līmeņa rādītājiem raksturīgākajās sociālās, demogrāfiskās un labklājības deciļgrupās. Par to, iespēju robežās, citreiz.
Nobeigumam
Šajā rakstā esam pārgājuši no iedzīvotāju labklājības rādītājiem, kas katrs uzrādīts ar vienu skaitli, uz intervālu pierakstu. Vai tas ir pareizāks, tuvāk īstenībai un turpmāk tiks lietots vienmēr? Domājam, ka ne. Pieraksts ar vienu skaitli (matemātiķi reizēm saka — ar punktu) ir vienkāršāks un daudz ērtāks tālākai izmantošanai nekā pieraksts ar intervālu. Turklāt šādai rīcībai ir arī dziļāka nozīme. Ja teicām, ka mājsaimniecību rīcībā esošais ienākums 2000.gadā ir bijis robežās no Ls 67,63 līdz Ls 70,75 ar centru Ls 69,16 latu, tad ir daudz lielāka varbūtība, ka mums nezināmais visas Latvijas mājsaimniecību (ģenerālkopas) ienākums ir tuvāks centram (Ls 69,16) nekā kādai no intervāla robežām (Ls 67,63 vai Ls 70,75). Intervāla centrs — vidējais lielums — tomēr ir labākais raksturotājs, ja gribam kādu rādītāju izteikt ar vienu skaitli.
Intervālu vērtējums dod vērtīgu papildu informāciju, kuru var izmantot tālākā statistikas darba pilnveidošanai, optimālai izlases izvietošanai atvēlētā finansējuma robežās u.c. Lasītājiem un datu izmantotājiem šī papildu informācija ir svarīga, lai izšķirtos par to, ar kādu drošības pakāpi var formulēt savus secinājumus un atziņas.
Ja kādu datu reprezentativitāte šķiet par zemu, kārtējā gada datus var papildināt ar iepriekšējo gadu datiem, novērtējot, vai tendences un likumsakarības ir stabilas laikā un izmaiņas izskaidrojamas; ja tā, tad dati ir ieguvuši papildu drošību.
Ja labāk pārzināsim pētījuma saturu un metodes, būsim drošāki par secinājumiem, ko izdarām no pētījuma rezultātiem. Tādēļ šīs lietas neattiecas tikai uz statistiķiem, bet visiem datu lietotājiem.
Latvijas, tās pilsētu un lauku mājsaimniecību rīcībā esošā ienākuma un patēriņa izdevumu vērtējumu intervāli
2000.gadā (vidēji uz vienu mājsaimniecības locekli mēnesī)
Vērtējums ± standartkļūda |
|||
(vidēji uz vienu mājsaimniecības locekli mēnesī, Ls) |
|||
Latvijā |
Pilsētās |
Laukos |
|
Rīcībā esošie |
|||
ienākumi |
69,19 ± 1,56 |
76,69 ± 2,10 |
52,13 ± 2,58 |
Patēriņa izdevumi, |
|||
tai skaitā izdevumi |
63,84 ± 1,10 |
71,18 ± 1,27 |
47,14 ± 2,04 |
pārtikai, alkoholam, |
|||
tabakai |
25,72 ± 0,31 |
26,15 ± 0,34 |
24,76 ± 0,65 |
apģērbam, apaviem |
4,24 ± 0,16 |
4,82 ± 0,20 |
2,92 ± 0,24 |
mājokļa uzturēšanai |
10,72 ± 0,24 |
13,23 ± 0,28 |
5,01 ± 0,45 |
mājokļa iekārtošanai |
3,14 ± 0,22 |
3,28 ± 0,26 |
2,84 ± 0,44 |
veselībai |
2,66 ± 0,14 |
3,08 ± 0,19 |
1,70 ± 0,16 |
transportam |
4,94 ± 0,25 |
5,75 ± 0,33 |
3,09 ± 0,32 |
sakariem |
3,43 ± 0,14 |
4,12 ± 0,18 |
1,88 ± 0,15 |
atpūtai un kultūrai |
4,05 ± 0,23 |
4,83 ± 0,30 |
2,30 ± 0,29 |
izglītībai |
0,66 ± 0,08 |
0,82 ± 0,10 |
0,30 ± 0,07 |
viesnīcās un sabiedriskajai |
|||
ēdināšanai |
1,57 ± 0,10 |
1,96 ± 0,13 |
0,69 ± 0,10 |
par pārējām precēm |
|||
un pakalpojumiem |
2,70 ± 0,10 |
3,16 ± 0,12 |
1,65 ± 0,14 |