Wprowadzenie do badań statystycznych
Statystyka jako nauka
Okreslenie statystyka po raz pierwszy pojawia się u J. F. von Bielfelda (Anglia) w książce „The Elements of Universal Erudition" (Elementy uniwesalnej erudycji) z roku 1770. W niej statystyka jest określana jako „nauka, która poucza nas, jakie są porządki polityczne we wszystkich współczesnych państwach w znanym świecie”.
Termin statystyka pochodzi od łacińskiego słowa status - państwo i użyty został przez G. Achenwalla (Niemcy) w XVIII wieku dla oznaczenia nauki o "gromadzeniu, przetwarzaniu i wykorzystaniu danych przez państwo”, zwanej państwoznawstwem.
Zdarzenia historyczne przyczyniające się do rozwoju myśli stystycznej można wyróżnić:
2000 lat p.n.e. – przeprowadzenie spisu ludności w Chinach,
1500 lat p.n.e. – Czwarta Księga Starego Testamentu (Ksiega Liczb) podaje informacje o przeprowadzonych spisach ludności,
1122 – 256 lat p.n.e – w okresie dynastii Czou ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne, zwanego „szih-su” (ksiegowy),
578 – 543 lat p.n.e. – w okresie panowania Serwiusza Tuliusza, króla Rzymu, sporządzono co 5 lat rejestr obywateli i ich własności dla celów podatkowych i słuzby wojskowej,
300 roku p.n.e. – system rejestrów administracyjnych i statystyk urzędowych w Indiach,
5 roku p.n.e. – spis ludności w całym Imperium Rzymskim, a ostatni przeprowadzono w 74 roku n.e.,
1596 – wydanie w Indiach w czasach cesarstwa Akbara sprawozdania statystycznego o państwie,
1826 – C.A.V. Malchus (Niemcy) określa zakres statystyki, jako „najpelniej i najlepiej uzasadniona wiedza o warunkach i rozwoju danego państwa i o życiu w nim”,
1854 – I Międzynarodowy Kongres Statystyczny w Brukseli,
1885 – powołany zostaje Miedzynarodowy Instytut Statystyczny (MIS),
1913 – utworzenie stalego biura MIS w Hadze (Holandia),
XX w. – statystyka wyodrębniła się w samodzielną dziedzinę badań.
Do uczonych nanowszej historii nowożytnej, których uznaje się za prekursorów współczesnej statystyki, wymienia się:
J. Graunt (1620 – 1674, Anglia) – analiza wskaźników i przyczyn zgonów w Londynie w XVII w., tablice umieralności, określił statystykę jako „zastosowanie teorii matematycznej do obserwacji zjawisk masowych”,
W. Petty (1623 – 1687, Anglia) – twórca podstaw statystyki ekonomicznej, wprowadził pojęcie „wartości dodatkowej”,
A. Quetelet (1796 – 1874, Belgia) – opis zjawisk społecznych z wykorzystaniem rozkladu normalnego, założyciel MIS, wprowadził pojęcie „przeciętnego człowieka”.
Wyróżnia się dwa znaczenia pojęcia statystyki. Pierwsze, tradycyjne, odnosi się do zbierania danych liczbowych lub nieliczbowych o państwie oraz drugie, bardziej współczesne, obejmujące zarówno opis danych, jak i proces przeprowadzonego o nich wnioskowania zwią-zanego z konkretną sytuacją badawczą. Tak więc, statystyka jako nauka jest utożsamiana:
a) przedmiotowo – zbiory faktów (np. statystyka zakładów hotelarskich, ruchu granicznego, turystyki kwalifikowanej, bazy gastronomicznej),
b) proceduralnie - zbiory liczbowe i dane oraz sposoby ich opracowania (np. gromadzone danych przez biuro podróży o sprzedanych imprezach turystycznych, prognozowanie liczby turystów odwiedzajacych Polskę, ocena turystyczna atrakcyjności obszarów).
Teoria statystyki dzieli się na dwa podstawowe działy :
a) statystyka opisowa,
b) metody wnioskowania statystycznego.
zajmujących się trzema zasadniczymi problemami:
a) zbieraniem danych,
b) analizą danych,
c) interpretacją danych.
Głównymi żródłami zasilania informacji statystycznej są:
Głowny Urząd Statystyczny (GUS) – organ centralny statystyki publicznej,
Urzędy Statystyczne (US) – organy statystyki regionalnej,
Organy administracji samorządowej,
Stowarzyszenia i związki branzowe,
Straż Graniczna – rejestracja granicznego ruchu przekroczeń,
Ośrodki akademickie,
Sieć komputerowa Internet.
Wyodrębnienie stałych przyczyn kształtujących te zjawiska pozwala na ilościowe ich ujmowanie (kwantyfikację), a pomocnymi do ich opisu są metody statystyczne.
Przy opisie zjawisk masowych wyróżnia się dwa składniki:
systematyczny - realizują się w pewnnych deterministycznych warunkach,
przypadkowe (losowe) – warunki w jakich przebiegają nie można przewidzieć.
Całokształt czynności dotyczących badania i opisu przejawiających się prawidłowości statystycznych w zjawiskach masowych za pomocą metod statystycznych jest ujmowany w tzw. schemacie badania statystycznego, co podaje następująca definicja:
Schemat badania statystycznego obejmuje nastepujące czynności:
a) wyróżnienie interesujących badacza zjawisk masowych oraz prawidłowości statystycznych,
b) dobór jednostek badania,
c) zaprojektowanie instrumentów pomiarowych i przeprowadzenie pomiarów,
d) skompletowanie wyników badania,
e) opracowanie statystyczne zebranego materiału liczbowego,
f) ocena merytoryczna i końcowa przeprowadzonego badania,
g) postawienie pytań dla przyszłych badań.
Badanie statystyczne jest planowane i realizowane na populacji general-nej jednostek (faktów, zdarzeń, indywiduów, osobników) objętych obserwacją (rejestracją, monitoringiem), jednorodnych w myśl określonego kry-terium merytorycznego (np. badana jest określona grupa przedsiębiorstw ze względu na finansowe zobowiązania długoterminowe w okresie III kwartału, turyści przybywający do schroniska górskiego w miesiącu lipiec)
Rozróżnia się badanie statystyczne populacji generalnej:
pełne (wyczerpujące) - wszystkie jednostki populacji,
niepełne (częściowe, niewyczerpujące, cząstkowe, wyrywkowe, fragmentaryczne) – wybra-ny podzbiór jednostek populacji.
Badanie pełne jest rzadko realizowane chyba , że populacja obejmuje niewielką liczbę jednostek. Najczęściej jest prowadzone badanie niepełne, a to głównie z takich powodów jak:
ponoszone koszty badania,
czas prowadzenia badania,
niszczący charakter badania jednostek (np. badania organoleptyczne produktów spożyw-czych)
Metodom statystycznym wyznacza się potrójną rolę: opisu, analizy i przewidywania (pro-gnozowania). Rozróżnia się analizę:
przedmiotową - ocena uzyskanych wyników z punktu widzenia przedmiotu badania i ewentualne wyprowadzenie praktycznych wniosków wynikających z wykrytych prawidło-wości,
metodologiczną - ocena otrzymanych wyników z punktu widzenia ich merytoryczności, dokładności i wiarygodności.
Statystyka publiczna
Obowiązująca w Polsce statystyka publiczna wywodzi się z Rezolucji Komisji Statysty-cznej ONZ i została usankcjonowana Ustawą o statystyce publicznej z 29 czerwca 1995 roku. Ustawa składa się z 9 rozdziałów oraz 68 artykułów.
Zgodnie z treścią Ustawy o statystyce publiczne udostępniane są społeczeństwu różne rodzaje informacji statystycznej przez organa administracji publicznej, w tym przez GUS.
Statystyka społeczna
Statystyka społeczna jest integralnie związana z polityką społeczną. Zamuje się badaniem takich dziedzin, jak: ludność, praca, warunki życia, kultura, edukacja i nauka, zdrowie, wykorzystanie czasu wolnego, turystyka i rekreacja oraz ochrona środowiska. Jest kluczowym obszarem zainterewsowań Urzędu Statystycznego Unii Euro-pejskiej - EUROSTATu. Urząd ten zmierza do utworzenia, tzw. europejskiego języka statystycznego przez przyjęcie odpowiednich aktów legislacyjnych odnoszących się do pojęć, definicji, klasyfikacji i standardów statystycznych.
Pojęcie pomiaru w statystyce
Pomocnicze oznaczenia i symbole:
pomiar - symbole przedstawiające definiowane pojęcia są liczbami,
metrologia – nauka zajmująca się miernictwem,
J = { } - zbiór n jednostek (przedmiotów, rzeczy, indywiduów, itp.),
W - wyróżniona kwantyfikowana właściwość jednoste-k,
R - zbiór relacji zachodzących między jednostkami,
R’ – zbiór relacji między liczbami zbioru A wyrażającymi właściwość W,
E = J, R - system empiryczny,
M = A, R’ - system matematyczny,
Przyklady:
a) zbiory R i R’ zawierają relacje: “=” - równości, “<” - mniejszości, “>” - większości;
b) system empiryczny E obejmuje: zbiór J - zbiór rezerwatów przyrody, R – relacja „ = „ równości, czyli rezerwaty grupuje się ze względu na ich rodzaj jako: leśne, krajobrazowe, geologiczne, wodne, florystyczne, faunistyczne i stepowe;
a) system empiryczny M dotyczy grupowania powierzchni (w ha) rezerwatów przyrody w pewne zadane klasy, np. powierzchnia do 2 ha, od 2,1 do 5 ha, od 5, 1 do 10 ha, od 10,1 do 50 ha, powyżej 50 ha.
Wyróżnia się pomiar bezpośredni (pierwotny) i pośredni (wtórny), który przyjmuje postać:
dychotomi - podział jednostek na dwie klasy (np. płeć – kobieta, mężczyzna; status obywatelstwa – polskie, inne; bank – publiczny, prywatny ),
wielodzielczy - podział jednostek na wiele klas (np. branża działalności przedsiębiorstwa – paliwowa, wydobywcza, holding, motoryzacyjna, energetyczna, handlowa, itp.; rodzaj turystyki kwalifikowanej - rowerowa, kajakowa, samochodowa, żeglarska, jeździecka, itp.),
numerowanie - przypisanie jednostkom liczb naturalnych będących synonimem ich nazwy (np. kolejne działy gospodarki narodowej; numer firmy na liście rankingowej),
porządkowanie - przypisanie jednostkom liczb zgodnie ze stopniem natężenia badanej właściwości (np. skala Likerta: 1 – nigdy, 2 – częściowo, 3 – obojętnie, 4 – prawie na pewno, 5 – zawsze),
pomiar właściwy - określenie miary liczbowej dla stopnia natężenia badanej właściwości (np. powierzchnia gminy [km2], predkość pojazdu [km/godz.]; masa ładunku samochodu ciężarowego [t], odległość między miastami [km]),
zliczanie - ustalanie liczebności zbioru jednostek charakteryzujących się jakąś właściwością (np. liczba banków w mieście udzielająca kredytów mieszkaniowych; liczba uczestników pewnej grupy zajęć rekreacyjnych).
Różnym poziomom pomiaru odpowiadają różne rodzaje skal pomiaru, wśród których wyróżnia się skale: nominalną, porządkową, przedziałową i stosunkową w zależności od dopuszczalnych na nich operacjach matematycznych.
Skale są uporządkowane według ich mocy, co oznacza, że wszystkie operacje dopu-szczalne na skali słabszej (nominalna, porzadkowa) są również odpowiednie na skalach silniejszych (przedziałowa, stosunkowa), lecz nie odwrotnie.
Przykłady jednostek statystycznych w niektórych dziedzinach badawczych:
socjologia – człowiek, miejscowości, gospodarstwa domowe, warstwy społeczne, zatrud-nieni, procesy społeczne (np. bezrobocie), rodzina, polityka społeczna, związki zawodowe, strajki, itp.,
medycyna – szpitale, pacjenci, lekarze, służby ratownicze, karetki, apteki, leki, choroby, systemy leczenia, sprzęt medyczny, gabinety lekarskie, uczelnie medyczne, studenci medycyny, przychodnie, itp.,
turystyka i rekreacja - hotele, motele, pensjonaty, uzdrowiska, parki krajobrazowe, kom-pleksy leśne, pomniki przyrody, obiekty muzealne, szlaki turystyczne, grupy wycieczkowe, miej-scowości wypoczynkowe, makroregiony, obszary ekologiczne, turyści, odwiedzający jednodniowi, gospodarstwa agroturystyczne, biura podróży, ośrodki rekreacyjne, grupy ćwiczących, itp.
Podział jednostek statystycznych:
naturalne (np. gospodarstwo domowe, firma, biuro podróży, hotel),
pseudonaturalne (np. gmina, powiat, województwo, miasto, region, rezerwat, park narodowy),
sztuczne (np. działki leśne, kwatery na polu kempingowym,).
Badania statystyczne prowadzone bezpośrednio na jednostkach naturalnych, dostarczają danych pierwotnych pozwalających na ich bezpośrednią porównywalność, natomiast w przy-padku jednostek pseudonaturalnych wymagają normalizacji i standaryzacji przez odniesienie ich wartości do powierzchni jednostki.
Przykład: Rozptrując liczbę przyjeżdżajacych turystów do gminy, należy ustalić ich liczbę, np. w przeliczeniu na jednego mieszkańca lub na 1 km 2.
Szczególnym rodzajem pseudojednostek są jednostki przestrzenne, zwane także jednostkami taksonomicznymi (terytorialnymi, geograficznymi). Wśród nich wyróżnia się regiony: historyczny, etniczny, klimatyczny, geograficzny, graniczny, transgraniczny, przygrani-czny, ekologiczny, ekonomiczny, itp.
Określenie cechy statystycznej
Jednostki, które są przedmiotem badania statystycznego różnią się między sobą wieloma właściwościami określanych mianem cechy. Cechę określa trójka C(A, X, T), gdzie odpowiednie jej atrybuty oznaczają: A - jakość, X - ilość oraz T - czas. Gdy w podanej formule preferujemy atrybut A, to mówimy o cesze jakościowej, a gdy atrybut X, to o cesze ilościowej.
Cechy statystyczbe przyjmują różne warianty (poziomy) w przypadku cech jakościowych oraz wartości liczbowe w przypadku cech ilościowych.
Cechy jednostek statystycznych są utożsamiane z informacją o tych jednostkach, która podkreśla ich złożoność i wieloaspektowość. Każda informacja charakteryzuje określoną jednostkę ze względu na wymienione atrybuty A, X oraz T, stąd sens znaczenia cechy wynika z relacji zacho-dzącej między podanymi atrybutami. Z tego punktu widzenia wyróżnia się różne
rodzaje informacji o cechach: faktograficzne, semantyczne, proceduralne, klasyfikujące, strukturalne oraz normatywne. Podstawą szczegółowej klasyfikacji cech są dwa kryteria:
moc zbioru wartości przyjmowanych przez cechy,
skala pomiaru wartości cech.
Przez klasyfikację cech uważa się podział cech ze względu na różne merytoryczne kryteria ich systematyzowania. Kryteria te biorą pod uwagę stronę jakościową oraz ilościową cech, a także znaczenie i ważność cech przy interpretacji zjawisk i zagadnień badanych j.s.
Rodzaje cech ze względu na różne kryteria:
zakres tematyczny - potencjalne, kwalifikujące, diagnostyczne,
wartościowanie - kwantytatywne (ilościowe), werbalne (opisowe),
mierzalność - niemierzalne (jakościowe), mierzalne (ilościowe),
zachowanie się jednostek - stałe, zmienne (dyskretne, ciągłe, quasi-ciągłe),
funkcja w analizie zjawisk wielocechowych - stymulanty, destymulanty, nominanty,
dostępność informacji źródłowej - pierwotne, wtórne,
liczba cech ujmowana do opisu zjawisk - proste (indywidualne), złożone (zespołowe)
ważność wyjaśniania zróżnicowania jednostek - istotne, nieistotne,
opis badanego zjawiska - gospodarcze (produkcyjne, usługowe), społeczne.
Podział cech mierzalnych:
ciągłe – wartości zawierają się w przedziale liczbowym,
skokowe – wartości należą do zbioru wyliczającego,
Zbiór cech potencjalnych - zbiór wszelkich cech uwzględnianych w prowadzonym bada-niu statystycznym. Podzbiory cech potencjalnych:
cechy klasyfikujące - tworzenie klasyfikacji badanych jednostek
cechy diagnostyczne - podlegające bezpośredniemu badaniu
Populacja generalna i jej rodzaje
Planowanie badania statystycznego obejmuje określenie populacji generalnej pod względem:
przedmiotowym (co badać?),
czasowym (kiedy badać?),
przestrzennym (gdzie badać?)
zakresowym (według jakich cech badać).
Rodzaje populacji generalnych:
a) rodzaj i typ jednostek: przedmiotowa (rzeczywista), zdarzeniowa (hipotetyczna),
jednorodna, niejednorodna;
b) liczba jednostek: skończona (ograniczona), nieskończona (nieograniczona);
stałości jednostek w czasie: statyczna (stała, niezmienna), dynamiczna (zmienna);
c) typ obserwowalnej cechy: dyskretna, ciągła;
d) zakres tematyczny odnoszący się do badanego zbioru jednostek:
na szczeblu tworzenia koncepcji, tzw. „populacja celu”,
na etapie wyboru próby, tzw. „populacja operatu”,
na etapie gromadzenia danych, tzw. „populacja badana”,
na szczeblu opracowania i analizy danych, tzw. „populacja wnioskowania”.
Próba statystyczna
Warunkiem formułowania poprawnych wniosków o p.g. jest reprezentatywność próby oznaczająca, iż stanowi ona taką część populacji, która zachowuje wszelkie właściwości o jej strukturze. Wymaga to spełnienia dla próby następujących postulatów:
a) homogeniczności (jednorodności),
b) adekwatności (zgodności),
c) losowości (randomizacji),
d) niezależności (nieograniczoności).
Rozkład (zmienność) wartości badanej cechy w próbie określa tzw. rozkład empiryczny próby. Zależy on od rozkładu teoretycznego cechy w p.g. Wyjaśnianie istoty związku zachodzą-cego między p.g. i próbą, sprowadza się do podania odwzorowania między podanymi wcześniej systemami empirycznym i matematycznym, czyli do podania matematycznej interpretacji zależ-ności jaka zachodzi między rozkładem empirycznym a rozkładem teoretycznym.
Dane pierwotne i wtórne
Informację statystyczną . dzieli się ona na:
informacje o zaszłościach - fakty i zdarzenia,
informacje prognostyczne - zamierzenia i plany.
Źródła danych statystycznych: sondaże, wywiady, ankiety, sprawozdawczość, spisy,
monitoring, obserwacja naukowa, eksperyment, bazy danych, sieci komputerowe, itp.
Rodzaje danych w postaci materiału statystycznego:
przekrojowe - zebrane w określonym okresie czasu dla wielu jednostek (np. majątek trwały firm z branży handlowej; poniesione wydatki finansowe przez grupę turystów w ciągu jednego dnia),
przestrzenny - dotyczą badań prowadzonych na jednostkach przestrzennych (np. budżety gmin, liczba turystów przybywających do miast położonych na terenie woj. Podkarpackiego),
czasowe - obejmują wiele jednostek czasowych pomierzonych na jednej badanej jednostce (np. wielkość papierów wartościowych przeznaczonych do obrotu w przedsiębiorstwie w kolejnych miesiącach ),
przekrojowo-czasowe - dotyczą badania jednocześnie jednostek przestrzennych i czaso-wych (np. przyjazdy cudzoziemców do Polski w kolejnych miesiącach),
przestrzenno-czasowe - obejmują badanie wielu jednostek przestrzennych w wyróżnio-nych jednostkach czasowych (np. przyjazdowy ruch turystyczny w krajach Europy w ostatniej de-kadzie lat).
Struktury danych tworzących szczegółowy materiał statystyczny podaje się w postaci
{Identyfikator, (Wartości liczbowe cech)},
gdzie opcjonalnie występuje identyfikator. Często ze względu na ochronę danych w miejsce identyfikatora stosuje się różne umowne kody lub wprost się je pomija, zastępując je numeracją porządkową (bieżącą).