Wprowadzenie do badań statystycznych

Question

Wprowadzenie do badań statystycznych

Statystyka jako nauka

Okreslenie statystyka po raz pierwszy pojawia się u J. F. von Bielfelda (Anglia) w książce „The Elements of Universal Erudition" (Elementy uniwesalnej erudycji) z roku 1770. W niej statystyka jest określana jako „nauka, która poucza nas, jakie są porządki polityczne we wszystkich współczesnych państwach w znanym świecie”.

Termin statystyka pochodzi od łacińskiego słowa status - państwo i użyty został przez G. Achenwalla (Niemcy) w XVIII wieku dla oznaczenia nauki o "gromadzeniu, przetwarzaniu i wykorzystaniu danych przez państwo”, zwanej państwoznawstwem.

Zdarzenia historyczne przyczyniające się do rozwoju myśli stystycznej można wyróżnić:

 2000 lat p.n.e. – przeprowadzenie spisu ludności w Chinach,
 1500 lat p.n.e. – Czwarta Księga Starego Testamentu (Ksiega Liczb) podaje informacje o przeprowadzonych spisach ludności,
 1122 – 256 lat p.n.e – w okresie dynastii Czou ustanowiono oficjalne stanowisko odpowiedzialnego za prace statystyczne, zwanego „szih-su” (ksiegowy),
 578 – 543 lat p.n.e. – w okresie panowania Serwiusza Tuliusza, króla Rzymu, sporządzono co 5 lat rejestr obywateli i ich własności dla celów podatkowych i słuzby wojskowej,
 300 roku p.n.e. – system rejestrów administracyjnych i statystyk urzędowych w Indiach,
 5 roku p.n.e. – spis ludności w całym Imperium Rzymskim, a ostatni przeprowadzono w 74 roku n.e.,
 1596 – wydanie w Indiach w czasach cesarstwa Akbara sprawozdania statystycznego o państwie,
 1826 – C.A.V. Malchus (Niemcy) określa zakres statystyki, jako „najpelniej i najlepiej uzasadniona wiedza o warunkach i rozwoju danego państwa i o życiu w nim”,
 1854 – I Międzynarodowy Kongres Statystyczny w Brukseli,
 1885 – powołany zostaje Miedzynarodowy Instytut Statystyczny (MIS),
 1913 – utworzenie stalego biura MIS w Hadze (Holandia),
 XX w. – statystyka wyodrębniła się w samodzielną dziedzinę badań.

Do uczonych nanowszej historii nowożytnej, których uznaje się za prekursorów współczesnej statystyki, wymienia się:

 J. Graunt (1620 – 1674, Anglia) – analiza wskaźników i przyczyn zgonów w Londynie w XVII w., tablice umieralności, określił statystykę jako „zastosowanie teorii matematycznej do obserwacji zjawisk masowych”,
 W. Petty (1623 – 1687, Anglia) – twórca podstaw statystyki ekonomicznej, wprowadził pojęcie „wartości dodatkowej”,
 A. Quetelet (1796 – 1874, Belgia) – opis zjawisk społecznych z wykorzystaniem rozkladu normalnego, założyciel MIS, wprowadził pojęcie „przeciętnego człowieka”.

Wyróżnia się dwa znaczenia pojęcia statystyki. Pierwsze, tradycyjne, odnosi się do zbierania danych liczbowych lub nieliczbowych o państwie oraz drugie, bardziej współczesne, obejmujące zarówno opis danych, jak i proces przeprowadzonego o nich wnioskowania zwią-zanego z konkretną sytuacją badawczą. Tak więc, statystyka jako nauka jest utożsamiana:

a) przedmiotowo – zbiory faktów (np. statystyka zakładów hotelarskich, ruchu granicznego, turystyki kwalifikowanej, bazy gastronomicznej),
b) proceduralnie - zbiory liczbowe i dane oraz sposoby ich opracowania (np. gromadzone danych przez biuro podróży o sprzedanych imprezach turystycznych, prognozowanie liczby turystów odwiedzajacych Polskę, ocena turystyczna atrakcyjności obszarów).

Teoria statystyki dzieli się na dwa podstawowe działy :

a) statystyka opisowa,
b) metody wnioskowania statystycznego.

zajmujących się trzema zasadniczymi problemami:

a) zbieraniem danych,
b) analizą danych,
c) interpretacją danych.

Głównymi żródłami zasilania informacji statystycznej są:

 Głowny Urząd Statystyczny (GUS) – organ centralny statystyki publicznej,
 Urzędy Statystyczne (US) – organy statystyki regionalnej,
 Organy administracji samorządowej,
 Stowarzyszenia i związki branzowe,
 Straż Graniczna – rejestracja granicznego ruchu przekroczeń,
 Ośrodki akademickie,
 Sieć komputerowa Internet.

Wyodrębnienie stałych przyczyn kształtujących te zjawiska pozwala na ilościowe ich ujmowanie (kwantyfikację), a pomocnymi do ich opisu są metody statystyczne.

Przy opisie zjawisk masowych wyróżnia się dwa składniki:

 systematyczny - realizują się w pewnnych deterministycznych warunkach,
 przypadkowe (losowe) – warunki w jakich przebiegają nie można przewidzieć.

Całokształt czynności dotyczących badania i opisu przejawiających się prawidłowości statystycznych w zjawiskach masowych za pomocą metod statystycznych jest ujmowany w tzw. schemacie badania statystycznego, co podaje następująca definicja:
Schemat badania statystycznego obejmuje nastepujące czynności:

a) wyróżnienie interesujących badacza zjawisk masowych oraz prawidłowości statystycznych,
b) dobór jednostek badania,
c) zaprojektowanie instrumentów pomiarowych i przeprowadzenie pomiarów,
d) skompletowanie wyników badania,
e) opracowanie statystyczne zebranego materiału liczbowego,
f) ocena merytoryczna i końcowa przeprowadzonego badania,
g) postawienie pytań dla przyszłych badań.

Badanie statystyczne jest planowane i realizowane na populacji general-nej jednostek (faktów, zdarzeń, indywiduów, osobników) objętych obserwacją (rejestracją, monitoringiem), jednorodnych w myśl określonego kry-terium merytorycznego (np. badana jest określona grupa przedsiębiorstw ze względu na finansowe zobowiązania długoterminowe w okresie III kwartału, turyści przybywający do schroniska górskiego w miesiącu lipiec)

Rozróżnia się badanie statystyczne populacji generalnej:

 pełne (wyczerpujące) - wszystkie jednostki populacji,
 niepełne (częściowe, niewyczerpujące, cząstkowe, wyrywkowe, fragmentaryczne) – wybra-ny podzbiór jednostek populacji.

Badanie pełne jest rzadko realizowane chyba , że populacja obejmuje niewielką liczbę jednostek. Najczęściej jest prowadzone badanie niepełne, a to głównie z takich powodów jak:

 ponoszone koszty badania,
 czas prowadzenia badania,
 niszczący charakter badania jednostek (np. badania organoleptyczne produktów spożyw-czych)

Metodom statystycznym wyznacza się potrójną rolę: opisu, analizy i przewidywania (pro-gnozowania). Rozróżnia się analizę:

 przedmiotową - ocena uzyskanych wyników z punktu widzenia przedmiotu badania i ewentualne wyprowadzenie praktycznych wniosków wynikających z wykrytych prawidło-wości,
 metodologiczną - ocena otrzymanych wyników z punktu widzenia ich merytoryczności, dokładności i wiarygodności.

Statystyka publiczna

Obowiązująca w Polsce statystyka publiczna wywodzi się z Rezolucji Komisji Statysty-cznej ONZ i została usankcjonowana Ustawą o statystyce publicznej z 29 czerwca 1995 roku. Ustawa składa się z 9 rozdziałów oraz 68 artykułów.
Zgodnie z treścią Ustawy o statystyce publiczne udostępniane są społeczeństwu różne rodzaje informacji statystycznej przez organa administracji publicznej, w tym przez GUS.

Statystyka społeczna

Statystyka społeczna jest integralnie związana z polityką społeczną. Zamuje się badaniem takich dziedzin, jak: ludność, praca, warunki życia, kultura, edukacja i nauka, zdrowie, wykorzystanie czasu wolnego, turystyka i rekreacja oraz ochrona środowiska. Jest kluczowym obszarem zainterewsowań Urzędu Statystycznego Unii Euro-pejskiej - EUROSTATu. Urząd ten zmierza do utworzenia, tzw. europejskiego języka statystycznego przez przyjęcie odpowiednich aktów legislacyjnych odnoszących się do pojęć, definicji, klasyfikacji i standardów statystycznych.

Pojęcie pomiaru w statystyce

Pomocnicze oznaczenia i symbole:

 pomiar - symbole przedstawiające definiowane pojęcia są liczbami,
 metrologia – nauka zajmująca się miernictwem,
 J = { } - zbiór n jednostek (przedmiotów, rzeczy, indywiduów, itp.),
 W - wyróżniona kwantyfikowana właściwość jednoste-k,
 R - zbiór relacji zachodzących między jednostkami,
 R’ – zbiór relacji między liczbami zbioru A wyrażającymi właściwość W,
 E = J, R  - system empiryczny,
 M = A, R’  - system matematyczny,

Przyklady:
a) zbiory R i R’ zawierają relacje: “=” - równości, “<” - mniejszości, “>” - większości;
b) system empiryczny E obejmuje: zbiór J - zbiór rezerwatów przyrody, R – relacja „ = „ równości, czyli rezerwaty grupuje się ze względu na ich rodzaj jako: leśne, krajobrazowe, geologiczne, wodne, florystyczne, faunistyczne i stepowe;
a) system empiryczny M dotyczy grupowania powierzchni (w ha) rezerwatów przyrody w pewne zadane klasy, np. powierzchnia do 2 ha, od 2,1 do 5 ha, od 5, 1 do 10 ha, od 10,1 do 50 ha, powyżej 50 ha.
Wyróżnia się pomiar bezpośredni (pierwotny) i pośredni (wtórny), który przyjmuje postać:

 dychotomi - podział jednostek na dwie klasy (np. płeć – kobieta, mężczyzna; status obywatelstwa – polskie, inne; bank – publiczny, prywatny ),
 wielodzielczy - podział jednostek na wiele klas (np. branża działalności przedsiębiorstwa – paliwowa, wydobywcza, holding, motoryzacyjna, energetyczna, handlowa, itp.; rodzaj turystyki kwalifikowanej - rowerowa, kajakowa, samochodowa, żeglarska, jeździecka, itp.),
 numerowanie - przypisanie jednostkom liczb naturalnych będących synonimem ich nazwy (np. kolejne działy gospodarki narodowej; numer firmy na liście rankingowej),
 porządkowanie - przypisanie jednostkom liczb zgodnie ze stopniem natężenia badanej właściwości (np. skala Likerta: 1 – nigdy, 2 – częściowo, 3 – obojętnie, 4 – prawie na pewno, 5 – zawsze),
 pomiar właściwy - określenie miary liczbowej dla stopnia natężenia badanej właściwości (np. powierzchnia gminy [km2], predkość pojazdu [km/godz.]; masa ładunku samochodu ciężarowego [t], odległość między miastami [km]),
 zliczanie - ustalanie liczebności zbioru jednostek charakteryzujących się jakąś właściwością (np. liczba banków w mieście udzielająca kredytów mieszkaniowych; liczba uczestników pewnej grupy zajęć rekreacyjnych).

Różnym poziomom pomiaru odpowiadają różne rodzaje skal pomiaru, wśród których wyróżnia się skale: nominalną, porządkową, przedziałową i stosunkową w zależności od dopuszczalnych na nich operacjach matematycznych.

Skale są uporządkowane według ich mocy, co oznacza, że wszystkie operacje dopu-szczalne na skali słabszej (nominalna, porzadkowa) są również odpowiednie na skalach silniejszych (przedziałowa, stosunkowa), lecz nie odwrotnie.

Przykłady jednostek statystycznych w niektórych dziedzinach badawczych:

 socjologia – człowiek, miejscowości, gospodarstwa domowe, warstwy społeczne, zatrud-nieni, procesy społeczne (np. bezrobocie), rodzina, polityka społeczna, związki zawodowe, strajki, itp.,
 medycyna – szpitale, pacjenci, lekarze, służby ratownicze, karetki, apteki, leki, choroby, systemy leczenia, sprzęt medyczny, gabinety lekarskie, uczelnie medyczne, studenci medycyny, przychodnie, itp.,
 turystyka i rekreacja - hotele, motele, pensjonaty, uzdrowiska, parki krajobrazowe, kom-pleksy leśne, pomniki przyrody, obiekty muzealne, szlaki turystyczne, grupy wycieczkowe, miej-scowości wypoczynkowe, makroregiony, obszary ekologiczne, turyści, odwiedzający jednodniowi, gospodarstwa agroturystyczne, biura podróży, ośrodki rekreacyjne, grupy ćwiczących, itp.

Podział jednostek statystycznych:

 naturalne (np. gospodarstwo domowe, firma, biuro podróży, hotel),
 pseudonaturalne (np. gmina, powiat, województwo, miasto, region, rezerwat, park narodowy),
 sztuczne (np. działki leśne, kwatery na polu kempingowym,).

Badania statystyczne prowadzone bezpośrednio na jednostkach naturalnych, dostarczają danych pierwotnych pozwalających na ich bezpośrednią porównywalność, natomiast w przy-padku jednostek pseudonaturalnych wymagają normalizacji i standaryzacji przez odniesienie ich wartości do powierzchni jednostki.

Przykład: Rozptrując liczbę przyjeżdżajacych turystów do gminy, należy ustalić ich liczbę, np. w przeliczeniu na jednego mieszkańca lub na 1 km 2.

Szczególnym rodzajem pseudojednostek są jednostki przestrzenne, zwane także jednostkami taksonomicznymi (terytorialnymi, geograficznymi). Wśród nich wyróżnia się regiony: historyczny, etniczny, klimatyczny, geograficzny, graniczny, transgraniczny, przygrani-czny, ekologiczny, ekonomiczny, itp.

Określenie cechy statystycznej

Jednostki, które są przedmiotem badania statystycznego różnią się między sobą wieloma właściwościami określanych mianem cechy. Cechę określa trójka C(A, X, T), gdzie odpowiednie jej atrybuty oznaczają: A - jakość, X - ilość oraz T - czas. Gdy w podanej formule preferujemy atrybut A, to mówimy o cesze jakościowej, a gdy atrybut X, to o cesze ilościowej.
Cechy statystyczbe przyjmują różne warianty (poziomy) w przypadku cech jakościowych oraz wartości liczbowe w przypadku cech ilościowych.
Cechy jednostek statystycznych są utożsamiane z informacją o tych jednostkach, która podkreśla ich złożoność i wieloaspektowość. Każda informacja charakteryzuje określoną jednostkę ze względu na wymienione atrybuty A, X oraz T, stąd sens znaczenia cechy wynika z relacji zacho-dzącej między podanymi atrybutami. Z tego punktu widzenia wyróżnia się różne
rodzaje informacji o cechach: faktograficzne, semantyczne, proceduralne, klasyfikujące, strukturalne oraz normatywne. Podstawą szczegółowej klasyfikacji cech są dwa kryteria:

 moc zbioru wartości przyjmowanych przez cechy,
 skala pomiaru wartości cech.

Przez klasyfikację cech uważa się podział cech ze względu na różne merytoryczne kryteria ich systematyzowania. Kryteria te biorą pod uwagę stronę jakościową oraz ilościową cech, a także znaczenie i ważność cech przy interpretacji zjawisk i zagadnień badanych j.s.

Rodzaje cech ze względu na różne kryteria:

 zakres tematyczny - potencjalne, kwalifikujące, diagnostyczne,
 wartościowanie - kwantytatywne (ilościowe), werbalne (opisowe),
 mierzalność - niemierzalne (jakościowe), mierzalne (ilościowe),
 zachowanie się jednostek - stałe, zmienne (dyskretne, ciągłe, quasi-ciągłe),
 funkcja w analizie zjawisk wielocechowych - stymulanty, destymulanty, nominanty,
 dostępność informacji źródłowej - pierwotne, wtórne,
 liczba cech ujmowana do opisu zjawisk - proste (indywidualne), złożone (zespołowe)
 ważność wyjaśniania zróżnicowania jednostek - istotne, nieistotne,
 opis badanego zjawiska - gospodarcze (produkcyjne, usługowe), społeczne.

Podział cech mierzalnych:

 ciągłe – wartości zawierają się w przedziale liczbowym,
 skokowe – wartości należą do zbioru wyliczającego,

Zbiór cech potencjalnych - zbiór wszelkich cech uwzględnianych w prowadzonym bada-niu statystycznym. Podzbiory cech potencjalnych:

 cechy klasyfikujące - tworzenie klasyfikacji badanych jednostek
 cechy diagnostyczne - podlegające bezpośredniemu badaniu

Populacja generalna i jej rodzaje

Planowanie badania statystycznego obejmuje określenie populacji generalnej pod względem:

 przedmiotowym (co badać?),
 czasowym (kiedy badać?),
 przestrzennym (gdzie badać?)
 zakresowym (według jakich cech badać).

Rodzaje populacji generalnych:

a) rodzaj i typ jednostek:  przedmiotowa (rzeczywista),  zdarzeniowa (hipotetyczna),
 jednorodna,  niejednorodna;
b) liczba jednostek:  skończona (ograniczona),  nieskończona (nieograniczona);
 stałości jednostek w czasie:  statyczna (stała, niezmienna),  dynamiczna (zmienna);
c) typ obserwowalnej cechy:  dyskretna,  ciągła;
d) zakres tematyczny odnoszący się do badanego zbioru jednostek:
 na szczeblu tworzenia koncepcji, tzw. „populacja celu”,
 na etapie wyboru próby, tzw. „populacja operatu”,
 na etapie gromadzenia danych, tzw. „populacja badana”,
 na szczeblu opracowania i analizy danych, tzw. „populacja wnioskowania”.

Próba statystyczna

Warunkiem formułowania poprawnych wniosków o p.g. jest reprezentatywność próby oznaczająca, iż stanowi ona taką część populacji, która zachowuje wszelkie właściwości o jej strukturze. Wymaga to spełnienia dla próby następujących postulatów:

a) homogeniczności (jednorodności),
b) adekwatności (zgodności),
c) losowości (randomizacji),
d) niezależności (nieograniczoności).

Rozkład (zmienność) wartości badanej cechy w próbie określa tzw. rozkład empiryczny próby. Zależy on od rozkładu teoretycznego cechy w p.g. Wyjaśnianie istoty związku zachodzą-cego między p.g. i próbą, sprowadza się do podania odwzorowania między podanymi wcześniej systemami empirycznym i matematycznym, czyli do podania matematycznej interpretacji zależ-ności jaka zachodzi między rozkładem empirycznym a rozkładem teoretycznym.

Dane pierwotne i wtórne

Informację statystyczną . dzieli się ona na:
 informacje o zaszłościach - fakty i zdarzenia,
 informacje prognostyczne - zamierzenia i plany.

Źródła danych statystycznych: sondaże, wywiady, ankiety, sprawozdawczość, spisy,
monitoring, obserwacja naukowa, eksperyment, bazy danych, sieci komputerowe, itp.

Rodzaje danych w postaci materiału statystycznego:

 przekrojowe - zebrane w określonym okresie czasu dla wielu jednostek (np. majątek trwały firm z branży handlowej; poniesione wydatki finansowe przez grupę turystów w ciągu jednego dnia),
 przestrzenny - dotyczą badań prowadzonych na jednostkach przestrzennych (np. budżety gmin, liczba turystów przybywających do miast położonych na terenie woj. Podkarpackiego),

 czasowe - obejmują wiele jednostek czasowych pomierzonych na jednej badanej jednostce (np. wielkość papierów wartościowych przeznaczonych do obrotu w przedsiębiorstwie w kolejnych miesiącach ),
 przekrojowo-czasowe - dotyczą badania jednocześnie jednostek przestrzennych i czaso-wych (np. przyjazdy cudzoziemców do Polski w kolejnych miesiącach),
 przestrzenno-czasowe - obejmują badanie wielu jednostek przestrzennych w wyróżnio-nych jednostkach czasowych (np. przyjazdowy ruch turystyczny w krajach Europy w ostatniej de-kadzie lat).

Struktury danych tworzących szczegółowy materiał statystyczny podaje się w postaci

{Identyfikator, (Wartości liczbowe cech)},

gdzie opcjonalnie występuje identyfikator. Często ze względu na ochronę danych w miejsce identyfikatora stosuje się różne umowne kody lub wprost się je pomija, zastępując je numeracją porządkową (bieżącą).

Wprowadzenie do badań statystycznych

Wprowadzenie do marketingu

Normy prawne rachunkowości na świecie i w Polsce

Metody i techniki badań pedagogicznych

Metodologia- zagadnienia

Polski sektor bankowy