Podstawy statystyki
23.02.2008
STATYSTYKA
Statystyka jest nauką o metodach ilościowych badania zjawisk masowych. Przez badanie statystyczne rozumiemy ogół prac mających na celu realizację jednego lub kilku spośród następujących zadań.
1) Poznanie struktury zbiorowości ze względu na interesujące nas cechy.
2) Ocenę współzależności między cechami.
3) Ocenę zmian zjawiska w czasie.
Populacja (zbiorowość statystyczna) to zbiór osób, przedmiotów lub zjawisk podobnych do siebie, ale nie identycznych, poddawanych badaniu statystycznemu. Każdy element zbiorowości statystycznej podlegający bezpośredniej obserwacji to jednostka statystyczna. Populację, inaczej zbiorowość generalną, tworzą wszystkie elementy będące przedmiotem badania, o których chcemy formułować wnioski ogólne.
Badanie statystyczne nazywamy pełnym inaczej całkowitym, gdy bezpośredniej obserwacji podlega każdy element populacji generalnej. Jeśli bezpośredniej obserwacji podlega tylko pewien podzbiór populacji generalnej, nazywany próbą, mówimy o badaniu statystycznym częściowym. Tego typu badania przeprowadzane są najczęściej, ponieważ dla licznych populacji są tańsze i mniej pracochłonne. Ponadto przy pewnych badaniach obserwowane elementy ulegają zniszczeniu.
Cel badania określa pewne właściwości różniące poszczególne jednostki statystyczne. Właściwości te nazywamy cechami statystycznymi. Rodzaje cech statystycznych:
CECHY STATYSTYCZNE
CECHY NIEMIERZALNE CECHY MIERZALNE
(jakościowe) (ilościowe)
np. płeć, zawód
SKOKOWE CIĄGŁE
np. liczba osób w rodzinie np. czas przejazdu
Cechy QUASI-MIERZALNE (porządkowe) np. poziom wykształcenia
Cechy mierzalne ciągłe mogą przyjąć każdą wartość z pewnego przedziału liczbowego i wartość ta zależy od dokładności pomiaru.
W praktyce wyróżnia się jeszcze cechy quasi-mierzalne; są to takie cechy, których warianty podane w sposób opisowy można uporządkować wg stopnia nasilenia cechy.
Opis prac składających się na badanie statystyczne można podzielić na następujące etapy:
1) projektowanie badania
2) gromadzenie materiału statystycznego
3) opracowanie uzyskanego materiału w postaci tablic i wykresów, czyli grupowanie i prezentacja
4) analiza wyników obserwacji
W efekcie analizy wyników obserwacji otrzymujemy:
1) opis statystyczny – gdy przeprowadzamy badanie statystyczne pełne
2) wnioski dotyczące populacji generalnej przy badaniu statystycznym częściowym
3) grupowanie materiałów – materiał otrzymany w wyniku przeprowadzonych obserwacji lub pomiarów porządkuje się i grupuje w postaci tzw. szeregów statystycznych. Przystępując do budowy szeregów statystycznych ustalamy interesujące nas warianty cechy i łączymy w grupy jednostki o tym samym wariancie cechy.
Liczebności odpowiadające poszczególnym wariantom cechy oznaczamy:
n1, n2, n3, … , nk, gdzie k-liczba wariantów.
n=∑ni
Dla cechy niemierzalnej kolejność wariantów ustalamy dowolnie.
Grupowanie danych dotyczących cechy mierzalnej uzależnione jest od wielkości badanej zbiorowości liczby różnych wariantów cechy.
Wartości cechy porządkowane są zawsze niemalejąco.
W analizie struktury stosuje się następujące rodzaje szeregów statystycznych:
1) SZEREG STATYSTYCZNY PROSTY – inaczej SZCZEGÓŁOWY – budujemy, gdy badana zbiorowość jest nieliczna. Otrzymamy go ustawiając w kolejności niemalejącej wszystkie wartości cechy.
2) SZEREG STATYSTYCZNY ROZDZIELCZY – jeżeli badana zbiorowość jest liczna, a liczba różnych wartości cechy niewielka, budujemy szereg rozdzielczy punktowy, inaczej jednostkowy, podając w kolejności rosnącej wartości cechy i odpowiadające im liczebności.
3) SZEREG ROZDZIELCZY Z PRZEDZIAŁAMI KLASOWYMI – inaczej WIELOJEDNOSTKOWY – budujemy dla cech mierzalnych ciągłych lub cech mierzalnych skokowych przyjmujących wiele różnych wartości. Wartości te dzielimy na klasy i dla każdej z klas podajemy liczbę jednostek o wartościach cech należących do tej klasy. Z punktu widzenia wygody obliczeń najlepiej jest budować szeregi o tej samej rozpiętości klasy. Niekiedy dawałoby to jednak przedziały klasowe o liczebności zero; w takiej sytuacji budujemy przedziały o różnej rozpiętości, a nawet przedziały skrajne budujemy otwarte.
Najpełniejszy obraz struktury badanej zbiorowości otrzymujemy podając szereg liczebności bezwzględnej. Dla celów porównawczych, zwłaszcza przy różnych liczebnie zbiorowościach, oprócz liczebności bezwzględnych podaje się WSKAŹNIKI STRUKTURY. Wskaźnikiem struktury, inaczej częstością, inaczej frakcją lub liczebnością względną dla danego wariantu cechy nazywamy stosunek liczebności bezwzględnej danego wariantu cechy do ogólnej liczebności. WZÓR 1.
Wskaźniki struktury posiadają następujące własności:
1) 0 ≤ Wi ≤ 1
2) ∑ Wi = 1
W praktyce często wskaźniki struktury podajemy pomnożone przez 100 w procentach (%), tak przedstawiamy wskaźnik struktury nazywany odsetkiem.
PARAMETRY STATYSTYCZNE
Analiza danych statystycznych dotyczących cechy mierzalnej ma na celu uzyskanie syntetycznego przedstawienia wyników badania przy pomocy odpowiednik charakterystyk liczbowych inaczej parametrów statystycznych.
W analizie struktury zbiorowości najczęściej stosuje się następujące grupy parametrów:
1) miary położenia
2) miary zmienności (zróżnicowania, dyspersji)
3) miary asymetrii
W każdym z podanych typów miar występują miary klasyczne, których wartości oblicza się na podstawie wszystkich wartości badanej cechy i miary pozycyjne, które wyznacza się przez podział uporządkowanego niemalejąco ciągu wartości cechy na równe pod względem liczebności cechy lub przez wybór wartości cechy występującej w danym szeregu najczęściej.
Klasyczną miarą położenia jest średnia arytmetyczna.
Do najczęściej stosowanych pozycyjnych miar położenia należą KWARTYLE i DOMINANTA.
Kwartyle dzielą uporządkowany niemalejąco ciąg wartości cechy na 4 równe pod względem liczebności części. Oznaczmy je:
Q1 – kwartyl pierwszy, inaczej dolny
Q2 – mediana - kwartyl drugi (wartość środkowa)
Q3 – kwartyl trzeci, inaczej górny
Na szczególną uwagę zasługują te, które informują o przeciętnym poziomie wartości cechy; są to: ŚREDNIA ARYTMETYCZNA
MEDIANA
DOMINANTA
Średnia arytmetyczna – podaje przeciętny poziom wartości cechy, jest miarą wrażliwą na skrajne wartości cechy i dlatego ma dużą wartość poznawczą dla zbiorowości jednorodnych o niedużym zróżnicowaniu wartości cechy, nie może być jednak wyznaczana dla szeregów o otwartych skrajnych przedziałach, w których występuje znacząca liczba jednostek.
Mediana – inaczej wartość środkowa – dzieli uporządkowany niemalejąco ciąg wartości cechy na 2 równe pod względem liczebności części. Jest miarą niewrażliwą na skrajne wartości cechy, może być wyznaczana dla każdego szeregu.
Dominanta – (moda, wartość modalna) – jest to taka wartość cechy, która w danej zbiorowości ma najliczniejszą grupę jednostek, o ile nie jest to wartość skrajna tzn. najmniejsza albo największa. Dominantę możemy wyznaczyć tylko dla niektórych szeregów.
Dla szeregów z przedziałami klasowymi, medianę i pozostałe kwartyle wyznacza się w sposób przybliżony, korzystając z odpowiednich wzorów lub graficznie.
Wszystkie miary położenia wyrażają się w takich samych jednostkach, w jakich występują wartości cechy i mieszczą się między najmniejszą i największą wartością cechy.
Xmin ≤ ¯x ≤ Xmax
Xmin ≤ D ≤ Xmax
Xmin ≤ Q1 ≤ Me ≤ Q3 ≤ Xmax
Drugą obok miar położenia grupą charakteryzujących zachowanie cechy mierzalnej w zbiorowości statystycznej stanowią miary zmienności, inaczej miary zróżnicowania, inaczej miary dyspersji. Oprócz tego, że pozwalają one na ocenę stopnia zróżnicowania zbiorowości ze względu na badaną cechę pozwalają również na ocenę wartości poznawczej miar średnich.
Im mniejsze zróżnicowanie zbiorowości, tym wyższa jest wartość poznawcza miar średnich. Wśród miar zmienności wyróżniamy takie, które wyrażają się w takich samych jednostkach jak wartości cechy. Klasyczną miarą tego typu jest ODCHYLENIE STANDARDOWE (σ, s)
σ – odchylenie standardowe dla całej zbiorowości
s – odchylenie standardowe dla próby
Pozycyjną miarą zmienności jest rozstęp szeregu, czyli R = Xmax – Xmin i odchylenie kwartylowe (ćwiartkowe) Q.
Oprócz mianowanych miar zmienności stosujemy miary niemianowane, do których należą:
- klasyczny współczynnik zmienności Vσ
- pozycyjny współczynnik zmienności Vq.
Na ogół podajemy je pomnożone przez 100 w %. Współczynniki zmienności odgrywają istotną rolę w sytuacji, gdy chcemy porównać zróżnicowanie kilku zbiorowości ze względu na 1 cechę lub jednej zbiorowości ze względu na kilka cech.
Typowy przedział zmienności – WZÓR 15 i WZÓR 16.
Informacje o badaniu asymetrii w szeregu: szeregi, miary: WZORY od 1 do 20.
29.03.2008
WNIOSKOWANIE STATYSTYCZNE W ANALIZIE STRUKTURY
Badanie statystyczne pełne tzn. takie, w którym bezpośredniej obserwacji poddajemy całą populację generalną. Dla dużych populacji byłoby pracochłonne i kosztowne, dlatego najczęściej przeprowadza się badania statystyczne częściowe, w których bezpośredniej obserwacji podlega tylko pewien podzbiór populacji generalnej nazywany próbą. Wybór elementów do próby w badaniu częściowym może mieć dwojaki charakter: świadomy lub losowy.
Jeśli zastosujemy losowy wybór elementów do próby to uznajemy, że otrzymaliśmy próbę reprezentatywną dla całej zbiorowości, a zastosowaną metodę badania nazywamy metodą reprezentacyjną. Wyniki otrzymane z próby stają się podstawą wnioskowania statystycznego dotyczącego prawidłowości i tendencji tkwiących w całej populacji generalnej. Podstawy wnioskowania stanowi rachunek prawdopodobieństwa i inne metody tzw. statystyki matematycznej. Dobór elementów do próby przeprowadza się przy pomocy pewnych schematów. W statystyce opisane są schematy dające szansę wybrania próby reprezentatywnej dla całej zbiorowości. [M. Sobczyk par. 5.1] W konkretnych przypadkach zwykle stosujemy kombinację różnych schematów losowania.
Rozpatrując cechę mierzalną w pewnej zbiorowości statystycznej możemy potraktować ją jak zmienną losową i wyznaczyć jej rozkład. Jeśli przeprowadzamy badanie statystyczne pełne znamy ten rozkład. Przy badaniu statystycznym częściowym znamy wyłącznie rozkład badanej cechy w próbie. Rozkład ten nazywamy rozkładem empirycznym. Nie znamy natomiast rozkładu cechy w całej populacji generalnej, który nazywamy rozkładem teoretycznym.
W ramach wnioskowania statystycznego wyróżnia się 2 zasadnicze działy:
1. estymację, czyli szacowanie parametrów (np. wartości średniej, wskaźnika struktury) lub postaci rozkładu teoretycznego na podstawie rozkładu empirycznego.
2. weryfikację inaczej testowanie hipotez statystycznych czyli sprawdzanie określonych przypuszczeń na temat typu rozkładu teoretycznego, parametrów tego rozkładu, współzależności cech itp.
Ad 1
W teorii estymacji dotyczącej nieznanych parametrów czyli estymacji parametrycznej wyróżnia się:
a) estymację punktową – estymacja punktowa polega na znalezieniu takiej liczby, którą przy z góry założonej dokładności i wynikach uzyskanych z próby można uznać za najlepszą ocenę nieznanego parametru rozkładu cechy w populacji generalnej. Liczbę taką wyznaczamy dla konkretnych wyników z próby jako wartość pewnej zmiennej losowej, ustalonej dla danego parametru i nazywanej estymatorem tego parametru. W statystyce podaje się własności, jakie powinien mieć dobry estymator dla danego parametru. Estymatory dla najczęściej badanych parametrów podane zostały w tablicach wzorów. Widzimy tam, że jako estymator dla wartości średniej przyjęto średnią arytmetyczną wyników z próby [WZÓR 21]. Wybór estymatora dla wariancji, a co za tym idzie, dla odchylenia standardowego, które jest pierwiastkiem z wariancji, zależy od liczebności próby. Dla dużych prób (n>30) określa go WZÓR 22, a dla małych prób WZÓR 23.
b) estymację przedziałową – stosuje się ją znacznie częściej niż estymację punktową. Polega ona na wyznaczaniu dla szacowanych parametrów przedziałów ufności. Przedziałem ufności nazywamy taki przedział, który z zadanym z góry prawdopodobieństwem 1-α nazywanym poziomem ufności lub współczynnikiem ufności, zawiera nieznaną wartość szacowanego parametru. Jako poziom ufności przyjmuje się liczby dodatnie bliskie 1, ale nie przekraczające tej wartości, np. 0,9; 0,95; 0,98 itd. Podstawą konstrukcji przedziału ufności dla danego parametru jest właściwie dobrany estymator tego parametru, o znanym rozkładzie prawdopodobieństwa. Krańce przedziału ufności są określone przez zmienne losowe. Po podstawieniu wartości tych zmiennych wyznaczonych dla konkretnej próby otrzymujemy liczbowy przedział ufności. Przy różnych wynikach z próby otrzymujemy przedziały o różnych krańcach. Przyjęcie poziomu ufności np. 0,95 oznacza, że jeśli dla bardzo wielu prób o tej samej liczebności otrzymamy wiele różnych przedziałów ufności to częstość występowania wśród nich takich, które zawierają nieznaną wartość szacowanego parametru wyniesie w przybliżeniu 0,95.
Jako błąd oszacowania, który jest miarą jego precyzji przy wyznaczaniu przedziału ufności, przyjmuje się połowę długości tego przedziału tzn. jeśli przy ustalonym poziomie ufności 1-α dla parametru t otrzymamy liczbowy przedział ufności (a,b) to błąd oszacowania d= ½*(b-a)
Na rozpiętość przedziału ufności, a co za tym idzie na wielkość błędu oszacowania mają następujący wpływ 2 czynniki:
1) liczebność próby
2) poziom ufności
Po pierwsze, przy tym samym poziomie ufności, im większa jest liczebność próby tym krótszy przedział ufności, a więc mniejszy błąd oszacowania.
Po drugie, przy tej samej liczebności próby, im wyższy jest poziom ufności tym szerszy przedział ufności, czyli większy błąd oszacowania.
{„im więcej ufności tym mniej dokładności...”}
Przedział ufności dla wskaźnika struktury:
W badaniach statystycznych występuje często konieczność oszacowania, jaki procent jednostek posiada określony wariant cechy, czyli oszacowania wskaźnika struktury dla tego wariantu cechy. Wskaźnik struktury szacujemy wyłącznie na podstawie dużej próby o liczebności n>100. Liczbowy przedział ufności określa WZOR 28, w którym p oznacza szacowany wskaźnik struktury, n oznacza liczebność próby, k oznacza liczbę jednostek w próbie, posiadających dany wariant cechy. Wartość uα dla poziomu ufności 1-α odczytujemy w tablicach dystrybuanty rozkładu normalnego tak, aby φ(uα) = 1- α/2 . Jeśli chcemy uzyskać oszacowanie wskaźnika struktury ze z góry danym błędem szacunku na ustalonym poziomie ufności to niezbędną liczbę elementów w próbie ustalamy stosując wybrany wzór z zestawu – WZÓR 29. Przedział ufności dla wartości przeciętnej wyznaczamy wybierając jeden ze wzorów: WZÓR 24, WZÓR 25 lub WZÓR 26 w zależności od tego czy dysponujemy dużą czy małą próbą, a w przypadku małej próby, gdy cecha ma w populacji rozkład normalny kierujemy się tym, czy znamy odchylenie standardowe tego rozkładu w całej populacji. Jeśli chcemy uzyskać oszacowanie z błędem nieprzekraczającym ustalonej wartości d na przyjętym poziomie ufności 1-α, wówczas niezbędną liczbę elementów w próbie dającą taką dokładność ustalamy stosując ten z WZORÓW 27, który jest odpowiedni do badanej sytuacji.
WERYFIKACJA HIPOTEZ STATYSTYCZNYCH
Hipotezą statystyczną nazywamy osąd, inaczej przypuszczenie spełniające 2 warunki:
1) dotyczy rozkładu lub jego parametrów w populacji generalnej
2) jego słuszność da się sprawdzić (zweryfikować) na podstawie wyników z badania reprezentacyjnego
Hipotezy statystyczne mogą dotyczyć parametrów rozkładu teoretycznego np. wartości średniej cechy w populacji generalnej; są to wówczas hipotezy parametryczne. Mogą też mówić o postaci rozkładu teoretycznego np. rozkład cechy jest zgodny z rozkładem normalnym lub o współzależności cech; są to wówczas hipotezy nieparametryczne.
Hipoteza, którą sprawdzamy nazywana jest hipotezą zerową i oznaczana H0.
Hipotezę alternatywną oznaczaną H1 nazywamy każdą inną hipotezę, którą skłonni jesteśmy przyjąć, gdy odrzucimy hipotezę zerową. Testem statystycznym nazywamy regułę postępowania rozstrzygającą przy jakich wynikach z próby należy sprawdzaną hipotezę przyjąć, a przy jakich odrzucić. Decyzję o przyjęciu lub odrzuceniu hipotezy podejmujemy na podstawie wyników próby losowej. Możliwe jest wówczas popełnienie jednego z dwóch rodzajów błędów:
- błąd pierwszego rodzaju popełnimy, gdy odrzucimy hipotezę mimo, że w rzeczywistości jest ona prawdziwa; prawdopodobieństwo popełnienia takiego błędu oznaczamy α.
- błąd drugiego rodzaju popełnimy przyjmując za słuszną hipotezę, która w rzeczywistości jest fałszywa; prawdopodobieństwo popełnienia takiego błędu oznaczamy β.
Do najczęściej stosowanych testów statystycznych należy grupa testów istotności. Są one tak zbudowane, aby zapewnić możliwie małe prawdopodobieństwo popełnienia błędu drugiego rodzaju, przy określonym z góry i zaakceptowanym przez organizatora badania prawdopodobieństwie α popełnienia błędu pierwszego rodzaju. To prawdopodobieństwo α określamy mianem poziom istotności. Jako poziom istotności przyjmuje się małe liczby dodatnie np. α=0,01, α =0,1, α =0,05. w testach istotności podejmujemy tylko jedną z dwóch możliwych decyzji:
* odrzucamy weryfikowaną hipotezę H0 albo stwierdzamy, że na tym poziomie istotności przy uzyskanych wynikach z próby nie mamy podstaw do jej odrzucenia.
Budując test statystyczny wykonujemy kolejno szereg czynności:
1) definiujemy hipotezę H0, którą będziemy weryfikować; z reguły jest to hipoteza prosta, mająca tylko jedno rozwiązanie
2) definiujemy hipotezę alternatywną H1 konkurencyjną do H0, która może przyjmować wszystkie rozwiązania oprócz zawartego w H0
3) dokonujemy wyboru tzw. sprawdzianu hipotezy, którym jest zmienna losowa o znanym rozkładzie (WZORY od 31 do 37)
4) ustalamy obszar krytyczny inaczej obszar odrzucenia hipotezy zerowej; sprawdzian jak każda zmienna losowa posiada pewien rozkład prawdopodobieństwa; z tablic tego rozkładu odczytujemy wartość krytyczną i budujemy zbiór będący zbiorem odrzucenia hipotezy zerowej; często uwzględniamy w nim postać hipotezy alternatywnej
5) obliczamy wartość, jaką przyjął sprawdzian dla wyników z próby; jeśli obliczona wartość należy do obszaru krytycznego odrzucamy przy tym poziomie istotności hipotezę H0 na korzyść hipotezy H1; jeśli obliczona wartość nie należy do obszaru krytycznego stwierdzamy, że nie mamy podstaw do odrzucenia hipotezy H0.
W analizie struktury weryfikować będziemy następujące hipotezy:
- hipoteza o poziomie wartości średniej; tutaj hipoteza H0 będzie miała postać m=m0; H1 może mieć jedną z trzech postaci: m≠m0, m>m0, m
24.05.2008
SZEREGI CZASOWE
BADANIE ZMIAN POZIOMU ZJAWISKA W CZASIE
Jednym z zadań stawianych przed statystyką jest analiza zmian poziomu zjawiska w czasie. Podstawą takiej analizy są statystyczne szeregi czasowe, inaczej szeregi dynamiczne.
SZEREGIEM CZASOWYM nazywamy ciąg wartości badanego zjawiska obserwowanego w kolejnych jednostkach czasu tzn. ciąg yt, gdzie t = 1, 2, 3, 4 , … , n lub t = 0, 1, 2, 3, … , n.
Zmienną niezależną jest tutaj czas, a yt oznacza poziom badanego zjawiska w jednostce czasu t. Zmienna t w szeregach czasowych może mieć dwojaki charakter. Po pierwsze jednostkami czasu mogą być dłuższe lub krótsze przedziały czasowe, czyli okresy np. lata, kwartały, tygodnie… Mamy wówczas SZEREG CZASOWY OKRESÓW, inaczej strumieni. Po drugie poziom zjawiska yt może być badany w ściśle określonych momentach, np. ściśle określonych dniach roku, ściśle określonych dniach miesiąca, godzinach dnia … itp. Mamy wówczas SZEREG CZASOWY MOMENTÓW, inaczej stanów.
Przeciętny poziom w określonym przedziale czasowym zjawiska przedstawionego w szeregu czasowym ustalamy obliczając:
1) dla szeregu czasowego okresów średnią arytmetyczną
2) dla szeregu czasowego momentów średnią chronologiczną. WZÓR 48.
Średnia chronologiczna wyraża się w takich samych jednostkach jak badana wielkość i zawiera się między najmniejszą i największą z badanych wartości.
Jednym z zadań stawianych statystycznej analizie szeregów czasowych jest określenie tempa i intensywności zmian zjawiska w czasie, czyli ocena dynamiki badanego zjawiska. Załóżmy, że rozpatrujemy interesujące nas zjawisko w kolejnych jednostkach czasu, czyli
t = 1, 2, 3, … , n. Przy wyznaczaniu wartości miar dynamiki bierzemy pod uwagę poziom zjawiska w dwóch jednostkach czasu (okresach lub momentach). Oznaczmy przez yt wielkość badanego zjawiska w okresie lub momencie przyjętym za bazowy.
Do najczęściej stosowanych miar przy ocenie dynamiki zjawisk jednorodnych należą przyrosty absolutne i indeksy indywidualne.
PRZYROSTY ABSOLUTNE informują o ile jednostek wzrósł lub zmalał poziom zjawiska w okresie lub momencie badanym w porównaniu z jego poziomem w okresie lub momencie bazowym. Mogą być obliczane:
1) w stosunku do ustalonego dla całego szeregu okresu lub momentu bazowego. Mamy wówczas PRZYROSTY ABSOLUTNE JEDNOPODSTAWOWE. Δt/k = yt - yk
2) w stosunku do okresu lub momentu poprzedzającego badany. Mamy wówczas PRZYROSTY ABSOLUTNE ŁAŃCUCHOWE.
Przyrosty absolutne wyrażają się w takich samych jednostkach jak wielkości badanego zjawiska.
INDEKSY DYNAMIKI są to mierniki określające stosunek wielkości badanego zjawiska w dwóch okresach lub momentach. Są wielkościami niemianowanymi. Do interpretacji mnożymy je przez 100 i podajemy w %. Wartość indeksu z przedziału (0,1) świadczy o spadku poziomu zjawiska. Wartość indeksu > 1 świadczy o jego wzroście. Indywidualne indeksy dynamiki to indeksy dotyczące zjawisk jednorodnych. Obliczamy je jako INDEKSY JEDNOPODSTAWOWE jako stosunek wielkości zjawiska w okresie badanym przez wielkość zjawiska w okresie bazowym: it/k = yt / yk lub INDEKSY ŁAŃCUCHOWE obliczane w stosunku do okresu lub momentu poprzedzającego badany it/t-1 = yt / yt-1.
UWAGA!!! Jeżeli znamy indeksy jednopodstawowe to możemy z nich obliczyć indeksy łańcuchowe i odwrotnie.
Średnie tempo zmian zjawiska w czasie możemy wyznaczyć jako średnią geometryczną indeksów łańcuchowych. WZÓR 51. Średniookresowe tempo zmian w badanych n okresach obliczamy jako różnicę średniej geometrycznej minus 1. WZÓR 51.
UWAGA!!! Do interpretacji średnie tempo zmian i średniookresowe tempo zmian mnożymy przez 100 i podajemy w %.
UWAGA!!! Jeżeli podajemy informację o różnicy wielkości wyrażonych w % np. o różnicy indeksów to używamy określenia punkty procentowe.
Wśród indeksów dynamiki na szczególną uwagę w badaniach ekonomicznych zasługują indywidualne indeksy cen, ilości i wartości. Indeksy takie wyznaczamy, biorąc pod uwagę 2 okresy: okres bazowy (0) i okres badany (n). Odpowiednio w tych okresach oznaczamy cenę p0 w okresie bazowym, pn w okresie badanym, ilość w okresie bazowym q0, w okresie badanym qn.
0 n
cena p0 pn
ilość q0 qn
wartość w0 wn
Wiemy, że wartość w każdym z tych okresów można przedstawić jako iloczyn ceny i ilości.
w0= p0 * q0 , wn= pn * qn
Indywidualne indeksy dynamiki określamy odpowiednio:
ip = pn/p0
iq = qn/q0
iw = wn/w0
iw = wn/w0 = pn*qn/p0*q0= ip*iq
Otrzymana równość (WZÓR 53) nosi nazwę równości indeksowej dla indeksów indywidualnych.
DEKOMPOZYCJA SZEREGU CZASOWEGO
Drugim kierunkiem badań szeregów czasowych jest dekompozycja szeregu czasowego. Polega ona na wyodrębnieniu wpływu różnych czynników na zmiany w poziomie badanego zjawiska w czasie. Zaobserwowane zmiany w poziomie zjawiska w badanym przedziale czasowym przedstawiają łączny skutek działania różnych przyczyn, które możemy podzielić na 3 grupy:
1) ogólna tendencja rozwojowa, inaczej trend, powodująca istnienie określonej prawidłowości wynikająca z działania przyczyn głównych obserwowanych w dłuższych okresach. Teoretyczny poziom zjawiska wynikający z działania trendu oznaczmy yt dla jednostki czasu t.
2) wahania cykliczne, oznaczymy je przez (git) powodujące powtarzanie z określoną regularnością odchyleń od zasadniczej tendencji rozwojowej. Odstęp czasu, w którym występują wszystkie fazy wahań nazywamy cyklem. Do najczęściej badanych wahań cyklicznych należą wahania sezonowe np. wpływ pory roku na ceny owoców i warzyw.
3) wahania przypadkowe (zt) wynikające z działania przyczyn przypadkowych ubocznych. Występują z różną siłą i działają w różnych kierunkach np. wichura, gradobicie.
Zatem model szeregu dynamicznego można przedstawić w postaci: yt = ŷt + git + zt, gdzie yt oznacza empiryczny poziom zjawiska w jednostce czasu t i służy do oznaczania okresów jednoimiennych.
Wyodrębnienie trendu polega na wyeliminowaniu wpływu 2 pozostałych czynników; do najczęściej stosowanych metod należą:
1) metoda mechaniczna, wykorzystująca średnie ruchome
2) metoda analityczna, polegająca na dopasowaniu określonej funkcji matematycznej do danych w szeregu czasowym. Polega ona na zastąpieniu danych empirycznych szeregiem danych teoretycznych wyznaczonych jako wartości odpowiednio dobranej funkcji. Jeżeli stwierdzimy, że mamy prawo uznać, że dla badanego szeregu istnieje trend liniowy to równanie tego trendu zapiszemy w postaci: ŷt = a + bt
W równaniu tym b oznacza okresowe tempo wzrostu;
- gdy b>0 okresowe tempo wzrostu, gdy trend jest dodatni
- gdy b<0 okresowe tempo spadku, gdy trend jest ujemny
A oznacza poziom zjawiska teoretyczny w okresie lub momencie wyjściowym tzn. dla t = 0. Współczynniki występujące w tym równaniu szacujemy tak, aby suma kwadratów różnic między danymi empirycznymi i wartościami teoretycznymi była najmniejsza. Otrzymujemy w ten sposób WZORY 54.
Przykład:
Na podstawie obliczeń wyznaczyliśmy funkcję trendu postaci: ŷ = 2,557 + 0,995t.
Lata 1989-1999 (w tys. sztuk); b = 0,995 tys. sztuk (995 sztuk).
Z funkcji tej wynika, że w badanym przedziale czasowym produkcja kaset wzrastała z roku na rok przeciętnie o 995 sztuk.
Dla t = 0 ═> a = 2,557 tys. sztuk
W roku 1988 teoretycznie wyprodukowano 2557 sztuk kaset.
t = 11 ═> 1999
Korzystając z równania trendu możemy przewidywać zachowanie badanej wielkości w następnych jednostkach czasu.
Rok 2000 ═> t = 12
ŷt->12 = 14497
Gdyby tendencja nie uległa zmianie w roku 2000 teoretycznie wyprodukowanoby 14497 sztuk kaset.
Jako miarę zgodności danych teoretycznych uzyskanych z funkcji trendu z danymi empirycznymi zastosować możemy średni błąd resztowy WZÓR 56 i współczynnik zmienności resztowej WZÓR 57.
W sytuacji gdy w szeregu nie obserwuje się wahań sezonowych, miary te są jednocześnie miarami wpływu czynników przypadkowych.
Występująca we wzorze na średni błąd resztowy litera k oznacza liczbę szacowanych parametrów funkcji trendu dla trendu liniowego K = 2.