Miary położenia, zmienności, asymetrii i koncebtracji.

KIERUNEK „TURYSTYKA I REKREACJA”

Przedmiot: „Podstawy Statystyki”

Wykład 4.

Tematyka wykładu

MIARY POŁOŻENIA, ZMIENNOŚCI, ASYMETRII I KONCENTRACJI

1. Określenie i podział charakterystyk liczbowych próby,
2. Opis struktury, proporcje, odsetki i stosunki,
3. Oznaczenia pomocnicze dotyczące charakterystyk liczbowych
4. Pojęcie charakterystyk liczbowych położenia
5. Średnia arytmetyczna, średnia kwadratowa, średnia harmoniczna, średnia geome-tryczna
6. Kwartyle próbkowe i mediana
7. Pojęcie charakterystyk liczbowych zmienności
8. Wariancja, odchylenie standardowe i odchylenie przeciętne
9. Względne klasyczne i pozycyjne miary zmienności
10. Pojęcie koncentracji
11. Krzywa koncentracji Lorenza
12. Współczynnika koncentracji Pearsona względem rozkładu równomiernego


Określenie i podział charakterystyk liczbowych próby

Badanie statystyczne dotyczące pewnego zjawiska prowadzone jest na wyróżnionym zbiorze jednostek oraz badanej cechy. W tym celu, dla próby wyznacza się pewne wielkości syntetyczne, które możliwie najpełniej oddają charakter zmienności cechy, czyli syntetycznie opisują jej rozkład empiryczny. Takimi wielkościami są charakterystyki liczbowe próby (ch.p.).

Ch.l.p są formalnie funkcjami próby o postaci


gdzie h(.) jest pewną funkcją n-elementową. Czasami mówi się na takie wielkości statystyki (miary, mierniki, wskaźniki) próby. Wyróżnia się różne kryteria podziału ch.l.p. w zależności od stopnia udziału obserwacji w próbie przy ich wyznaczaniu:
Kryterium 1 - udział obserwacji z próby:
klasyczne - wszystkie obserwacje w próbie,
pozycyjne - niektóre obserwacje z próby uporządkowanej,

Kryterium 2 - zachowanie miana wyznaczonej charakterystyki:
absolutne (bezwzględne) - miano cechy zostaje zachowane,
względne (niemianowane) - wyznaczona charakterystyka liczbowa jest niemianowana,

Kryterium 3 - opis rozkładu empirycznego:
położenia - miejsce (lokalizacja) centralnego skupienia wartości badanej cechy,
zmienności (dyspersji, wahania, rozproszenia) - stopień odchylenia wartości cechy jed-nostek w próbie od miar położenia z próby,
kształtu - odstępstwo od symetrii.

Kryterium 4 – wykorzystanie jednych statystyk do wyznaczania innych statystyk:
jednolite – statystyka jest wyznaczania tylko ze statystyk jednego rodzaju albo klasycz-nych, albo pozycyjnych,
mieszane – statystyka jest wyznaczana zarówno ze statystyk typu klasycznego, jak i po-zycyjnego.

Ch.l.p mogą być wyznaczane bezpośrednio z próby lub z danych zgrupowanych w sze-regi strukturalne, w tym w szeregi rozdzielcze. W przypadku drugim, niektóre z nich nazywa się ważonymi ch.l.p. Ich listę podaje tabela 1.

Tabela 1.
Miary Klasyczne/ pozycyjne Charakterystyki liczbowe próby
Położenia Klasyczne Średnia arytmetycznaŚrednia kwadratowaŚrednia harmonicznaŚrednia geometryczna
Pozycyjne KwantyleKwartyleMedianaModaPercentyle
Zmienności Klasyczne WariancjaOdchylenie standardoweOdchylenie przeciętneObcięte odchylenie standardoweWspółczynnik zmienności
Pozycyjne RozstępRozstęp międzykwartylowyOdchylenie ćwiartkoweMedianowe odchylenie bezwzględne
Kształtu Klasyczne Współczynnik skośnościWspółczynnik spłaszczeniaEksces
Pozycyjne Pozycyjny współczynnik skośnościPozycyjny współczynnik spłaszczenia

*** Materiał do samodzielnej analizy

Opis struktury, proporcje, odsetki i stosunki

W badaniach statystycznych, w tym w turystyce i rekreacji, często przedmiotem ana-lizy są cechy wyrażone na skali nominalnej (np. rodzaj biura podróży, typy ofert turystycz-nych, status zawodowy uczestników wycieczki objazdowej, rodzaj stosowanej promocji im-prez turystycznych). Wstępne opracowanie tego typu danych, które często dotyczą cech kla-syfikujących, jest o tyle uproszczone, iż podstawową dopuszczalną operacją arytmetyczną dla pomiarów na skali nominalnej jest policzenie przypadków w każdej kategorii i porówna-nie ich względnych wartości, najczęściej wyrażonych w odsetkach procentowych.
Wielkości służące do opisu wspomnianego przypadku takie jak: częstości (proporcje) oraz odsetki były już wcześniej omawiane.
(a) Proporcje. Przy analizie proporcji kategorii zakłada się ich rozłączność klasyfika-cyjną. Odpowiednie wielkości do ich wyznaczania podaje tabela 2.

Tabela 2.

Kategorie K1 K2 ... Km
Liczebności ...
Proporcje(częstości) ...

Obok proporcji indywidualnych odnoszących się do poszczególnych kategorii, czyli , można rozważać także dla grup kategorii, które uzyskuje się z sumowania proporcji wszystkich kategorii wchodzący do zadanych grup.

Przykład. Zakłada się, iż danych jest 10 kategorii K1, K2, ..., K10 z proporcjami c1, c2, ..., c10. Utworzo-no trzy grupy kategorii: G1 = {K1, K2, K3}, G2 = {K4, K5}, G3 = {K6, ..., K10}. Zgodnie do wymienionych grup tworzy się proporcje grupowe: g1 = c1 + c2 + c3, g2 = c4 + c5, g3 = c6 + ... + c10, co daje proporcję g1:g2:g3.


Składy grup mogą być dowolne, lecz zakłada się, aby były one rozłączne i wyczerpu-jące, tzn. zawierały wszystkie rozważane kategorie.
(b) Odsetki. Odsetki odnoszą się procentowego udziału danej kategorii (części) do ogólnej całości i wyznacza się z proporcji po ich przemnożeniu przez 100. Suma tych odsetek jest równa 100, a poczynione wcześniej uwagi o grupach proporcji mogą być przeniesione do odsetek.
(c) Stosunki. Stosunkiem liczby a przez liczbę b nazywamy iloraz a/b. Inaczej niż w odsetkach i proporcjach, stosunek może być liczbą większą od jedności. Proporcja jest szcze-gólnym przypadkiem stosunku, w którym mianownik jest całkowitą liczbą przypadków, a licznik jej pewną ich częścią.
(d) Wskaźniki. Są one odmianą stosunków (ilorazów), które zwykle wyznacza się do zadanej podstawy, zwykle liczby większej, np. 10 000 (np. liczba turystycznych miejsc noc-legowych w danym regionie przypadająca na 10 000 mieszkańców).

Przykład. W zakresie charakterystyki stopnia pełnienia funkcji turystycznej dla hote-lowej bazy noclegowej wyróżnia się następujące wskaźniki podane w tabeli 3, gdzie użyto symboli:
X1 – powierzchnia w km2,
X2 – liczba ludności w tys.,
X3 – liczba miejsc noclegowych,
X4 – liczba korzystających ogółem w tys.,
X5 – liczba korzystających cudzoziemców w tys.
Tabela 3.
Lp Nazwa wskaźnika Wzór
12345 CharvataSchneidera dla korzystajacych ogółemSchneidera dla cudzoziemcówDeferta dla korzystających ogółemDeferta dla cudzoziemców X3/X1X4/X2X5/X2X4/X1X5/X1

*** Koniec materiału do samodzielnej analizy


Oznaczenia pomocnicze dotyczące charakterystyk liczbowych

Dla dalszych rozważań odnoszących się do ch.l.p., wprowadzamy oznaczenia:
(a) próba prosta
, (1)
(b) znak sumacyjny, suma n kolejnych wyrazów ciągu (1)
(2)
(c) suma r-tych ( r = 1, 2, ...) potęg wyrazów ciągu (1)

(d) suma r-tych ( r = 1, 2, ...) potęg odchyleń od stałej a wyrazów ciągu (1)



(e) znak iloczynu, iloczyn n kolejnych wyrazów ciągu (1)

,

(f) próba uporządkowana (statystyk pozycyjnych próby)

, (3)

(g) szereg rozdzielczy liczebności dla cechy dyskretnej

, (4)

(h) szereg rozdzielczy punktowy (środki p.k.) liczebności dla cechy ciągłej

, (5)

(i) szereg rozdzielczy punktowy (środki p.k.) częstości dla cechy ciągłej

, (6)

gdzie dla przypomnienia poszczególne elementy we wzorach (4) i (5) oznaczają:

- różne wartości w próbie (1),
- środki p.k.,
- liczebności dla różnych wartości próby cechy dyskretnej lub liczebności klasowe dla przedziałowego sz. r.
c1, c2, ..., ck - częstości klasowe.

Pojęcie charakterystyk liczbowych położenia


Ch.l.p. położenia (miary położenia), określane także jako przeciętne, wskazują na takie miejsca próby, czyli przedział liczbowy lokalizacji próby, w którym znajdują się warto-ści najlepiej reprezentujące wszystkie obserwacji w próbie.


Centralny przedział próby a, bń, to takie otoczenie punktu o pewnym promieniu d > 0 (delta), gdzie a = x0 - d oraz b = x0 + d.

Średnia arytmetyczna

Średnia arytmetyczna, zwana także przeciętną, jest miarą przeciętnego poziomu war-tości cechy jednostek z próby, opisujące pewne centralne ich położenie w przedziale liczbo-wym próby. Przy określeniu średniej arytmetycznej bierze się pod uwagę proporcjonalny udział wartości cechy jednostek. Oznacza to, iż wzajemne położenie obserwacji próby upo-rządkowanej na osi liczbowej, nie powinno być obciążone nadmiernie dużymi lukami ob-serwacji sąsiednich (lukami międzyobserwacyjnymi) , dla i = 1, 2, 3,..., n-1, czyli wielkości tych luk powinny pozostawać w przybliżeniu jednakowe, czyli li = const.
Niech wyraża sumę łączną (globalną) obserwacji w próbie. Każda z jed-nostek wnosi do tej sumy pewną wartość cechy, czyli gdy próba nie jest obciążona dużymi lukami obserwacji sąsiednich, to można wydzielić taką jej część, która proporcjonalnie zosta-nie rozłożona na poszczególne jednostki próby. Wielkość tę uzyskuje się przez podzielenie sumy łącznej przez liczebność próby n.


Formalnie średnią arytmetyczną wyraża się wzorem


Wśród własności średniej arytmetycznej wyróżnia się:
(a) - suma łączna obserwacji jest równa n-krotnej średniej arytmetycznej,
(b) - suma odchyleń obserwacji od ich średniej jest równa zero,
(c) suma kwadratów odchyleń Q(a) = przyjmuje wartość najmniejszą, gdy stała a jest równa średniej,

(d) jeżeli , dla i = 1,2,...,n, to , gdzie a i b są stałymi.

Obliczanie średniej arytmetycznej nie jest wskazane w sytuacjach, gdy w próbie wy-stępują obserwacje odstające (wątpliwe), co bezpośrednio wiąże się z nieproporcjonalnym udziałem obserwacji w tworzeniu sumy SX. Tak więc, gdy rozkład empiryczny jest silnie asymetryczny, to nie należy z próby wyznaczać średniej. Pewne ilustracje możliwych takich sytuacji podaje rys.1. Tylko sytuacja (a) będzie adekwatnie opisana przez średnią arytmetycz-ną, pozostałe zawierające obserwacje odstające powodują małą jej użyteczność.

(a) x(1) x(n) (b) x(1) x(n)
(c) x(1) x(n) (d) x(1) x(n)

Rys. 1.

Średnią arytmetyczną wyznaczana z punktowego sz.r, nazywana jest ważoną średnią arytmetyczną i wyraża się wzór

gdzie
cj – częstości klasowe stanowią wagi,
środki przedziałów klasowych (p.k.) są reprezentantami klas.
Przy wyznaczaniu z sz.r. mogą postać błędy, które wynikać z powodu małej li-czebności próby, z zaokrągleń lub też złej budowy sz.r., co ma miejsce wówczas, gdy śred-nie p.k. znacznie się różnią od środka p.k. Powstaje wtedy tzw. błąd systematyczny.
Interpretacja rozkładu empirycznego próby (1) opisywana średnią arytmetyczną, obejmuje:
ustalenie % liczebności oraz średnich dla jednostek próby o wartościach niż-szych i wyższych od średniej arytmetycznej,
wyznaczenie % liczby obserwacji poniżej połowy średniej oraz powyżej po-dwojonej średniej,
ustalenie mierników nierównomierności wartości cechy w próbie

.

Podane mierniki wyrażają krotność średniej dla całej próby do średnich z podprób otrzymanych z podzielenia próby na dwie części przez średnią .

Średnia kwadratowa

Średnia kwadratowa stosowana jest, gdy wyrazy w próbie (1) odpowiadają odchyle-niom od zadanego wzorca (standardu). Wyrazy w takiej próbie są niektóre ujemne, dodatnie, a inne zerowe. Obliczanie średniej kwadratowej sprowadza się do podniesienia do kwa-dratu wartości obserwacji w próbie lub środków p.k. w sz.r. i ich przemnożenia przez często-ści klasowe, a następnie sumowaniu tych wielkości i wyznaczenia pierwiastka kwadratowego, czyli

Średnia kwadratowa jest rzadziej stosowana w praktyce.

Średnia harmoniczna

Średnią harmoniczną stosuje się przy wyznaczaniu średniej dla wielkości odwrotnych, względnych. Ma to miejsce gdy obserwacje w próbie mają miana typu km/h, ton/h, m/s, kg/osobę, osobach/km2 , itp., czyli dla przypadków pomiarów, które są unormowane do da-nych wielkości bazowych. Dla ilustracji niektórych takich przypadków, podajemy dwa przy-kłady, które zawiera tabela 5.
Tabela 5.
Wielkości proste (X) Wielkości odwrotne (1/X)
Przeciętna szybkość pojazdów mechanicz-nychOpłacalność produkcji – wartość produkcji na jednostkę pewnego kosztu jej pozyskaniaZużycie czasu na przebycie jednostki drogiKosztochłonność produkcji – wielkość kosz-tów przeniesiona na wytworzenie jednostki produkcji.

Średnią harmoniczną wyznacza się wzorem

Wyznaczanie średniej harmonicznej dla próby (1) przebiega następująco:
(j) wyznaczamy wielkości odwrotne ,
(ii) odwrotności z kroku (i) sumujemy, niech tą sumą będzie H,
(iii) dzielimy liczebność próby przez sumę H.
Własności średniej harmonicznej w przypadku próby (1), wyrażają się jako:
(a) (b) (c) .
czyli są podobne do średniej arytmetycznej.

Średnia geometryczna

Średnia geometryczna znajduje zastosowanie głównie w analizie danych czasowych do określenia przeciętnego tempa zmian w czasie. Dla danych przekrojowych bywa ta śred-nia stosowana do wyznaczania przeciętnego poziomu wartości cechy, gdy obserwacje w pró-bie mogą się nawet znacznie różnić. Jest ona mniej wrażliwa na wartości odstające w porów-naniu do średniej arytmetycznej. Wyznacza się ją wzorem pierwiastkowym:


albo wzorem logarytmicznym:

gdzie log oznacza logarytm dziesiętny. Należy zauważyć, iż podane ostatnie wzory są śred-nimi arytmetycznymi wyznaczonymi z logarytmów dziesiętnych.
Własności średniej geometrycznej:
(a) jeżeli czyli obliczanie średniej geometrycznej można uprościć wprowadzając właściwy czynnik a > 0 (np. gdy liczby są duże, to można je wszystkie po-mnożyć przez czynnik 10-m, gdzie m = 1, 2, 3, ... jest dobierane w zależności od rzędu wiel-kości obserwacji w próbie),
(b) jeżeli co oznacza, iż średnia geometryczna obliczona z próby po jej normalizacji przez średnią jest równa jeden,
(c) jeżeli a zatem
średnia geometryczna iloczynu dwóch ciągów jest równa iloczynowi ich średnich geome-trycznych.

Kwantyle próbkowe

Jak już nadmieniono, klasyczne miary położenia nie zawsze mogą być wyznaczone. Ich ograniczenie wynika głównie z powodu:
· występowania obserwacji odstających,
· otwartych p.k. w szeregach rozdzielczych.,
· istnienia silnej asymetrii rozkładów empirycznych.
A zatem, zawsze gdy zachodzi obawa, że średnie klasyczne mogą wypaczać obraz centralnego skupienia próby należy w ich miejsce stosować pozycyjne ch.l.p. Do podstawo-wych pozycyjnych miar położenia zaliczamy medianę i modę. Mediana z kolei jest szcze-gólnym przypadkiem kwantyli próbkowych (k.p.). Dalej zawsze, gdy będzie mowa o próbie, to będziemy mieć na myśli próbę uporządkowaną (3).
Przez C+ oznaczmy zbiór liczb całkowitych dodatnich, natomiast niech wyraża kwantyl próbkowy. rzędu a-tego, gdzie . Jego wyznaczanie z próby przeprowadza-my według następujących kroków:
Krok 1. Ustalamy liczbę a, czyli rząd kwantyla,
Krok 2. Obliczamy liczbę wyrażającą pozycyjność kwantyla w próbie, przy czym może być ona liczbą całkowitą lub wymierną (niecałkowitą),
Krok 3. W przypadku, gdy p jest liczbą wymierną ustalamy liczbę , czyli część całkowitą liczby p. Liczba q wskazuje na rangę (numer) obserwacji w próbie (3),
Krok 4. Obliczamy k.p. z próby (3), wzorem



przy czym drugi z podanych wzorów jest średnią ważoną z dwóch statystyk pozycyjnych , co ilustruje rys. 2.

q p = a(n+1) q+1 x(q) xa x(q+1) p – q q + 1 - p

Rys. 2.

W przypadku danych zgrupowanych w przedziałowy sz.r., kwantyle próbkowe wy-znacza się za pomocą liczebności skumulowanych w następujących krokach:
Krok 1. Przyjmujemy liczbę a, określającą rząd kwantyla,
Krok 2. Ustalamy numer p.k , tak aby spełniona była nierówność , czyli liczba r wskazuje kwantylowy przedział klasowy,
Krok 3. Dla r-tego p.k., określamy: yr – dolną granicę, fr – liczebność oraz d – długość p.k.,
Krok 4. Obliczamy kwantyl rzędu a-tego z sz.r. wzorem

. (7)

Jedną z użytecznych form graficznego przedstawiania próby uporządkowanej (3) jest wykres kwantylowy. Na tym wykresie każdej próbkowej kwantylowej wartości x(i) , przypo-rządkowywana jest liczba , która wskazuje na pozycję x(i) w pró-bie. Wartości par zaznaczamy na układzie współrzędnych, a odpo-wiednie punkty łączymy odcinkami.
W szczególności kwantyle mogą być tak dobrane, aby próba uporządkowana była dzielna na pewną liczbę podprób, powiedzmy na m, każda o jednakowej liczebności równej ilorazowi f = [n/m]. W szczególności, wśród k.p. wyróżniamy:

kwartyle, gdy f = n/4, wtedy m = 4,
kwintyle, gdy f = n/5, wtedy m = 5,
decyle, gdy f = n/10, wtedy m = 10,
percentyle, gdy f = n/100, wtedy m = 100.


Kwartyle próbkowe i mediana

Kwantyle, w tym także kwartyle stosuje się do danych mierzonych przynajmniej na skali porządkowej. Kwartyle dzielą badaną próbę na 4 podpróby (części). Określane bywa-ją także jako ćwiartki (kwarty), gdyż dzielą całość na 4 części. Wśród nich wyróżnia się kwartyle:
dolny
środkowy (mediana) ,
górny .
Położenie wymienionych kwartyli na osi liczbowej podaje rys. 3.

n/4 n/4 n/4 n/4 xmin Q1 Q2 = Me Q3 xmax

Rys. 3.

Kwartyle dzielą próbę na dwie podpróby w odpowiednim stosunku procentowym, poło-żone po lewej i prawej jego stronie, co podaje tabela 6.

Tabela 6
Kwartyle Symbol % po lewej stronie % po prawej stronie
dolnyśrodkowygórny Q1Q2 = MeQ3 255075 755025

Kwartyle dla sz.r. można wyznaczać także graficznie posługując się liczebnościami kumulowanymi, co pokazuje rys.4


qj 3n/4 n/2 n/4 X Q1 Q2 = Me Q3

Rys. 4

Polega to na zaznaczeniu na osi rzędnych liczebności n/4. n/2 i 3n/4, a następnie wy-kreśla się odcinki równoległe poprowadzone od osi rzędnych do łamanej liczebności kumu-lowanych, a następnie zrzutowaniu otrzymanego punktu przecięcia na oś odciętych.
Kwartyle są szczególnie przydatne w analizie rozkładu empirycznego próby. Ich inter-pretacja, obejmuje najczęściej pytania:
(a) czy położenie kwartyli wyznacza przedziały kwartylowe w przybliżeniu o jednako-wej długości,
(b) jakie są najkrótsze i najdłuższe przedziały kwartylowe,
(c) czy przedziały medianowe są w przybliżeniu o jednako-wej długości,
(d) jaka jest względna długość różnych przedziałów kwartylowych do rozstępu próby.
Mediana jako pozycyjna miara położenia jest wyznaczana z próby (3) bezpośrednio w zależności od parzystości lub nieparzystości liczebności próby n, wzorem:



Dla mediany zachodzą następujące własności:
(a) gdy a = Me, czyli suma odchyleń bezwzględnych obserwacji jest najmniejsza, gdy jest wyznaczana od mediany,
(b) ,
(c) jeżeli Me – x(1) = x(n) – Me, to
Wzór na medianę z sz.r. wymaga wskazania takiego numeru r-tego p.k., który zawiera liczebność n/2, co dokonuje się na podstawie liczebności skumulowanych, co ostatecznie prowadzi do wzoru (patrz wzór (7) przy


*** Materiał uzupełniający nie obowiązkowy

Ch.l.p. położenia Q1, Q2, Me oraz wygodnie jest przedstawić na wykresie graficznym, zwanym wykresem pudełkowym (skrzynkowym). Wykres taki wykonuje się w następują-cych krokach (patrz rys. 6).
Krok 1. Wykreślamy oś liczbową z odpowiednią podziałką w skali arytmetycznej,
Krok 2. Wykreślamy skrzynkę z lewym i prawym brzegiem położonym w punktach odpowiadających dolnemu (Q1) i górnemu (Q3) kwartylowi,
Krok 3. Wewnątrz skrzynki zaznaczamy linią pionową położenie mediany Me oraz
znakiem + średnią arytmetyczną ,
Krok 4. Wyznaczamy rozstęp międzykwartylowy ,
Krok 5. Wykreślamy linie poziome w lewo i prawo od brzegów skrzynki, tzw. wąsy o długościach 1,5IQ, których końce oznaczamy znakiem *,
Krok 6. Jeżeli najmniejsza (x(1)) lub największa (x(n)) wartość z próby leży wewnątrz za-kresu wyznaczonego przez wąsy, to kończymy rysowanie wąsa dla tej wartości przez zazna-czenie na końcu wąsa znaku kropki,
Krok 7. Jeżeli wartości z próby leżą poza końcami wąsów, to oznaczamy je znakiem 0 i uznajemy je za obserwacje odstające.

Przykład. Dla danych: wy-konać wykres pudełkowy. Ostateczną postać wykresu daje rycina 5, gdzie IQ = 1,511 = 16,5.

x(1) Q1 Me Q3 Q3 + 1,5IQ x(n) * 0 13 46,5 59 19 25 30 10 20 30 40 50 60

Rys. 5


Wykresy pudełkowe są szczególnie przydatne przy graficznej ilustracji prób, gdy są one sklasyfikowane według różnych kryteriów merytorycznych (np. można zaprezentować wyniki analizy porównawczej dla 5 biur podróży ze względu na ponoszone roczne wydatki na promocję ofert turystycznych do określonego segmentu odbiorców).

*** Koniec materiału uzupełniającego
Moda próbkowa


Moda jako pozycyjna ch.l.p. ma wiele różnych synonimów, jako: modalna, domi-nanta, wartość najczęstsza lub wartość typologiczna. Moda oznaczona symbolem Mo od-powiada takiej wartości cechy, które najczęściej występującą w próbie. Mówiąc o przypadku wielokrotności występowania niektórych pomiarów w próbie, należy uważać, iż próba jest dostatecznie liczna, gdyż tylko wtedy należy oczekiwać, iż będzie miało miejsce wielokrotne występowanie niektórych obserwacji w próbie. Taka typowość jest częściowo przejawem stabilizowania się niektórych wartości w próbie, które uważa się za typowe dla rozważanej cechy. To w konsekwencji prowadzi do sytuacji, iż niektóre próby będą miały więcej niż jed-ną modę. Prowadzi to do klasyfikowania rozkładów empirycznych w zależności od liczby występowania mody. Takie rozkłady z jedną modą są określane jako rozkłady jednomodal-ne (jednoszczytowe), z dwiema modami, jako rozkłady dwumodalne (dwuszczytowe) i itp. W przypadku, gdy wszystkie wartości w próbie występują dokładnie jeden raz, to rozważana próba nie ma określonej mody.
Dla przedziałowego sz.r. liczebności (5) modę wyznacza się w następujących krokach:
Krok 1. W sz.r. wskazujemy się na p.k. o największej liczebności klasowej , którego numer oznaczmy przez r, czyli r wyraża numer p.k. zawierającego modę,
Krok 2. Dla wskazanego modalnego p.k., odczytujemy dolną granicę p.k. yr,
Krok 3. Odczytujemy liczebności klasowe odpowiednio dla przedziałów (r-1)-go oraz (r+1)-go,
Krok 4. Wyznaczamy różnice: oraz ,
Krok 5. Obliczamy modę ze wzoru:

.

Nie należy wyznaczać mody z sz.r., gdy wyróżnionym modalnym p.k. są przedziały skrajne, pierwszy (r=1) lub ostatni (r=k), czyli gdy rozkład empiryczny jest typu U lub typu J, a więc wykazują silne skupianie się liczebności klasowych w skrajnych p.k., albo gdy cha-rakteryzują się bardzo silną asymetrię prawostronną lub lewostronną.
Zależnie od typu rozkładu empirycznego, zachodzą różne relacje między miarami po-łożenia: średniej arytmetycznej, mediany i mody (rys. 6)

(a) (b) (c)

Rys. 6.

Odnotujmy, że przy umiarkowanej asymetrii, modę można wyznaczyć wzorem przy-
bliżonym podanym przez K. Pearsona .


Pojęcie charakterystyk liczbowych zmienności


Omawiane w poprzednim rozdziale miary położenia nie wystarczają do pełnego opi-su badanego rozkładu empirycznego, gdyż nic nie mówią o tym jak rozmieszczone są po-szczególne wartości obserwacji z próby wokół miar centralnego skupienia, czyli średnich, mediany oraz mody. Nasuwa się stąd potrzeba, aby te miary uzupełnić zasięgiem wahań war-tości cechy w próbie, do czego stosuje się miary zmienności (dyspersji, rozproszenia).
Ponieważ skupianie się obserwacji próby w otoczeniu miar centralnych położenia mo-że mieć różny kształt, należy zbadać jak wielkie są odchylenia poszczególnych obserwacji, a jednocześnie jakie są przeciętne miary tych odchyleń.



Dla dalszych rozważań wprowadzamy następujące określenia:
xi - a - odchylenie od stałej a,
- odchylenie obserwacji xi od średniej (reszty),
- odchylenie bezwzględne obserwacji xi od średniej,
- kwadrat odchylenia obserwacji od średniej (reszt),
suma kwadratów odchyleń (reszt)

.

Wariancja i odchylenie standardowe


Wariancja należy do podstawowych klasycznych ch.l.p. zmienności. Wyraża ona miarę przeciętnych kwadratów odchyleń od średniej arytmetycznej, którą wyznacza się z sumy SSX podanej wzorem (20.2), określającej miarę całkowitej zmienności cechy X w próbie. Dzieląc SSX przez tzw. stopnie swobody n-1, otrzymuje się wzór na wariancję (średni kwadrat) z próby o postaci

.

Określenie pojęcia stopni swobody podaje następująca definicja.


Wariancja mierzy zmienność cechy w kwadratach jej miana, czyli gdy X [m], to s2 [m2] tak więc, nie może ona służy do bezpośredniej interpretacji rozkładu empirycznego cechy X , lecz jest wielkością pomocniczą z, której wyprowadza się inne ch.l.p. Dla sz.r. wyznaczamy ją wzorem
,

gdzie WSSX jest ważoną sumą kwadratów o postaci


We wzorze na wariancję zastosowano poprawkę Shepparda d2/12. Bierze się ona stąd, iż obliczona wariancja z sz.r. jest zawyżona ze względu na stosowanie środków p.k. w
miejsce poszczególnych obserwacji zawartych w p.k..
Przeciętną miarę rozrzutu obserwacji w próbie wokół średniej arytmetycznej określoną w jednostkach mianowanych badanej cechy, wyraża odchylenie standardowe. Jest ono do-datnim pierwiastkiem kwadratowym z wariancji


i wyrażona w jednostkach miana badanej cechy, czyli gdy X [m], to s [m]. Statystyka s jest uważana za podstawową klasyczną i absolutną miarę zmienności przy interpretacji meryto-rycznej rozkładu empirycznego.
Jak już zaznaczono, przy małym odchyleniu standardowym należy oczekiwać, że ob-serwacje z próby będą lokalizowały się głównie w tzw. typowym przedziale zmienności . Jest to szczególny przypadek przedziału m-odchyleń standardowych

dla m = 1,2,3, ....

Podany wcześniej typowy przedział zmienności otrzymuje się przy m = 1. Wprowa-dzamy oznaczenia dla szczególnych przedziałów zmienności:



które spełniają warunek zawierania (inkluzji) ze względu na długo-ści przedziałów. Przy umiarkowanie symetrycznym rozkładzie empirycznym, wymienione przedziały zawierają odpowiednio około 68 %, 95 % i 99 % liczebności próby. Tym samym, orzeka się, iż przedział trzech odchyleń standardowych zawiera prawie wszystkie obserwa-cje próby. To stwierdzenie jest często używane jako empiryczna zasada wykrywania obser-wacji odstających w próbie. Za odstające należy uznać w myśl tej zasady, wszystkie te ob-serwacje w próbie, które nie znajdują się w P3OS. Z tych też powodów wymienioną zasadę nazywa się regułą trzech odchyleń standardowych wykrywania obserwacji odstających.
Przy interpretacji odchylenia standardowego stosowana bywa zasada Gaussa (C.F. Gauss 1777-1855). W myśl tej zasady:

(a) 68 % obserwacji z próby zawiera się w P1OS,
(b) 95 % obserwacji z próby zawiera się w P2OS,
(c) prawie wszystkie obserwacje z próby zawierają się w P3OS.
Para pozwala na skonstruowanie szeregu strukturalnego, dla którego zamknięte p.k. mają jednakowe długości równe odchyleniu standardowemu s, co podaje tabela 7.

Tabela 7

Nr Przedziały klasowe Nr Przedziały klasowe
1234 5678

Szczególnie interesujące mogą być analizy prowadzone na danych zgrupowanych w szereg, gdy będzie się porównywać liczebności skumulowane w kierunku od przedziału 1-go do 4-go oraz od 5-go do 8-go, czyli dla przedziałów wokół średniej arytmetycznej. Pozwala to lepiej dostrzec rozkładanie się liczebności klasowych w dwóch podpróbach o wartościach mniejszych oraz większych od średniej.
Znaczenie odchyleniu standardowego przejawia się także w przypadku, gdy prowadzi się badania porównawcze próby opisanej wieloma cechami (badanie wielocechowe) wyrażo-nych różnymi mianami. Taka sytuacja może mieć np. miejsce, gdy biuro podróży prowadzi badania swoich produktów opisanych wieloma cechami (np. cena, ilość sprzedaży, liczba zwrotów, itp.) Uzyskuje się wówczas wiele średnich, które nie są bezpośrednio porównywal-ne. W takich okolicznościach dokonuje się transformacji obserwacji próbkowych dla umożli-wienia ich porównywalności. Jest to możliwe wówczas, gdy takie próby zostaną przekształ-cone do wspólnej skali, na której średnia będzie równa zero, a odchylenie standardowe wyno-si jeden, co odpowiada relacji

.

Dla osiągnięcia podanej własności obserwacje z próby {xi} poddaje się przekształce-niu standaryzacyjnego (normalizującego), wzorem

.

Dokładność oceny średniej arytmetycznej określa wielkość


zwana błędem standardowym średniej arytmetycznej. Dlatego też przyjmuje się podawać średnią w postaci . Jest ponadto przydatna w badaniach porównawczych wielu prób dla tej samej cechy, lecz o różnych liczebnościach.

Odchylenie przeciętne

W niektórych przypadkach, gdy oszacowanie dyspersji ma służyć jedynie opisowi rozkładu empirycznego, wówczas zamiast odchylenia standardowego, wyznacza się odchyle-nie przeciętne, które jest średnią arytmetyczną odchyleń bezwzględnych od zadanej miary położenia.. W zależności od sytuacji wyjściowej jest obliczane wzorem:
(a) próba {xi} :
- odchylenia bezwzględne od średniej,
- odchylenia bezwzględne od mediany,
(b) dane z szeregu rozdzielczego
- odchylenia bezwzględne ważone od średniej,
- odchylenia bezwzględne ważone od mediany,
gdzie cj s są klasowymi częstościami względnymi.
Mamy zawsze D < s lub DM < s oraz dla rozkładów w przybliżeniu symetrycznych zachodzi D » 0,8s lub s » 1,25D. Podany wzór pozwala oszacować s, gdy znamy D.
Względne klasyczne miary zmienności

Absolutne miary położenia i zmienności są wielkościami mianowanymi i w tej for-mie są nieporównywalne, jeżeli ich miana są różne. Taki przypadek ma miejsce gdy porów-nanie dotyczy dwóch lub więcej cech dla prób pobranych z tej samej populacji (np. dla wylo-sowanych jezior Pojezierza Wielkopolskiego i Pomorskiego w granicach dorzecza Odry ba-dane są różne wskaźniki morfometryczne jezior: X - powierzchnia (ha), Y - objętość (tys. m3), Z - głębokość maksymalna (m)). Również nie mamy możliwości porównywania tej samej cechy, gdy próby pochodzą z różnych populacji generalnych. W takich przypadkach stosuje się względne (ilorazowe) miary zmienności, o postaci
,
gdzie:
a - miara zmienności, czyli
b - miara położenia, czyli .
Odpowiednio do podanego ilorazu określamy następujące względne miary zmienności:
(a) współczynnik zmienności klasyczny

,

(b) współczynnik zmienności odchylenia przeciętnego od średniej

,

(c) współczynnik zmienności odchylenia przeciętnego od mediany

.

Wartości liczbowe ilorazowych miar zmienności podawane są w procentach. Należy unikać obliczania tych miar, gdy dane, które analizujemy same są już stosunkiem (np. wyra-żone w %).
Współczynnik zmienności v jest szczególnie zalecany przy rangowaniu ważności (pre-ferencji) cech w badaniach wieleocechowych. Za najbardziej zmienne uznaje się te cechy, które mają największe wartości współczynnika zmienności i odwrotnie za cechy stabilne uważa się takie, których współczynniki zmienności nie przekraczają jakiejś arbitralnie usta-lonej wartości, powiedzmy v0 (np. 20 %).

Pozycyjne miary zmienności


Podkreślmy. że im wyższy jest współczynnik zmienności, tym próba stanowi mniej jednorodny - z punktu widzenia badanej cechy - zbiór jednostek obserwacji. W takich przy-padkach preferowane są pozycyjne miary zmienności. Innym powodem, dla których kieru-jemy się do tych miar jest niemożność wyznaczenia średniej arytmetycznej, co ma miejsce gdy, próba jest obciążona obserwacjami odstającymi. Wśród pozycyjnych miar zmienności wyróżnia się m. in.: rozstęp, odchylenie ćwiartkowe, wskaźniki względne kwartylowe i decy-lowe.
Rozstęp. Rozstęp jest jedną z najprostszych pozycyjnych miar zmienności Wyraża on różnicę między wartościami skrajnymi próby. Nie stanowi on wystarczającej miary zmienno-ści, bowiem wyznacza się go tylko na podstawie dwóch wartości skrajnych w próbie, co szczególnie jest niekorzystne gdy próba zawiera obserwacje odstające.
Z pojęciem rozstępu związane są dwie inne wielkości:
rozstęp międzykwartylowy ,
rozstęp międzydecylowy ,
gdzie kolejno wymieniono kwartyl górny, kwartyl dolny, decyl górny i decyl dolny.
Odchylenie ćwiartkowe. Rozstęp międzykwartylowy IQ wyraża długość przedziału, w którym lokalizuje się 50% wszystkich obserwacji w próbie. Połowa tego rozstępu stanowi odchylenie ćwiartkowe, czyli
.

Między statystykami Q i s dla rozkładów empirycznych w przybliżeniu symetrycz-nych zachodzą zależności: Q = 0,675s oraz s = 1,483Q. Oznacza to możliwość szacowania odchylenia standardowego bez konieczności wyznaczania wariancji z próby.
Podobnie określa się odchylenie decylowe


Interpretacja podanej wielkości jest podobna do odchylenia ćwiartkowego, czyli poda-je on przeciętną długość przedziału decylowego po odrzuceniu skrajnych przedziałów decy-lowych.

*** Materiał uzupełniający nieobowiązkowy

Medianowe odchylenie bezwzględne. Dla obserwacji z próby wyznaczamy odchyle-nia bezwzględne od mediany . Biorąc z kolei medianę z wielkości , otrzymu-je się ch.l.p. zmienności o postaci

,

przy czym skrót MAD pochodzi od słów angielskich median absolute deviation. Podana cha-rakterystyka jest odporna na występowanie obserwacji odstających i posiada własność , czyli MAD dla próby {yi} jest proporcjonalne do mediany w próbie {xi}.
Relatywne miary zmienności. Wśród pozycyjnych miar relatywnych (względnych) zmienności wyróżnia się charakterystyki zbudowane na kwartylach i decylach, takich jak:
(a) wskaźnik wahania kwartylowego

(b) wskaźnik wahania decylowego

(c) wskaźnik zróżnicowania kwartylowego
,
(d) wskaźnik zróżnicowania decylowego
.
Podane wskaźniki znajdują szczególne zastosowanie w analizie zróżnicowania płac i dochodów różnych grup zawodowych ludności i mogą być wyrażone w %. Wskaźniki waha-nia są ilorazami odpowiednich rozstępów międzykwartylowych (50 % obserwacji próby) lub międzydecylowych (80% obserwacji próby) do średniej. Jako miary względne wskazują na krotność wymienionych rozstępów do średniej. Z kolei wskaźniki zróżnicowania określają jaką krotność stanowi kwartyl (decyl) górny do kwartyla (decyla) dolnego.

*** Koniec materiału uzupełniającego


Klasyczne miary kształtu

Miary zmienności nie wyjaśniają, czy pomiary w próbie umieszczone są w jednako-wych odległościach po obu stronach centralnego skupienia próby. Ten problem jest badany za pomocą ch,l,p. kształtu (miar kształtu). Wśród nich wyróżnia się dwie statystyki względne:
współczynnik skośności (asymetrii),
współczynnik spłaszczenia (kurtozy).
Zasadniczym celem miar kształtu jest badanie odstępstwa rozkładu empirycznego od symetrii.
Miary skośności i spłaszczenia wyznacza się za pomocą momentów centralnych próby, które wyznacza się zależnie do rodzaju danych w postaci:
(a) próba {xi}

(b) szereg rozdzielczy


Wymienione momenty są korygowane poprawkami Shepparda, zależnie od rzędu momentu, odpowiednio:


gdzie d jest długością przedziału klasowego.
Współczynnik skośności. Dla oceny stopnia odstępstwa badanego rozkładu empi-rycznego od rozkładu symetrycznego, stosowany jest współczynnik skośności (asymetrii). W rozkładzie symetrycznym wymaga się, aby i-ta mniejsza obserwacja od mediany oraz i-ta wyższa obserwacja od mediany były jednakowo odległe od mediany, co wyraża warunek symetryczności próby

,

dla wszystkich i = 1,2,...,m, gdzie liczbą nieparzystą oraz , gdy n jest liczbą parzystą. Badanie asymetrii dla próby {xi} wygodnie jest prowadzić poprzez ob-liczenie różnic lewej i prawej strony podanej wcześniej równości i ich bezpośredniego po-równania, co podano w tabeli 8.

Tabela 8
i 1 2 ... m
Me - x(i) Me - x(1) Me - x(2) ... Me - x(m)
x(n-i+1) - Me x(n) – Me x(n-1) - Me ... x(n-m+1) - Me
n-i+1 N n-1 ... n-m+1

Dla przypadku sz.r. warunek symetryczności jest analogiczny, czyli

,

dla wszystkich j = 1,2,...,m, gdzie m jest określone we wzorze (21.3).
Miarę skośności można wyrazić momentem centralnym rzędu trzeciego m3. Zależnie od znaku jaki on przyjmuje, mamy:
asymetrię (skośność) lewostronną, gdy m3 < 0,
asymetrię (skośność) prawostronną, gdy m3 > 0,
symetrię, gdy m3 = 0.
Wymieniona miara skośności jest wyrażona mianem [m3]. Powoduje to niemożność określenia stopnia asymetrii dla porównania prób badanych cechami o różnych mianach. W tym celu stosuje się względną miarę asymetrii wyrażoną znormalizowanym trzecim mo-mentem centralnym z próby. Tak wyznaczona miara kształtu jest wielkością niemianowaną. Wyznacza się ją wzorem


a jej wartości najczęściej należą do przedziału -1, 1ń.

Współczynnik spłaszczenia. Rozkłady empiryczne są najczęściej opisywane za po-mocą histogramów liczebności lub częstości. Kształt tych histogramów może być bardziej wysmukły lub spłaszczony wokół wartości centralnych próby (rys. 7)

(a) (b)

Rys. 7

Miarą spłaszczenia (kurtozy) z próby jest znormalizowany czwarty moment cen-tralny z próby, czyli współczynnik spłaszczenia



Wartości statystyki g2 wahają się wokół liczby 3. Przyjmuje się stąd następującą kla-syfikację rozkładów empirycznych:
rozkłady leptokurtyczne (wysmukłe), gdy
rozkłady platykurtyczne (spłaszczone), gdy
Czasami dla określenia kurtozy stosuje się eksces, wyrażony wzorem
którego wartości wahają się wokół zera. Interpretacja jest analogiczna do g2, tzn. rozkład jest wysmukły, gdy > 0 i spłaszczony, gdy < 0.

Pozycyjne miary kształtu


Podane wcześniej klasyczne ch.l.p. kształtu mogą być wyznaczone, gdy są powody stosowania średniej arytmetycznej. Jak już wielokrotnie podkreślano, miary pozycyjne są komplementarne do miar klasycznych, a zawsze tam, gdzie rozkład empiryczny wskazuje na występowanie obserwacji odstających należy stosować miary pozycyjne. Niekiedy statystyki próbkowe mają postać mieszaną, tj. są zbudowane zarówno z miar położenia, jak i miar zmienności, przy czym może wystąpić kombinacja statystyk klasycznych i pozycyjnych. Taką sytuację mieliśmy już przy określeniu względnych miar zmienności.
Pozycyjne miary położenia podamy dla asymetrii i kurtozy. Mniej będziemy zajmo-wać się ich interpretacją, gdyż jest ona prowadzona analogicznie do podanej w punkcie 21.2, a bardziej skupimy się na podaniu odpowiednich wzorów.
Współczynnik skośności. Dla rozkładu empirycznego symetrycznego zachodzi w szczególności równość
,
gdzie Q1 i Q3 są odpowiednio dolnym i górnym kwartylem, natomiast Me jest medianą. Po-równując wielkości: między sobą, możemy stwierdzić wy-stępowanie asymetrii:
lewostronnej, gdy L > U,
prawostronnej, gdy L < U.
Biorąc pod uwagę podane typy asymetrii, otrzymujemy wzór na pozycyjny współczyn-nik skośności o postaci
.
Skośność można także wskazać posługując się wykresem pudełkowym. Jeżeli na tym wykresie wąsy po lewej stronie lub prawej stronie są długie, to wystąpi wówczas lewo- lub prawostronna asymetria.
Badając odchylenie między średnią arytmetyczną i modą, uzyskuje się informację o rozbieżności między przeciętnym poziomem wartości badanej cechy a jej wartościami naj-częstszymi. Im to odchylenie jest wyższe, tym większa będzie asymetria. Dla możliwości porównań tych odchyleń dla różnych badanych cech, przeprowadza się jego standaryzację przez podzielenie wspomnianych odchyleń przez odchylenie standardowe, czyli



Pojęcie koncentracji

Przy analizie rozkładu empirycznego cech opisujących zjawiska społeczno-gospo-darcze, często występuje sytuacja, gdy łączna (globalna) suma wartości cechy rozkłada się nierównomiernie na poszczególne badane jednostki. Ma to miejsce, gdy stosunkowo duża liczba jednostek przyjmuje niskie wartości cechy i jednocześnie niewielka osiąga bardzo wy-sokie wartości badanej cechy. W analizie rozkładu empirycznego, uwidacznia się to tym, iż stosunkowo nieduży odsetek jednostek ujmuje jednocześnie duży odsetek wartości sumy glo-balnej cechy. Taką sytuację spotyka się na przykład przy analizie płac dużych zakładów hote-larskich, gdzie nieliczna kadra zatrudnionych, przejmuje prawie cały fundusz płac (tzw. zja-wisko kominów płacowych). Do analizy takich zjawisk stosuje się miary koncentracji.





Zjawisko koncentracji wyraża stopień skupieniu znacznego odsetka wartości badanej cechy w stosunkowo niewielkim odsetku jednostek próby (zbiorowości). Jego brak ma miej-sce wtedy, gdy wszystkie jednostki mają jednakową wartość cechy (cecha ma wtedy rozkład równomierny). Z umiarkowaną koncentracją spotykamy się wówczas, gdy wartości cechy dla jednostek z próby nie będą nadmiernie różnić się między sobą, a ich rozkład empiryczny bę-dzie charakteryzował się nieznacznym odstępstwem od symetrii.
Analiza koncentracji wiąże się bezpośrednio z ch.l.p., w szczególności z miarami zmienności i asymetrii. Wysoka koncentracja będzie miała miejsce, gdy jednocześnie wystą-pi duży rozrzut wokół wielkości centralnego skupienia próby (średniej lub mediany) oraz bę-dzie wysoka wartość współczynnika skośności oraz niewielka wartość współczynnika spłaszczenia.
Badanie koncentracji jest konieczne zwłaszcza w przypadku rozkładów skrajnie asy-metrycznych (typu J - silna asymetria lewostronna lub L - prawostronna), kiedy stosowa-nie i interpretacja klasycznych ch.l.p. napotyka na znaczne trudności i gdzie uwzględnia się również przypadek występowania obserwacji odstających.
Wyróżnia się absolutną i relatywną koncentrację. Pierwsza odnosi się do przypad-ku, gdy mała liczba jednostek zawiera dużą część sumy globalnej cechy, natomiast druga ma miejsce, gdy to odnosi się do małego odsetka (udziału) procentowego jednostek.
Typowymi zagadnieniami, w których dokonuje się oceny koncentracji cech, są analizy rozkładów dochodów, majątku, użytków rolnych, spożycia, rozmieszczenia czynników pro-dukcji, ludności, bogactw naturalnych, obiektów hotelarskich, walorów turystycznych, itp.
W analizie koncentracji jednostkami badania mogą być zarówno jednostki teryto-rialne (miasta, gminy, powiaty, województwa, kraje), jak i jednostki statystyczne wyodręb-nione według kryteriów nie związanych z przestrzenią (np. gospodarstwa domowe, biura po-dróży, hotele, zbiorniki wodne, branże, gałęzie gospodarki narodowej, itp.).
Miary koncentracji mogą być wyznaczane dwoma sposobami:
analitycznymi,
graficznymi z użyciem krzywej Lorenza.

Krzywa koncentracji Lorenza
Graficzna metoda analizy koncentracji polega na sporządzeniu i ocenie tzw. wykresu (krzywej) koncentracji Lorenza (patrz rys. 8). Jest on tworzony w kwadracie o boku 100 %, w którym nanoszone są punkty o współrzędnych równych ( ). Łącząc te punkty od-cinkami, uzyskuje się wielobok koncentracji, wygładzając natomiast wielobok za pomocą krzywej otrzymuje się krzywą koncentracji. Przekątna kwadratu wyznacza linię równo-miernego rozkładu.

C B 100 80 Pole koncentracji 60 Linia równomiernego rozkładu 40 Wielobok koncentracji 20 Krzywa Lorenza A 0 20 40 60 80 100

Rys. 8


Obszar między krzywą koncentracji a przekątną nazywany jest polem koncentracji. Im krzywa koncentracji leży bliżej przekątnej (im mniejsze jest pole koncentracji), tym bar-dziej rozkład cechy jest równomierny, tzn. charakteryzuje się ona tym mniejszym stopniem koncentracji i odwrotnie

Współczynnika koncentracji Pearsona względem rozkładu równomiernego

Przyjmuje się, że dla obliczenia współczynniki koncentracji Pearsona (WKP) zadana jest próba nieuporządkowana n-elementowa obserwacji x1, x2, ..., xn cechy ciągłej lub jej pró-ba uporządkowana niemalejąco x(1), x(2), ..., x(n).
Wyznaczanie WKP przeprowadzamy według następujących kroków:
10 obliczamy sumę globalną wartości cechy
,
20 ustalamy procentowe udziały wartości cechy w próbie uporządkowanej

30 dla wielkości z kroku 20, ustalamy wartości kumulowane udziałów wartości cechy
dla i = 1,2, ..., n,
przy czym drugie wyrażenie pozwala prowadzić obliczenia wzorem rekurencyjnym, tzn. dla obliczonej wcześniej wartości kumulowanej dodaje się bieżący wyraz procentowego udziału wartości cechy,
40 dla zbadania, czy rozkład empiryczny badanej cechy jest zgodny z rozkładem równo-miernym, wyznaczamy procentowe udziały poszczególnych jednostek próby z tym rozkła-dem, które są stałe i wynoszą

50 obliczamy wartości kumulowane z rozkładu równomiernego:

gdzie drugie wyrażenie jest wzorem rekurencyjnym,
60 pary kumulowanych wielkości, wykreślamy w układzie współ-rzędnych w postaci kwadratu OABC o bokach o długościach OA = 100% oraz OC = 100 % , gdyż ,
70 przekątna OB. kwadratu OABC wyznacza linię równomiernego rozkładu, a podane pary w kroku 60 - wielobok koncentracji Lorenza,
80 miarę koncentracji wyraża współczynnik koncentracji Pearsona


przy czym
Współczynnik koncentracji K zawiera się w przedziale (0, 1) i przyjmuje wartość 0 przy braku koncentracji (gdy wszystkie jednostki mają jednakową wartość) oraz 1 przy pełnej koncentracji (gdy wszystkie jednostki poza jedną mają zerową wartość cechy).

Dodaj swoją odpowiedź