Statystyka teoria - Pluta

BŁAD PIERWSZEGO RODZAJU – możliwy do popełnienia przy weryfikacji hipotezy statystycznej błąd polegający na odrzuceniu testowanej hipotezy prawdziwej
BŁĄD DRUGIEGO RODZAJU – możliwy do popełnienia przy sprawdzaniu hipotezy statystycznej, błąd polegający na przyjędiu testowanej hipotezy fałszywej.
CECHA – z cech wynikają zmienne a ze zmiennych danych. Cecha to pewne własności.
CZĘSTOŚĆ – liczba np.osób które udzieliły takiej samej odpowiedzi.
DANA-wartość zmiennej na skali pomiarowej w której wyrażona jest ta zmienna.
DOMINANTA (wartość modalna) – jest wartością zmiennej, jaką wskazuje największa liczba jednostek analizy a nie liczba tych jednostek.= cechy, która najczęściej występuje w danej zbiorowości.
ESTYMACJA – szacowanie prarametrów rozkłądu badanej cechy w populacji generalnej
ESTYMATOR- dowolna statystyka Z służąca do oszacowania nieznanej wartości parametru.
HIPOTEZA STATYSTYCZNA – to każde przypuszczxenie dotyczące wielkości parametru rozkładu zmiennej losowej w populacji generalnej lub próbnej, albo też postaci tego rozkładu, uzyskane na podstawie próby losowej.
HIPOTEZA ZEROWA – podstawowa hipoteza statystyczna sprawdzana danym testem. Oznacza się ją zwykle – H0
HIPOTEZA ALTERNATYWNA – hipoteza statystyczna konkurencyjna w stosunku do hipotezy zerowej w tym sensie, że jeżeli odrzuca się hipotezę zerową to przyjmuje się hipotezę alternatywną. Oznacza się ją H1
HISTOGRAM – gdy zmienna porządkowa lub przedziałowa ma dużo kategorii wówczas staje się nieczytelna. Możemy wtedy posłużyć się histogramem. Tworzenie histogramu zaczyna sieod przyporządkowania kategoriom zmiennych podziału, następnie zliczamy liczbę przypadków w każdym koszyku i na tej podstawie tworzymy wykres.
Rozkład dwumodalny – gdy występują dwie jednakowo liczne i najliczniejsze klasy nie będące skrajnymi.
Rozkład jednomodalny, dwuwierzchołkowy – występują dwie najliczniejsze klasy, ale nie są jednakowo liczne i nie są skrajnymi.
MEDIANA – jest wartością jaką przyjmuje zmienna dla takiej jednostki analizy, która znajduje się w środku szeregu statystycznego, połowa pomiarów ma wartości mniejsze niż mediana i połowa pomiarów ma wartości większe od niej. Oznaczamy literką M.
Aby własciwie obliczyć mediane:
-wartości musza być uporządkowane następnie wyznaczamy pozycję mediany i obliczamy jej wartość
ODCHYLENIE STANDARDOWE – (s) jest miarą stopnia zmienności najpowszechniej stosowaną i najbardziej rzetelną. To znaczy zmienia się ono najmniej między próbami pobranymi losowo z tej samej populacji. Jest rodzajem przeciętnej wszystkich odchyleń od średniej w próbie.
POPULACJA GENERALNA – zbiorowość statystyczna, tzn. zbór dowolnych elementów, nieidentycznychz punktu widzenia badanej cechy.
POZIOM ISTOTNOŚCI – arbitralnie ustalone niskie prawdopodobieństwo (alfa), które prowadzi do wyznaczenia obszaru krytycznego dla sprawdzanej hipotezy.

PRÓBA – część, tj. podzbiór populacji, podlegający bezpośrednio badaniom ze względu na ustaloną cechę, w celu wyciągnięcia wniosków o kształtowaniu się wartości tej cechy w populacji

PARAMETR POPULACJI – parametry rozkładu badanej cechy w populacji, charakteryzują one ten rozkład. Do najczęściej używanych parametrów należą tzw. MOMENTY
Parametry dzielimy na grupy:
a) miary skupienia (np. średnia arytmetyczna, mediana)
b) miary rozproszenia, rozrzutu (np. wariacje, odchylenie standardowe)
c) miary asymetrii
d) miary korelacji (przy badaniu populacji ze względu na wiele cech)
PRÓBA REPREZENTATYWNA – próba, której struktura pod względem badanej cechy nie różni się istotnie od struktury populacji generalnej. P. reprezentatywna daje podstawy do wysuwania prawidłowych wniosków na temat populacji generalnej. Uzyskanie prób reprezentatywnych sprzyja dobór właściwego schematu losowania próby.

REPREZENTATYWNOŚĆ- ważne jest aby próba była reprezentatywna dla całej populacji, tzn. aby badanie które przeprowadzamy na częcis populacji mogło być również odniesione do wszystkich elementów lub jednostek, które nie sa badane, zatem elementy wybrane dla prób powinny repprezentować ogół elementów badanej zbiorowości.
ROZSTĘP – różnica pomiędzy wartością największa a najmniejszą, jaka wystąpiła w badanej grupie.Bierzemy pod uwagę 2 skrajne pomiary
ROZKŁAD NORMALNY – jest charakterystyczny dla zmiennych w przypadku których na wielkość przybieranych wartości ma wpływ wiele czynników ale żaden z nich nie jest dominujący. Rozkład normalny który można opisać za pomocą krzywej Gaussa ( ma kształt dzwonu, jest symetryczny względem średniej równej modalnej i medianie rozkładu. Lewa i prawa gałąż rozkłądu zbliża się asymetrycznie do osi poziomej – nigdy jej nie przecina ! Równanie krzywej zależy od odcgylenia stan. I od średniej.Rozkład normalny jest zdefiniowany dla zmiennych ciągłych
REGRESJA – przewidywanie jednej zmiennej na podstawie znajomości drugiej.
WARIACJA – s2 -średnia aryt. Kwadratów odchyleń poszczególnych wartości xi od średniej aryt.
WYKRES SŁUPKOWY
wykres ten przekazuje w formie graficznej informację jaką daje nam zwykła tabela częstości. Wysokość słupków zależy od liczebności danej kategorii zmiennej lub od jej procentowego udziału.
WYKRES KOŁOWY
zawiera tę samą informację (przekazaną graficznie jaką daje nam zwykła tabela częstości) co wykres słupkowy tyle ze w innej formie. Ma on 2 ograniczenia:
1.gdy kategorii zmiennej jest wiele, wykres staje się nieczytelny
2.liczebność w kategorii jest odzwierciedlona powierzchnią wycinka całego koła – ludzkie oko nie zbyt dobrze porównuje takie powierzchnie
zaleta: jest efektowny
WYKRES ROZRZUTU – badamy współrzędność cech za pomoca tego wykresu. Jest to wyznaczanie funkcji regresji, pokazując zależność pomiędzy dwoma zmiennymi. Cechy są wyrażone na skali ilościowej (zmienne zależne – zarobki, niezależne – staż pracy)


ZMIENNA – właściwość, pod względem której elementy grupy lub zbioru różnią się między sobą. Elementami grupy mogą być jednostki ludzkie, które mogą różnić się miedzy sobą płcią, wiekiem, kolorem oczu, inteligencją, ostrością słuchu itp. nazywa się w badaniach socjologicznych dowolną cechę, która może przyjąć co najmniej dwie wartości. jest sposobem rozumienia cechy
POZIOM POMIARU ZMIENNEJ w węższym znaczeniu oznacza podlegający określonym regułom proces przyporządkowania symboli zaobserwowanym wartościom badanych cech.. Stosowanie do owych reguł można wyróżnić poziomy pomiaru i odpowiadające im cztery skale:
jakościowe (pomiar polega na przypisywaniu obiektów do pewnej kategorii
1.skala nominalna
2.skala porządkowa
ilościowe (pomiar polega na przypisaniu obiektom wartości określonej cechy)
3.skala interwałowa
4.skala ilorazowa
OPERACJE NA ZMIENNYCH
ZMIENNA NOMINALNA – to cechy, których wartości mogą być uporządkowane
w dowolnej kolejności. Nie ma znaczenia, czy w zmiennej „płeć” wyróżni się wartości
w kolejności: 1/mężczyzna, 2/kobieta czy też odwrotnie
SKALA NOMINALNA – pozwala tylko na pogrupowanie obiektów (osób) polega na klasyfikowaniu obiektów ze względu na posiadanie lub brak określonej cechy (jakościowej). Zgodnie z tym, ludzi można podzielić na mężczyzn i kobiety, na osoby wyznania protestanckiego, katolickiego i mojżeszowego.
ZMIENNA PORZĄDKOWA – takie cechy, których wartości są lub mogą być uporządkowane w oparciu o wyraźne kryterium tego uporządkowania. Zmienną porządkową jest z pewnością wykształcenie.
SKALA PORZĄDKOWA – możemy nie tylko stwierdzać o równości lub różności, ale także wskazać któremu z obiektów zmienna przysługuje w wyższym stopniu
reprezentuje ona wyższy od nominalnej poziom pomiaru. Pozwala na porządkowanie obiektów badanych odpowiednio do wartości danej cechy, ponieważ cecha ta ma charakter ilościowy. Ten poziom pomiaru uwzględnia natężenie, siłę i wielkość określonej cechy u poszczególnych obiektów badanych.
SKALA INTERWAŁOWA – pozwala na stwierdzenie o ile natężenie zmiennej X dla obiektu A jest większe (mniejsze) od natężenia tej zmiennej dla obiektu B
informuje, jak wielkie są odstępy między poszczególnymi punktami. Warunkiem podstawowym jest tu istnienie powtarzalnej jednostki miary, którą można uznać za standard. Np miara temper.
ZMIENNA INTERWAŁOWA – cechy o wartościach między którymi można określić odległość. Odległość ta nie musi być jednakowa. Ważne jest natomiast, aby można ją było w sposób uzasadniony wyznaczyć , zmierzyć. Zmienną interwałową jest zmienna wykształcenia, mierzonego ilością ukończonych lat nauki w szkole.
SKALA ILORAZOWA – pozwala na stwierdzenie, że natężenie zmiennej X dla obiektu A jest k razy większe niż natężenie tej zmiennej dla obiektu B
gdy skala ma ponadto naturalny punkt zerowy, mamy do czynienia ze skalą ilorazową.
ZMIENNA ILORAZOWA – to takie cechy, których wartości pozostają do siebie
w stosunkach liczbowych. Przykładowo, w zmiennej wieku można ustalić relacje liczbowe i proporcje między poszczególnymi wartościami. Sensowne jest więc powiedzenie, że osoba 60-letnia jest dwukrotnie starsza od osoby 30-letniej.

ZMIENNA ZALEŻNA – jest tym co mierzymy aby ocenić skutki działania zmiennej niezależnej. Zmienna wyjaśniana którą uważamy za skutek,
ZMIENNA NIEZALEŻNA – zmienna wyjaśniająca, którą uważamy za skutek, nazywamy tą której wpływ chcemy zbadać, gdy interesuje nas zależność przyczynowa, hipotetyczną przyczynę nazywamy zmienną niezależną, można ustalić jej wartość, manipulować nią. Jest ona niezależna od innych wpływów.
STATYSTYKA INDUKCYJNA – 1.zajmuje sie wnioskowaniem o cechach populacji w oparciu o cechy wylosowanej z niej próby (proces ten nosi nazwe estymacji).weryfikacja hipotezy statystycznej odbywa się przez zastosowanie specjalnego narzędzia – test istotności. (definiuje problem, zbiorowość=>wyznacza populację. 2.pozwala ustalić prawidłowości i podejmować decyzje na podstawie zredukowanej liczby dowolnych przy zastosowaniu rachunku prawdopodobieństwa. Dzieki niemu możliwe jest określenie jaki błąd popełniamy, uogólniając wyniki z próby na całą zbiorowość.
STATYSTYKA OPISOWA -zajmuje się metodami opisu danych statystycznych uzyskanych podczas badania statystycznego. Celem stosowania metod statystyki opisowej jest podsumowanie zbioru danych i wyciągnięcie pewnych podstawowych wniosków i uogólnień na temat zbioru.
Statystykę opisową stosujemy zazwyczaj jako pierwszy i podstawowy krok w analizie zebranych danych.


ZASADY TWORZENIA SZEREGÓW – 1)podział klasowy K>5 i K<20, 2)podziały klasowe powinny być:-ograniczone, mieć jednakową rozpiętość, nie powinny być puste( z zerową liczebnością), aby granice klas i rozpiętości okrągłymi liczbami, 3)podział na klasy powinien być: - rozłączny(każda jednostka możę trafić tylko do jednej klasy), wyczerpujący (wszystkie jednostki muszą być objęte klasyfikacją)
SZEREG ROZDZIELCZY – empiryczny rozkład cechy jest przedstawiony tabelarycznie w postaci szeregu rozdzielczego. Tablica prezentująca uporządkowanie i pogrupowane dane nazywana jest szeregiem rozdzielczym.
SZEREG KLASOWY – to szerego rozdzielczy z przedziałami klasowymi, stosujemy go dla dużej liczby wariantów dla cech ciągłych lub skokowych.
SZEREGI PUNKTOWE – stosujemy dla niewielkiej liczby wariantów dla cech skokowych. W szeregu punktowym każda kategoria stanowi wartość.
ŚREDNIA – jest miarą zależną od wartości skrajnych, iloraz sumy wartości pomiatów przez ich liczbę. Charakterystyczna własność średniej arytmetycznej:suma wszsytkich odchyleń jest =0
STATYSTYKA Z PRÓBY – zmienne losowe będące dowolną funkcją wyników próby losowej, np. średnia arytmetyczna wyników próby , statystyka pozycyjna rzędu 0,5 czyli mediana



WSPÓŁZMIENNOŚĆ = ZWIĄZEK PRZYCZYNOWO-SKUTKOWY = KORELACJA – występowanie zależnosci jest warunkiem koniecznym występowania związku przyczynowo-skutkowego. Gdy zależność zostanie ustalona, możemy poszukiwać kierunku związku przyczynowo-skutkowego między zmiennymi.
Sposobem na ustalenie kierunku związku jest ustalenie następstwa czasowego. Jeżeli jedna zmienna zmienia się wcześniej niż druga, to możemy przypuszczać że 1 jest przyczyną 2 zmiennej. Jeżeli nie istnieje możliwość określenia, która zmienna jest przyczyną a która skutkiem, najlepiej pozostać przy stwierdzeniu ich zależności


Książki : Greń, Wieczorkowska

Dodaj swoją odpowiedź