Statystyka

You might also like

Download as pdf or txt
Download as pdf or txt
You are on page 1of 10

-Statystyka to nauka o zbieraniu, analizowaniu i interpretowaniu danych

-Statystyka opisowa to gałąź statystyki, która służy do opisywania i


prezentowania danych w sposób zwięzły i przystępny
-Wnioskowanie statystyczne to proces wnioskowania na temat populacji na
podstawie próby badawczej.
-Dobór losowy to Podstawowym z nich jest dobór losowy prosty, w którym
obserwacje dobierane są w sposób bezpośredni i nieograniczony. Inne metody
doboru losowego to np. dobór systematyczny (wybór np. co 10tej obserwacji),
warstwowy (losowanie z wcześniej utworzonych tzw. „warstw”) czy grupowy (dobór
całych grup np. rodziny czy klasy szkolnej).
-Zbiorowość statystyczna lub populacja to zbiór wszystkich elementów, na temat
których chcemy wyciągnąć wnioski.
-Próba badawcza to zbiór obserwacji, który poddajemy analizie i na podstawie
którego uogólniamy uzyskane wyniki na całą populację. Przykładowo, badając
różnicę między kobietami i mężczyznami w zakresie samooceny, celem nie jest
sprawdzenie czy wyniki dla badanej próby są różne, ale na podstawie zebranych
wyników oszacowanie, czy ogólnie rzecz biorąc, występuje różnica między płciami
(czyli między dwoma populacjami – kobiet i mężczyzn)
-Pytania statystyczne to pytania, na które chcemy uzyskać odpowiedź na
podstawie analizy danych.
-Wniosek statystyczny to ogólna konkluzja, którą można wyciągnąć na podstawie
analizy danych.
-Próba losowa to zbiór obserwacji wybrany z populacji w sposób losowy, to znaczy
bez wpływu osoby realizującej badania na to, jakie elementy zostaną wybrane.
Próba losowa dobierana jest w taki sposób, aby przypadek zadecydował o
przynależności danego elementu populacji. Oznacza to, że każdy z nich ma
dokładnie takie samo prawdopodobieństwo, aby znaleźć się w próbie.
-Losowa zmienność próby to zmienność wynikająca z faktu, że różne próby losowe
z tej samej populacji mogą dawać różne wyniki.
-Stała to funkcja przyjmująca dla różnych wartości argumentu tę samą wartość
-Zmienna to Zmienna to każda cecha badanej osoby, obiektu lub zjawiska, która
może przyjąć co najmniej dwie wartości. Najprostszym przykładem zmiennej jest
płeć.
-Pomiar to proces przyporządkowania wartości liczbowych zmiennym.
-Zmienna dyskretna to to każda cecha badanej osoby, obiektu lub zjawiska,
którą można mierzyć na skali nominalnej lub porządkowej. Najprostszym
przykładem zmiennej dyskretnej w przypadku badanej osoby może być jej płeć,
zawód, miejsce zamieszkania, wykształcenie.
-Zmienna ciągła to każda cecha badanej osoby, obiektu lub zjawiska, którą
można mierzyć na skali ilorazowej lub interwałowej. Najprostszym przykładem
zmiennej ciągłej w przypadku jakiejś osobie będzie jej wiek, wzrost, waga.
-Rozkład liczebności to sposób przedstawiania danych, w którym podaje się, ile
razy dana wartość występuje w zbiorze danych.
- Wynik surowy to oryginalna, nieprzetworzona wartość danych.
- Przedział klasowy (k i l) to przedział wartości, w którym mogą znaleźć się
punkty danych.
- Rozpiętość przedziału to różnica między najwyższą i najniższą wartością w
danym przedziale.

-Rozstęp to najprostsza miara rozrzutu.


Jest to różnica między największą a najmniejszą wartością obranej cechy
statystycznej w konkretnym zbiorze.
Warto pamiętać o tym, że rozstęp jest bardzo nieprecyzyjną. Opiera się ona
bowiem na zaledwie dwóch wartościach zbioru.
Pozostałe natomiast – nawet wtedy, gdy jest ich bardzo dużo – nie mają
żadnego wpływu na wielkość rozstępu. Miara ta jest jednak w pełni dopuszczalna
w celu analizy ilościowej takich wartości zmiennych, jak wiek ankietowanych
osób lub uzyskiwane przez nie dochody.

- Realne granice wyniku to faktyczna minimalna i maksymalna wartość w


zestawie danych.
- Pozorne granice przedziału to dolne i górne ograniczenia przedziału, który nie
zawiera żadnych danych, ale jest używany do grupowania punktów danych. -
Realne granice przedziału klasowego to faktyczna minimalna i maksymalna
wartość w danym przedziale, a nie granice przedziału, który nie zawiera danych.
- Rozkład liczebności skumulowanych pokazuje łączną liczbę punktów danych w
danym przedziale.
- Rozkład liczebności względnych pokazuje względną częstotliwość punktów
danych w danym przedziale.
-Rozkład t-studenta to rozkład statystyczny, który jest używany do testowania hipotez
na temat średniej populacji.

Jest metodą statystyczną służącą do porównania dwóch średnich między sobą jeśli
znamy liczbę badanych osób, średnią arytmetyczną oraz wartość odchylenia
standardowego lub wariancji.

Jest to jeden z mniej skomplikowanych i bardzo często wykorzystywanych testów


statystycznych używanych do weryfikacji hipotez. Dzięki niemu możemy dowiedzieć się
czy dwie różne średnie są różne niechcący (w wyniku przypadku) czy są różne istotnie
statystycznie (np. z uwagi na naszą manipulację eksperymentalna)

1. co to procedura statystyczna?

Procedura statystyczna to metoda analizy danych, która pozwala na


wyciągnięcie wniosków na temat populacji na podstawie próby. W ramach
procedury statystycznej stosuje się różne techniki matematyczne, aby opisać
dane i określić, jakie wnioski można wyciągnąć na temat populacji na
podstawie próby. Przykłady procedur statystycznych to testy hipotez, analiza
wariancji, regresja i wielokrotne porównania.

2. co to szereg statystyczny i jakie są jego rodzaje?

Szereg statystyczny to zestawienie danych statystycznych, które


przedstawiają częstości występowania różnych wartości w próbie lub
populacji. Istnieją dwie podstawowe typy szeregów statystycznych: szereg
rozdzielczy, szereg szczegółowy.

Szereg szczegółowy (indywidualny, prosty, wyliczający) to ciąg liczbowych


wielkości statystycznych uporządkowanych według badanej cechy (rosnąco
lub malejąco).
W praktyce ma zastosowanie przy małych zbiorowościach.

Przykład.
Zbadano liczbę komputerów dla 6 gospodarstw domowych. Otrzymano wyniki:
2,4,3,1,2,3
Szereg szczegółowy to: 1, 2, 2, 3, 3, 4.

Szereg rozdzielczy składa się z dwóch kolumn:


• w pierwszej kolumnie znajdują się warianty badanej cechy (xk),
• w drugiej kolumnie liczba jednostek zbiorowości statystycznej, która posiada
dany wariant cechy (nk).

Szeregi rozdzielcze dla cech mierzalnych dzielą się na:

• szeregi punktowe – stosowane, gdy liczba wariantów cechy jest niewielka,


• szeregi z przedziałami klasowymi – stosowane, gdy liczba wariantów badanej
cechy jest duża.

3. Jakie są skale pomiarowe?

W statystyce wyróżnia się cztery podstawowe skale pomiarowe: nominalną,


porządkową, interwałową i stosunkową.

- Skala nominalna to skala, która służy do przypisania kategorii lub etykiet


wartościom zmiennej. Przykłady to kolor oczu, płeć, stan cywilny, kraj
pochodzenia.

- Skala porządkowa to skala, która umożliwia uporządkowanie wartości


zmiennej w określonej kolejności. Przykłady to poziomy edukacji, stopnie
wojskowe, oceny.

- Skala interwałowa to skala, która umożliwia porównywanie wartości zmiennej


na osi liczbowej, ale nie ma określonego punktu zerowego. Przykłady to
temperatura w skali Celsjusza lub Fahrenheita, rok kalendarzowy.

- Skala stosunkowa to skala, która umożliwia porównywanie wartości zmiennej


na osi liczbowej i ma określony punkt zerowy. Przykłady to wzrost, waga, czas.

Wybór odpowiedniej skali pomiarowej zależy od rodzaju danych, które


analizujemy i celu analizy.
4. Położenie kwartyl i ćwiartki:

Kwartyle to trzy wartości, które dzielą uporządkowany ciąg danych na cztery


równe części.

- Pierwszy kwartyl (Q1) to mediana dolnej połowy ciągu danych.


Oznacza to, że 25% danych jest mniejszych lub równe Q1, a 75% danych jest
większych lub równe Q1.

- Drugi kwartyl (Q2) to mediana całego ciągu danych.


Oznacza to, że 50% danych jest mniejszych lub równe Q2, a 50% danych jest
większych lub równe Q2.

- Trzeci kwartyl (Q3) to mediana górnej połowy ciągu danych.


Oznacza to, że 75% danych jest mniejszych lub równe Q3, a 25% danych jest
większych lub równe Q3.

5. Graficzna reprezentacja rozkładów liczebności histogram, wielobok


liczebności, wykres słupskowi i kołowy, wykres pudełkowy

Histogram to wykres, który przedstawia rozkład wartości w postaci słupków.


Słupki sąsiednich przedziałów sąsiadują ze sobą i tworzą ciągłą linię, co
pozwala na wizualne określenie, jak często występują wartości w
poszczególnych przedziałach.

Wielobok liczebności to wykres, który łączy wierzchołki otrzymane z


wartości liczbowych. Wierzchołki są połączone linią, co pozwala na
wizualne określenie, jak często występują wartości w poszczególnych
przedziałach.

Wykres słupkowy to wykres, który przedstawia rozkład wartości w postaci


słupków. Wysokość każdego słupka odpowiada liczbie wystąpień danej
wartości lub przedziału wartości.
Wykres kołowy to wykres, który przedstawia rozkład wartości w postaci
kółka podzielonego na sektory. Każdy sektor odpowiada jednej wartości lub
przedziałowi wartości.

Wykres pudełkowy to wykres, który przedstawia rozkład wartości w postaci


pudełka z wąsami. Wartości są przedstawione jako punkty na wykresie.
Pudełko obejmuje 50% wartości i zawiera medianę. Wąsy przedłużają się od
pudełka i obejmują pozostałe wartości.

6. Krzywa normalna

Rozkład normalny, inaczej zwany rozkładem Gaussa, krzywą Gaussa jest


najważniejszym rozkładem teoretycznym prawdopodobieństwa w statystyce.
Rozkład normalny jest też najbardziej intuicyjnym rozkładem statystycznym.

W wielkim skrócie opisuje on sytuacje w świecie, gdzie większość


przypadków jest bliska średniemu wynikowi, a im dany wynik bardziej
odchyla się od średniej tym jest mniej reprezentowany. Najwięcej jest
przypadków blisko przeciętnej. Im dalej oddalamy się od średniego wyniku,
tym przypadków jest mniej. Można to z łatwością odnieść do rzeczywistych
sytuacji.

Przykład:
Poziom inteligencji. Najwięcej jest osób o średnim poziomie inteligencji, IQ =
100. O wiele mniej osób ma poziom inteligencji równy IQ = 80, czy IQ = 120, a
jeszcze mniej, IQ = 65, czy IQ = 135.

Nazwa "rozkład normalny" odnosi się do sytuacji normalności, czyli


przypadku, który jest najliczniej reprezentowany w społeczeństwie,
przypadki zaniżające średni poziom bądź zawyżające są o wiele mniej liczne.
Im większe odchylenie tym mniejsza liczba obserwacji. Omówioną sytuację
opisuje krzywa Gaussa, graficzna reprezentacja rozkładu normalnego
7. miary tendencji centralnej: wartość modalna, mediana, średnia
arytmetyczna

Miary tendencji centralnej to narzędzia, które pozwalają opisać wartości w


próbie.

Wartość modalna to wartość, która występuje najczęściej w próbie.

Mediana to wartość, która dzieli próbę na dwie równe części.

Średnia arytmetyczna to suma wszystkich wartości w próbie podzielona


przez liczbę wartości.

Każda z tych miar ma swoje zastosowanie w analizie danych, w zależności od


charakteru badanych wartości.

8. miary zmienności: odchylenie przeciętne, odchylenie standardowe,


rozstęp, odchylenie ćwiartkowe, wariancja

Miary zmienności pozwalają określić, jak bardzo wartości w próbie różnią się
od siebie.

Odchylenie przeciętne to średnia wartość bezwzględnych różnic między


wartościami a średnią arytmetyczną.

Odchylenie standardowe to pierwiastek kwadratowy ze średniej


arytmetycznej kwadratów odchyleń wartości od średniej.

Rozstęp to różnica między największą a najmniejszą wartością w próbie.

Odchylenia ćwiartkowe to miary zmienności, które dzielą próbę na cztery


równe części.

Wariancja to średnia arytmetyczna kwadratów odchyleń wartości od


średniej.
Miary zmienności pozwalają określić, jak bardzo wartości w próbie się od
siebie różnią i jak skupione są wokół średniej.
9. miary asymetrii skośność

Miary asymetrii pozwalają określić, czy rozkład wartości w próbie jest


symetryczny czy skośny.

Skośność to miara asymetrii, która określa, w którą stronę i jak bardzo


rozkład wartości w próbie jest przesunięty względem średniej arytmetycznej.

Skośność dodatnia oznacza, że rozkład wartości jest przesunięty w prawo


względem średniej

Skośność ujemna oznacza, że rozkład wartości jest przesunięty w lewo


względem średniej.

Wartość skośności wynosząca zero oznacza, że rozkład wartości jest


symetryczny względem średniej.

10. miary koncentracji kurtoza

Kurtoza jest miarą koncentracji wyników. Kurtoza informuje nas o tym, na ile nasze
obserwacje, wyniki są skoncentrowane wokół średniej. Miara ta informuje nas jak
dużo naszych wyników / obserwacji jest zbliżona do wartości średniej, czy
większość z zaobserwowanych wyników ma wartość podobną do średniej?

Przykład: Oceny uczniów z dwóch klas (a i b) z języka angielskiego były


następujące:

Klasa a: 2,2,3,3,3,3,3,3,4,4

Klasa b: 1,1,2,2,3,3,4,4,5,5

Średnia ocen w obu klasach wyniosła 3,0. Jednakże nauczyciel odkrył, że w klasie a
większość uczniów ma ocenę taką samą jak średnia ocena całej klasy, oceny są
skoncentrowane wokół średniej, w przeciwieństwie do uczniów z klasy b, gdzie
jedynie dwóch uczniów uzyskało oceny takie jak średnia dla całej klasy, a
poszczególne z możliwych do otrzymania ocen przez uczniów odnotowywane były tak
samo często jak średnia.
Kurtoza informuje nas zatem jak duży jest "rozrzut" uzyskanych wyników, czy
większość z nich skoncentrowana jest wokół średniej - wartości są zbliżone do
wartości średniej.
Jeżeli występuje znaczna koncentracja wyników wokół średniej (kurtoza przyjmuje
wartość powyżej 0) możemy powiedzieć, że znaczna część wyników / obserwacji jest
podobna do siebie a obserwacji znacznie różniących się od średniej jest mało.

Jeżeli występuje słaba koncentracja wyników wokół średniej (kurtoza przyjmuje


wartość poniżej 0) możemy powiedzieć, że istnieje spora część wyników, które są
znacznie oddalone od średniej.

Kurtozę możemy również wyjaśnić "od drugiej strony". Jeżeli kurtoza jest niska
(poniżej zera) to w zbiorze danych możemy zaobserwować większą liczbę wyników
skrajnych (znacznie oddalonych od średniej), gdy kurtoza jest wyższa tym liczba
takich obserwacji maleje.

11. cechy rozkładów liczebnosci - kształt grafika: rozkład skośny,


rozkład Jkształtny, rozkład dwumodalny, rozkład prostokątny

Rozkład skośny jest charakteryzowany przez asymetrię, czyli przesunięcie


rozkładu wartości w jedną z dwóch stron względem średniej arytmetycznej.

Rozkład J-kształtny jest charakteryzowany przez skośność w jedną stronę, a


następnie skośność w drugą stronę, tworząc kształt litery "J".

Rozkład dwumodalny jest charakteryzowany przez dwa maksima, czyli dwa


wierzchołki w rozkładzie wartości.

Rozkład prostokątny jest charakteryzowany przez brak skupienia wartości w


jednym miejscu, a zamiast tego wartości są równomiernie rozłożone w
pewnym przedziale.

Na wykresie rozkładu liczebności rozkład skośny będzie miał przesunięty w


lewo lub w prawo ogon, rozkład J-kształtny będzie miał kształt litery "J",
rozkład dwumodalny będzie miał dwa wierzchołki, a rozkład prostokątny
będzie miał poziome linie.
12. korelacja i jej rodzaje (dodatnia, ujemna), predykcje, diagram
rozrzutu, związek liniowy, współczynnik korelacji

Korelacja to związek między dwiema zmiennymi, który mówi, jak bardzo te


zmienne są ze sobą powiązane.

Korelacja może być dodatnia, gdy obie zmienne rosną lub maleją razem, lub
ujemna, gdy jedna zmienna rośnie, a druga maleje.

Predykcje to przewidywanie wartości jednej zmiennej na podstawie wartości


drugiej zmiennej.

Diagram rozrzutu to wykres, który pokazuje związek między dwiema


zmiennymi.

Związek liniowy to związek między zmiennymi, który można przedstawić za


pomocą prostej linii.

Współczynnik korelacji to liczba, która mówi, jak bardzo dwie zmienne są ze


sobą powiązane liniowo. Współczynnik korelacji może przyjmować wartości
od -1 do 1, gdzie -1 oznacza silny ujemny związek, 0 oznacza brak związku, a
1 oznacza silny dodatni związek.

13. test chi-kwadrat

Test chi-kwadrat to test statystyczny, który służy do porównywania


obserwowanej częstości występowania zjawiska z częstością, którą można by
oczekiwać w przypadku, gdyby nie było żadnej zależności między badanymi
zmiennymi.
Test ten pozwala na sprawdzenie, czy występuje zależność między zmiennymi
jakościowymi. Do przeprowadzenia testu chi-kwadrat potrzebna jest tabela
kontyngencji, która przedstawia liczbę obserwacji w każdej kombinacji
dwóch zmiennych jakościowych. Test chi-kwadrat pozwala na określenie, czy
zależność między zmiennymi jest istotna statystycznie, czy też wynik jest
wynikiem przypadku.

You might also like