Professional Documents
Culture Documents
Analysis of Pima Indian in Polish
Analysis of Pima Indian in Polish
plemieniu Pima
Paulina Napierała
album 229985
12 kwietnia 2017
Spis treści
1 Opis zagadnienia i problemu 2
2 Opis danych 2
3 Opis eksperymentów/analiz 3
4 Analiza opisowa 4
4.1 Zmienna diabetes . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2 Zmienna pregnant . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
4.2.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 6
4.3 Zmienna glucose . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.3.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 7
4.4 Zmienna mass . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 8
4.4.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.5 Zmienna age . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
4.5.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.5.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 10
4.6 Zmienna pedigree . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.6.1 Wskaźniki sumaryczne . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
4.6.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
4.7 Rozrzut dla par zmiennych . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 12
1
5.3.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 19
5.3.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
5.4 Wskaźnik BMI a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
5.4.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
5.5 Relacje genetyczne a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.5.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.5.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 25
5.6 Wiek a cukrzyca . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.6.1 Wskaźniki opisowe . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
5.6.2 Wykresy . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
5.7 Rozrzut w grupie chorych i w grupie zdrowych . . . . . . . . . . . . . . . . . . . 29
6 Wnioski 32
2 Opis danych
Skorzystano z dostępnych danych PimaIndiansDiabetes pakietu mlbench. Dane te dotyczą
badań nad cukrzycą u indianek Pima, które mają conajmniej 21 lat. Zawierają dane:
2
• wartość testu doustnego obciążenia glukozą (glucose)
• wiek (age)
Dane zawierają 768 rekordów i 9 zmiennych, z których osiem (pregnant, glucose, pressure,
triceps, insulin, mass, pedigree, age) to zmienne ilościowe (numeric) i jedna (diabetes) to
zmienna jakościowa (factor). Wszystkie cechy mogą mieć wpływ na występowanie cukrzycy, co
zostanie zbadane. W powyższych danych jest jednak bardzo duża ilość brakujących obserwacji.
Są one zapisane jako ”0”. Wiadomo, że są to dane brakujące, ponieważ zmienne takie jak
pressure, glucose, triceps, insulin i mass nie mogą przyjmować wartości ”0” dla osób
żywych. Z tego powodu, by zera nie zaburzały analizy danych i wyników zamieniono je na NA :
library(mlbench)
data(PimaIndiansDiabetes)
PimaIndiansDiabetes$glucose[PimaIndiansDiabetes$glucose == 0] <- NA
PimaIndiansDiabetes$pressure[PimaIndiansDiabetes$pressure == 0] <- NA
PimaIndiansDiabetes$triceps[PimaIndiansDiabetes$triceps == 0] <- NA
PimaIndiansDiabetes$insulin[PimaIndiansDiabetes$insulin == 0] <- NA
PimaIndiansDiabetes$mass[PimaIndiansDiabetes$mass == 0] <- NA
Zmienną grupującą będzie zmienna diabetes, która ma dwie grupy: pos i neg, co odpo-
wiada odpowiednio temu, że badany ma cukrzycę lub że nie ma cukrzycy. W raporcie zawarte
są wnioski z analizy wszystkich zmiennych oprócz triceps oraz insulin, ponieważ te dwie
zmienne mają najwięcej informacji brakujących, co przedstawione jest poniżej. Zmniejszona
liczba wartości może spowodować nierzetelność wniosków, dlatego odrzuciłam je.
Liczba.brakujących.danych.w.zmiennej.triceps Liczba.brakujących.danych.w.zmiennej.insulin
227 374
3 Opis eksperymentów/analiz
W poniższej analizie pragnę znaleźć odpowiedzi na następujące pytania:
3
• kto najbardziej narażony jest na zachorowanie?
W analizie danych badano miary położenia, rozproszenia, symetrii i spłaszczenia dla poszcze-
gólnych zmiennych. Dane przedstawiono również na wykresach: histogramach, wykresach pu-
dełkowych oraz słupkowych. Badano również współczynniki korelacji i rozrzuty.
4 Analiza opisowa
Do analizy stworzono własne funkcje, które wypisują podstawowe wskaźniki sumaryczne.
4
4.1 Zmienna diabetes
Zmienna diabetes mówi, czy badany ma cukrzycę, czy nie. Z danych wynika, że w badaniu
wzięło udział 268 osób z cukrzycą i 500 osób bez cukrzycy, czyli łącznie 768 osób.
A neg 500
A pos 268
neg pos
stan pacjenta
W całej poniższej analizie ustalono, że osoby z cukrzycą będą zaznaczane kolorem czerwo-
nym, a osoby zdrowe niebieskim. Z powyższego wykresu wynika, że osób zdrowych jest 65.1%,
a chorych 34.9%, co daje znaczącą różnicę, która może wpłynąć na dalsze badania.
5
2. Miary rozproszenia
3. Miary asymetrii
skośność
0.90
4. Miary spłaszczenia
kurtoza
0.14
4.2.2 Wykresy
15
200
Liczba ciaz
10
Ilosc
100
5
50
0
0 5 10 15
Ciaza Ciaza
Zmienna pregnant przyjmuje wartości z przedziału [0,17]. Średnia ilość ciąż to w przybliżeniu 4,
jednak najczęśniej kobieta była w ciąży tylko 1 raz, co pokazuje dominanta. Wartości są bardzo
6
zróżnicowane, o czym świadczy wysoki współczynnik zmienności. Współczynnik skośności jest
większy od 0, więc rozkład jest prawostronny. Kurtoza również jest większa od 0, więc rozkład
jest leptokurtyczny. Obrazuje to histogram, a także wykres pudełkowy, ponieważ odległość
mediany od maksimum jest znacząco większa od odległości mediany do minimum. Są również
3 wartości odstające.
2. Miary rozproszenia
3. Miary asymetrii
skośność
0.53
4. Miary spłaszczenia
kurtoza
-0.29
4.3.2 Wykresy
7
200
80 100
Poziom glukozy
150
60
Ilosc
100
40
20
50
0
50 150
Glukoza Glukoza
2. Miary rozproszenia
8
3. Miary asymetrii
skośność
0.59
4. Miary spłaszczenia
kurtoza
0.84
4.4.2 Wykresy
80
60
Wartosc BMI
60
50
Ilosc
40
40
30
20
20
0
20 40 60
BMI BMI
9
4.5.1 Wskaźniki sumaryczne
1. Miary położenia
2. Miary rozproszenia
3. Miary asymetrii
skośność
1.13
4. Miary spłaszczenia
kurtoza
0.62
4.5.2 Wykresy
10
20 30 40 50 60 70 80
200
Wartosc wieku
Ilosc
50 100
0
20 40 60 80
Wiek Wiek
Zmienna age przyjmuje wartości z przedziału [21,81], a najczęstszą jest 22. Moda i wykresy
świadczą o tym, że badanie przeprowadzono głównie wśród osób młodych. Rozkład jest prawo-
stronny i leptokurtyczny.
2. Miary rozproszenia
3. Miary asymetrii
11
skośność
1.91
4. Miary spłaszczenia
kurtoza
5.53
4.6.2 Wykresy
2.5
Wartosc funkcji pedigree
150
2.0
1.5
100
Ilosc
1.0
50
0.5
0.0
0
Pedigree Pedigree
12
age
pedigree 0.085
Powyższe współczynniki korelacji nie przyjmują wartości -1,0 lub 1, co znaczy że wśród danych
nie ma zmiennych parami całkowicie zależych oraz całkowicie niezależnych. Każda ma na siebie
choć minimalny wpływ. Trzeba jednak zauważyć, że na przykład sama dodatnia wartość współ-
czynnika korelacji nie może być interpretowana jako mówiąca o dodatniej zależności zmiennych,
ponieważ nie wiemy, czy zależność jest monotoniczna. Z tego powodu trzeba popatrzeć na ma-
cierz wykresów rozrzutu.
13
Macierz wykresów rozrzutu
50 150 20 50 20 50 80
15
pregnant
0
200
glucose
50
pressure
40
60
mass
20
0.0 2.0
pedigree
70
age
20
Wszystkie wykresy nie przyjmują ustalonego kształtu, np. liniowego, paraboli, lecz są raczej
rozproszone. Oznacza to, że między większością zmiennych występuje niewielka korelacja, co
potwierdzają ich współczynniki korelacji bliskie zeru. Danych jest bardzo dużo, co dodatkowo
utrudnia odczyt wykresów.
2. Miary rozproszenia
14
wariancja odchylenie.standardowe wsp..zmienności IQR
14.00 3.74 76.89 6.25
3. Miary asymetrii
skośność
0.50
skośność
1.11
4. Miary spłaszczenia
kurtoza
-0.47
kurtoza
0.65
Dla chorych rozkład jest spłaszczony, a dla zdrowych leptokurtyczny, jednak oba są pra-
wostronne. Wszystkie miary są większe dla chorych.
5.1.2 Wykresy
15
Ilosc ciaz a cukrzyca
100
diabetes
Count
neg
pos
50
0
0 1 2 3 4 5 6 7 8 9 10111213141517
Pregnant
15
pregnant
10 diabetes
neg
pos
0
neg pos
diabetes
Kobiety z większą ilością dzieci, statystycznie częściej chorują na cukrzycę, jednak rozrzut jest
bardzo duży. Naukowo wygląda to tak, że każda ciąża jest dla kobiety zagrożeniem zachoro-
16
wania na cukrzycę ciążową, która przeważnie po urodzeniu dziecka mija. Jednak jest również
prawdopodobieństwo, że powróci ona w postaci cukrzycy typu I lub II. Stąd im większa liczba
ciąż, tym więcej kobiet chorujących na cukrzycę. Biorąc pod uwagę fakt, że badanych kobiet
zdrowych było więcej niż chorych, a i tak wraz ze wzrostem urodzeń kobiet chorych jest więcej
niż zdrowych, można stwierdzić, że jest to znaczący czynnik wpływający na zachorowanie.
5.2 Poziom glukozy a cukrzyca
5.2.1 Wskaźniki opisowe
1. Miary położenia
2. Miary rozproszenia
3. Miary asymetrii
skośność
0.09
skośność
0.65
4. Miary spłaszczenia
17
kurtoza
-0.98
kurtoza
0.63
Ponownie dla chorych rozkład jest spłaszczony, a dla zdrowych leptokurtyczny, oba pra-
wostronne oraz dla chorych wartości są wyższe.
5.2.2 Wykresy
40
diabetes
Count
neg
pos
20
0
50 100 150 200
glucose
18
Poziom glukozy a cukrzyca
200
150
glucose
diabetes
neg
pos
100
50
neg pos
diabetes
Wartości to wyniki testu doustnego obciążenia glukozą po 2 godzinach. Według Polskiego To-
warzystwa Diabetologicznego prawidłowe stężenie glukozy w krwi u zdrowego człowieka w 120
minucie wynosi poniżej 120mg/dl. Zakres 120-199mg/dl wskazuje na nieprawidłową tolerancję
glukozy, a już powyżej 200mg/dl świadczy o cukrzycy. Patrząc na histogram, możemy stwier-
dzić, że jest to prawda. Większość badanych chorych na cukrzycę miało wysoki poziom glukozy
we krwi (wyższy od 120mg/dl). Mediana poziomu glukozy dla osób chorych jest wyższa niż
dla osób zdrowych. Jednak poziom glukozy dla osób zdrowych ma parę wartości odstających,
zarówno bardzo wysokich, jak i jedną bardzo niską. Pomimo tego osoby są zdrowe. Może to
świadczyć o błędnie przeprowadzonym teście obciążenia glukozą. Wystarczy, że osoba badana
nie będzie na czczo lub będzie silnie zestresowana, ponieważ czynniki te chwilowo podnoszą
poziom glukozy we krwi.
5.3 Ciśnienie rozkurczowe a cukrzyca
5.3.1 Wskaźniki opisowe
1. Miary położenia
19
2. Miary rozproszenia
3. Miary asymetrii
skośność
0.08
skośność
0.16
4. Miary spłaszczenia
kurtoza
0.95
kurtoza
0.96
5.3.2 Wykresy
20
Cisnienie rozkurczowe a cukrzyca
60
40
diabetes
Count
neg
pos
20
0
25 50 75 100 125
pressure
100
pressure
diabetes
75 neg
pos
50
25
neg pos
diabetes
21
wynosi ponad 90mm Hg. Według znalezionych informacji wysokie ciśnienie rozkurczowe nie za-
wsze towarzyszy cukrzycy i występuje w zaledwie 5% przypadkach po 10 latach zachorowania.
W analizowanych danych u osób chorych mediana ciśnienia rozkurczowego wynosi 75mm Hg,
co jest dobrym wynikiem. Wyniki i dla chorych i dla zdrowych mają bardzo podobny rozrzut.
W obu przypadkach występują także obserwacje odstające. Wszystko to może wskazywać, że
poziom ciśnienia rozkurczowego niekoniecznie wskazuje na cukrzycę.
5.4 Wskaźnik BMI a cukrzyca
5.4.1 Wskaźniki opisowe
1. Miary położenia
2. Miary rozproszenia
3. Miary asymetrii
skośność
1.01
skośność
0.47
22
4. Miary spłaszczenia
kurtoza
1.96
kurtoza
-0.03
Miary położenia mają większe wartości dla grupy chorych. W obu grupach średnie aryt-
metyczne zbliżone są do mediany, co oznacza, że rozkłady są prawie symetryczne.
5.4.2 Wykresy
40
diabetes
Count
neg
pos
20
0
20 30 40 50 60 70
bmi
23
BMI a cukrzyca
60
50
diabetes
mass
neg
40 pos
30
20
neg pos
diabetes
Wskaźnik BMI mówi o stosunku masy ciała do kwadratu wzrostu. Idealne BMI zawiera się
w przedziale [18.5,25), a powyżej 25 wskazuje na nadwagę i otyłość. Średnia wartość BMI i
w grupie chorych i w grupie zdrowych mówi, że osoby badane cierpią na otyłość, przy czym
w grupie chorych na cukrzycę wskaźnik ten jest większy (około 34). Najbardziej narażone na
zachorowanie są osoby z figurą ciała typu jabłko, gdzie tkanka tłuszczowa odkłada się w okolicy
brzucha. Nie mamy informacji, jaki typ budowy mają badane osoby. Być może osoby zdrowe
mają inny typ, dlatego nie zachorowały pomimo swojej otyłości. Również nie mamy informacji
o wzroście danej osoby, a od niego w dużej mierze zależy BMI.
5.5 Relacje genetyczne a cukrzyca
5.5.1 Wskaźniki opisowe
1. Miary położenia
2. Miary rozproszenia
24
wariancja odchylenie.standardowe wsp..zmienności IQR
0.14 0.37 67.64 0.47
3. Miary asymetrii
skośność
1.70
skośność
1.99
4. Miary spłaszczenia
kurtoza
4.40
kurtoza
6.01
5.5.2 Wykresy
25
Relacje genetyczne a cukrzyca
75
diabetes
Count
50 neg
pos
25
0
0.0 0.5 1.0 1.5 2.0 2.5
pedigree
2.0
pedigree
1.5 diabetes
neg
pos
1.0
0.5
0.0
neg pos
diabetes
26
cjentek, jeśli matka chorowała na cukrzycę, to istnieje prawdopodobieństwo, że dziecko również
zachoruje. Wtedy wartości funkcji pedigree powinny być większe. Jednak w grupie osób zdro-
wych jest dużo wysokich wartości odstających i mediany obu grup są zbliżone, co niekoniecznie
potwierdza, że relacje genetyczne mają istotny wpływ na zachorowanie. Według informacji na-
ukowych w sytuacji gdy jedno z rodziców jest cukrzykiem, ryzyko rozwoju cukrzycy u dziecka
wynosi około 5% w przypadku choroby ojca i 2,5%, gdy choruje matka. O funkcji pedigree
nie ma praktycznie żadnych informacji, co również wskazuje, że nie jest najlepszą zmienną
wpływającą na cukrzycę.
5.6 Wiek a cukrzyca
5.6.1 Wskaźniki opisowe
1. Miary położenia
2. Miary rozproszenia
3. Miary asymetrii
skośność
0.58
skośność
1.56
27
4. Miary spłaszczenia
kurtoza
-0.38
kurtoza
1.91
Średnia arytmetyczna i mediana dla chorych jest wyższa, co oznacza, że chorują osoby
starsze. Rozkład dla chorych jest spłaszczony, a dla zdrowych leptokurtyczny.
5.6.2 Wykresy
Wiek a cukrzyca
75
diabetes
Count
50 neg
pos
25
0
20 40 60 80
age
28
Wiek a cukrzyca
80
60
diabetes
age
neg
pos
40
20
neg pos
diabetes
29
age
pedigree −0.0531
pregnant
0
200
glucose
80
pressure
40
mass
30
0.5 2.5
pedigree
20 50
age
0 10 40 80 0.5 2.0
30
age
pedigree 0.0649
pregnant
0
60 180
glucose
pressure
40
20 50
mass
0.0 2.0
pedigree
70
age
20
0 6 12 40 80 0.0 1.5
31
współczynniki mieszczą się w przedziale (-0.5,0) i (0,0.5). Tylko zależność wiek-ilość ciąż w
obu grupach jest większa od 0.5. Można się tego jednak spodziewać, ponieważ jasnym jest,
że im starsza osoba, tym posiada ona więcej dzieci. W grupach chorych i zdrowych znakiem
współczynnika korelacji różnią się pary mass-glucose, pedigree-glucose, mass-age, pedigree-age.
Te w grupie chorych mają znak ujemny. Patrząc na macierze rozrzutów w obu grupach nie
można dostrzec liniowości, punkty są porozrzucane.
6 Wnioski
Rozpoczynając od analizy poszczególnych zmiennych można zauważyć, że żadna z nich nie jest
symetryczna, a ich zmienność jest w większości przypadków na wysokim poziomie. Wynika to
z tego, że badano grupę o bardzo dużym przedziale wiekowym, a dla każdego wieku charak-
terystyczne są inne przypadłości, co powodowało czasem obserwacje odstające. Nie wykazano
również konkretnej korelacji lub braku korelacji między zmiennymi.
Dochodzę także do wniosków, że informacje naukowe dotyczące cukrzycy i jej objawów
zgadzają się z badanymi danymi. Jednak sporą część osób badanych stanowili ludzie w wieku
młodym 21-30 lat, którzy na cukrzycę jeszcze nie chorują, ale nie wykluczone, że w przyszłości
będą ją mieli. Stąd zaburzenia w analizowaniu danych i obserwacje odstające. Aby analiza była
rzetelniejsza powinna być badana ta sama ilość osób z każdego przedziału wiekowego. Wtedy
łatwiej byłoby zauważyć pewne tendencje.
Jednakże można stwierdzić, że najbardziej charakterystyczną cechą cukrzycy, co wynika z
analizy, jest zbyt wysoki poziom glukozy we krwi po dwóch godzinach od testu krzywej cu-
krowej. Nie jest to dziwne, ponieważ tym właśnie ta choroba się objawia. Na zachorowalność
ma również wpływ zbyt wysoki wskaźnik BMI, większa ilość ciąż, czy bycie w średnim wie-
ku. Można także zaprognozować, że niektóre z badanych osób w młodym wieku w niedługim
czasie zachorują, ponieważ mają parametry charakterystyczne dla cukrzycy. Praktycznie żad-
nych informacji nie dostarcza zmienna pedigree, czyli wpływ relacji genetycznych na cukrzycę.
Widać, że większość osób chorych miało wyniki podobne do osób zdrowych, co może świad-
czyć o tym, że cukrzyca rzadko jest dziedziczona. Również podwyższone ciśnienie rozkurczowe
nie jest zmienną charakterystyczną dla cukrzycy, ponieważ najwięcej chorych osób miało ten
parametr na dobrym poziomie. Nie należy jednak zapominać, że choroby to rzecz bardzo in-
dywidualna i niektórzy nie muszą mieć wszystkich objawów, tak samo, jak osoba z cechami
charakterystycznymi cukrzycy nie musi być chora.
Niewątpliwie jednak wśród 768 Indian Pima, 268 chorych, czyli 34,9%, to wynik bardzo duży.
Dla porównania w Polsce choruje niecałe 5% społeczeństwa. Oznacza to, że szczególnie oni mają
tendencje i są narażeni na zachorowanie. Również zgadza się fakt, że w ich populacji występuje
największy na świecie odsetek ludzi otyłych, ponieważ w analizie na podstawie wykresów i
wskaźników sumarycznych łatwo dostrzec, że nawet osoby nie chorujące mają zbyt wysokie
BMI.
Literatura
[1] Polskie Towarzystwo Diabetologiczne, Zalecenia kliniczne dotyczące postępowania u chorych
na cukrzycę 2014, Via Medica, 2014.
[2] Iwona Towpik, Nowe kryteria diagnostyczne cukrzycy ciążowej a przebieg ciąży, stan nowo-
rodków i rozwój zaburzeń metabolicznych u badanych pacjentek, http://www.wbc.poznan.
pl/Content/304352/index.pdf, 2013.
32