UAS Statistika - RAHMAN - 23081100052

You might also like

Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 22

UNIVERSITAS MUHAMMADIYAH JAKARTA

FAKULTAS ILMU PENDIDIKAN


UJIAN TENGAH SEMESTER GENAP
2023/2024

Mata Kuliah : STATISTIKA (3 SKS)


Mahasiswa : Rahman
NIM : 23081100052
Program Studi : Magister Pendidikan Dasar
Sifat Ujian : Open book dan internet.
Kelas/Kampus : Virtual
Tempat :-

Question Score
Question 1: 18
a. Explain the meaning of factor analysis.
b. State the advantages and disadvantages of factor analysis.
c. State the requirements for factor analysis.

Question 2: 18
An auto rental firm is using 15 identical motors that are adjusted to run at a fixed speed to test
3 different brands of gasoline. Each brand of gasoline is assigned to exactly 5 of the motors.
Eachmotor runs on 10 gallons of gasoline until it is out of fuel. The following represents the
total mileages obtained by the different motors:
Gas 1: 220 251 226 246 260
Gas 2: 244 235 232 242 225
Gas 3: 252 272 250 238 256
Test the hypothesis that the average mileage obtained is not affected by the type of gas used.
Use the 5 percent level of significance.

Question 3: 18
The life of a particular type of generator is thought to be influenced by the material used in its
construction and also by the temperature at the location where it is utilized. The following
table represents lifetime data on 24 generators made from three different types of materials
and utilized at two different temperatures. Do the data indicate that the material and the
temperature do indeed affect the lifetime of a generator? Is there evidence of an interaction
effect?
Question 4: 18
The research results data are given as follows:

Test a hypothesis with standard steps in an ANCOVA design to test the differences in the
means of Y1, Y2, and Y3, by controlling the influence of X1, X2, and X3.

Question 5: 18
Samples of starting annual salaries for individuals entering the public accounting and financial
planning professions follow. Annual salaries are shown in thousands of dollars.
Contoh gaji tahunan awal bagi individu yang memasuki profesi akuntan publik dan
perencanaan keuangan adalah sebagai berikut. Gaji tahunan ditampilkan dalam ribuan dolar.

a. Use a .05 level of significance and test the hypothesis that there is no difference
between the starting annual salaries of public accountants and financial planners.
What is your conclusion?
Gunakan tingkat signifikansi 0,05 dan uji hipotesis bahwa tidak ada perbedaan antara
gaji tahunan awal akuntan publik dan perencana keuangan. Apa kesimpulan Anda?
b. What are the sample median annual salaries for the two professions?
Berapakah contoh gaji tahunan rata-rata untuk kedua profesi tersebut?
Question 6: 10
Summarize an article. Find an article that using the chi-square method and make a detailed
summary (background, basic theory, number of datasets, research results, references) of the
article. Write down the open problem of the article, if any. Example article:
https://www.sciencedirect.com/science/article/abs/pii/S0020025519301550
JAWABAN

1. Jawaban Soal Nomor 1


a. Analisis faktor adalah sebuah metode statistika yang digunakan untuk mengidentifikasi dan
mengukur hubungan antara variabel-variabel yang saling berkaitan. Tujuannya adalah untuk
mengidentifikasi faktor-faktor yang mendasari pola-pola dalam data, sehingga dapat mengurangi
kompleksitas informasi dengan mengelompokkan variabel-variabel tersebut ke dalam faktor-
faktor yang lebih sedikit. Berikut adalah beberapa konsep dasar terkait analisis faktor:
1) Faktor:
Faktor dalam konteks analisis faktor mengacu pada konstruksi hipotetis atau variabel laten
yang tidak dapat diukur secara langsung. Faktor ini mencerminkan pola-pola yang mendasari
korelasi antara variabel-variabel yang diamati.
2) Variabel:
Variabel dalam analisis faktor adalah variabel-variabel pengukuran yang diamati atau diukur
secara langsung. Analisis faktor bertujuan untuk menjelaskan pola korelasi antara variabel-
variabel ini dengan mengidentifikasi faktor-faktor yang mendasarinya.
3) Korelasi:
Analisis faktor bergantung pada matriks korelasi antara variabel-variabel yang diamati.
Korelasi ini mencerminkan sejauh mana variabel-variabel tersebut saling berkaitan.
4) Loading Faktor:
Loading faktor adalah ukuran seberapa kuat hubungan antara variabel dan faktor. Nilai
loading faktor berkisar antara -1 hingga 1, dan nilai-nilai tersebut menunjukkan arah dan
kekuatan hubungan.
5) Eigenvalue dan Varians Kumulatif:
Eigenvalue mengukur jumlah varians yang dijelaskan oleh setiap faktor. Analisis faktor
biasanya menghasilkan beberapa faktor dengan eigenvalue yang lebih besar dari satu.
Varians kumulatif memberikan gambaran total varians yang dijelaskan oleh sejumlah faktor
tertentu.
6) Rotasi Faktor:
Proses rotasi faktor digunakan untuk mempermudah interpretasi faktor. Ada berbagai metode
rotasi, seperti varimax dan oblimin, yang dapat membantu mengklarifikasi faktor-faktor
yang diidentifikasi.
7) Analisis faktor dapat digunakan dalam berbagai konteks, termasuk dalam penelitian sosial,
psikologi, ekonomi, dan bidang lainnya untuk mengidentifikasi struktur faktor yang
mendasari pola-pola dalam data dan mengurangi kompleksitasnya.
b. Kelebihan dan kekurangan analisis factor

Kelebihan Analisis Faktor:

1. Reduksi Dimensi:
Analisis faktor membantu dalam mengurangi dimensi data dengan mengelompokkan
variabel-variabel yang saling berkorelasi ke dalam faktor-faktor yang lebih sedikit. Ini
mempermudah interpretasi data yang kompleks.

2. Identifikasi Struktur Tersembunyi:


Analisis faktor dapat membantu mengidentifikasi struktur tersembunyi atau faktor-faktor
laten yang mendasari pola-pola dalam data. Hal ini dapat memberikan wawasan lebih
dalam tentang hubungan antar variabel.

3. Pemudahan Interpretasi:
Melalui rotasi faktor, analisis faktor dapat membantu membuat hasil analisis lebih mudah
diinterpretasikan, terutama ketika terdapat korelasi yang tinggi antara variabel-variabel.

4. Uji Hipotesis:
Analisis faktor dapat digunakan untuk menguji hipotesis tentang struktur hubungan antar
variabel-variabel. Hal ini memungkinkan peneliti atau analis untuk memvalidasi model
yang mereka buat.

5. Pemilihan Variabel Utama:


Dengan mengidentifikasi faktor-faktor utama, analisis faktor dapat membantu dalam
pemilihan variabel yang paling relevan dan berkontribusi signifikan terhadap fenomena
yang diamati.

Kekurangan Analisis Faktor:

1. Asumsi Normalitas dan Linieritas:


Analisis faktor memerlukan asumsi normalitas dan linieritas dalam distribusi data. Jika
data tidak memenuhi asumsi ini, hasil analisis faktor mungkin tidak valid.

2. Ketergantungan pada Metode Rotasi:


Hasil analisis faktor dapat bervariasi tergantung pada metode rotasi yang dipilih. Pemilihan
metode rotasi bisa menjadi tantangan, dan hasil yang berbeda dapat dihasilkan dari metode
yang berbeda.

3. Overfitting:
Terdapat risiko overfitting, di mana model analisis faktor dapat terlalu sesuai dengan data
sampel yang digunakan untuk analisis, sehingga tidak dapat secara akurat menggambarkan
populasi secara umum.
4. Sensitif terhadap Outlier:
Analisis faktor dapat menjadi sensitif terhadap adanya outlier dalam data, yang dapat
memengaruhi hasil analisis dan interpretasinya.
5. Interpretasi yang Subjektif:
Meskipun analisis faktor dapat menyederhanakan kompleksitas data, interpretasi faktor dan
pemilihan nama untuk faktor-faktor tersebut dapat menjadi subjektif. Hal ini dapat
bervariasi antar peneliti atau analis.
6. Hanya Mengukur Korelasi:
Analisis faktor hanya mengukur hubungan korelasi antar variabel, bukan hubungan sebab-
akibat. Oleh karena itu, hasil analisis harus diinterpretasikan dengan hati-hati.

Penting untuk diingat bahwa kelebihan dan kekurangan analisis faktor dapat bervariasi tergantung
pada konteks penggunaannya dan karakteristik data yang dianalisis. Sebelum menggunakan metode
ini, penting untuk memahami asumsi-asumsi dan mempertimbangkan kecocokannya dengan jenis
data yang dimiliki.

c. Persyaratan Analisis Faktor

Analisis faktor memiliki beberapa persyaratan yang perlu diperhatikan agar hasilnya dapat
dianggap valid. Berikut adalah beberapa persyaratan utama dalam melakukan analisis faktor:

1. Normalitas Data:
Asumsi normalitas harus dipenuhi, yang berarti distribusi variabel-variabel yang diamati
harus mendekati distribusi normal. Hal ini penting karena banyak metode analisis faktor
bergantung pada normalitas data.

2. Linieritas Hubungan:
Analisis faktor berasumsi bahwa hubungan antara variabel-variabel adalah linier. Oleh
karena itu, perlu diperiksa apakah hubungan antar variabel bersifat linier atau tidak.

3. Korelasi Antara Variabel:


Variabel yang akan dimasukkan ke dalam analisis faktor seharusnya memiliki korelasi
yang cukup tinggi satu sama lain. Korelasi yang rendah antar variabel dapat menghasilkan
faktor-faktor yang sulit diinterpretasikan.

4. Tidak Ada Multikolinieritas yang Tinggi:


Multikolinieritas (korelasi tinggi antara variabel independen) dapat mengganggu hasil
analisis faktor. Variabel yang memiliki korelasi sangat tinggi antara satu sama lain dapat
menyulitkan dalam menentukan faktor-faktor yang sebenarnya mendasari data.

5. Tidak Ada Outlier yang Signifikan:


Outlier atau pencilan dapat memengaruhi hasil analisis faktor. Oleh karena itu, penting
untuk memeriksa dan menangani outlier sebelum melakukan analisis faktor.

6. Ukuran Sampel yang Cukup:


Analisis faktor membutuhkan ukuran sampel yang cukup besar. Sebagai aturan umum,
jumlah observasi (subjek atau unit pengamatan) seharusnya cukup besar untuk mendukung
keandalan hasil analisis faktor.

7. Keabsahan Asumsi-asumsi Model:


Asumsi-asumsi dasar dari model analisis faktor, seperti asumsi bahwa faktor-faktor utama
dapat diidentifikasi dan diinterpretasikan, perlu dipertimbangkan dan diverifikasi
keabsahannya.

8. Matriks Korelasi yang Baik:


Matriks korelasi yang baik memastikan bahwa hubungan antar variabel dapat diukur
dengan akurat. Matriks ini menjadi dasar untuk analisis faktor, dan variabel-variabel yang
tidak memiliki korelasi yang cukup tinggi mungkin tidak cocok untuk dimasukkan.
9. Pertimbangan Rotasi Faktor:
Jika rotasi faktor digunakan, pemilihan metode rotasi dan interpretasi hasil yang sesuai
juga perlu diperhatikan.

10. Ketidakadilan dalam Persebaran Variabel:


Variabel yang memiliki variasi (varians) yang rendah mungkin kurang berguna dalam
analisis faktor. Variabel dengan variasi rendah cenderung memiliki pengaruh yang lebih
kecil terhadap hasil analisis.

Sebelum melakukan analisis faktor, peneliti atau analis harus memastikan bahwa persyaratan-
persyaratan ini terpenuhi untuk memastikan keandalan dan validitas hasil analisis. Selain itu, kritis
untuk memahami batasan dan asumsi-asumsi yang mendasari analisis faktor agar interpretasi
hasilnya dapat dilakukan dengan hati-hati.

2. Jawaban Soal Nomor 2

Hipotesis statistik:
HO: µ1 = µ2 = µ3
H1: bukan Ho
Misalkan Gas 1=Y1, Gas 2=Y2, dan Gas 3=Y3
Jumlah Jarak Yang Ditempuh (Untuk 10 Gallon)
No Y1 Y12 Y2 Y22 Y3 Y32
1 220 48400 244 59536 252 63504
2 251 63001 235 55225 272 73984
3 226 51076 232 53824 250 62500
4 246 60516 242 58564 238 56644
5 260 67600 225 50625 256 65536
Σ 1.203 290593 1178 277774 1268 322168
Rata-rata 240.6 58118.6 235.6 55554.8 253.6 64433.6

Tabel Persiapan Perhitungan ANOVA -1 Jalan


Statistik Gas 1 Gas 2 Gas 3 Jumlah
n 5 5 5 15
∑Yi 1.203 1.178 1.268 3649
∑ Y i2 290593 277774 322168 890535

Yi 240.6 235.6 253.6 729.8

(i) Menghitung Jumlah Kuadrat (JK) untuk beberapa sumber variansi, yaitu: Total (T), Antar (A),
dan Dalam (D)
2
3649
JK(T) = ∑ Y 2t −¿ ¿ ¿ = 890535 - = 2854.93
15
a 2 2 2 2
1203 1178 1268 3649
JK(A) = ∑ ¿¿ ¿ ¿ = + + − = 863.33
j=1 5 5 5 15
a
JK(D) = ∑ Y - ∑ ¿¿ ¿ ¿ = ∑ y = 1991.6
2 2
t
j=1

(ii) Menentukan derajat bebas (db) masing-masing sumber variasi


db(T) = 15-1 = 14
db(A) = 3-1 = 2
db(D) = 15-3 = 12

(iii) Menentukan Rata-rata Jumlah Kuadrat (RJK)


JK ( A ) 863.3333
RJK(A) = = = 431.67
db( A) 2
JK ( D) 130.38
RJK(D) = = = 165.967
db (D) 12

(iv) Menghitung Fhitung


RJK ( A) 431.67
Fhitung = = = 2.61
RJK (D) 165.967

(v) Menyusun tabel ANOVA


Ftabel
Sumber F(2,12)
JK db RJK Fhit
Varians
α = 0.05
Antar 863.33 2 431.67
Dalam 1991.6 15 132.77 2.61** 3.8852938
Total 2854.93 19 -

Fhitung = 2.61 < Ftabel = 3.89 pada taraf signifikan α = 0.05 dengan db pembilang, yaitu db(A) = 2 dan db
penyebut, yaitu db(D) = 12 maka Ho diterima.
Kesimpulan : Jadi tidak terdapat perbedaan pengaruh jenis bahan bakar terhadap jarak yang dapat
ditempuh oleh kendaraan bermotor
3. Jawaban Soal Nomor 3

A Keterangan :
A: B Temperatur
A1 A2
A1 135 50 : 100C
A1 : 180C
150 55
B1
B 176 64 = Material
B1 85 38 = Material 1
B2 150 76 = Material 2
B3 162 88 = Material 3
B2
171 91
120 57 Y = Masa Pakai Sebuah Generator
138 68
111 60
B3
140 74
106 51

Untuk Mempermudah perhitungan Jumlah Kuadrat beberapa sumber varian dapat dibuat taber
persiapan berikut:
Statistik A1B1 A2B1 A1B2 A2B2 A1B3 A2B3 Jumlah
n 4 4 4 4 4 4 24
∑ Xi 546 207 603 312 495 253 2136
∑ X i2 78926 11065 92385 25050 62201 16301 285928
∑ x i2
Xi 136.5 51.75 150.75 78 123.75 63.25 604

b = 3, k = 2, n = 4
1. Formulasi Hipotesis:
a. H0 : α1 = α2 = α3 = 0
H1 : Sekurang-kurangnya satu αi ≠ 0
b. H0 : β 1 = β 2 = β 3 = 0
H1 : Sekurang-kurangnya satu β j ≠ 0
c. H0 : αβ 11 = αβ 12=… = αβ 32 = 0
H1 : Sekurang-kurangnya satu αβ ij ≠ 0
2. Taraf nyata (α ) dan F tabel:
α = 1% = 0.01
a. Untuk baris v 1=2, v 2=3.2.(3) =18, 𝐹0,05(2,18) = 6,01
b. Untuk kolom v 1=1, v 2=3.2.(3) = 18, 𝐹0,05(1,18) = 8,28
c. Untuk interaksi v 1=2, v 2=3.2.(3) = 18, 𝐹0,05(2,18) =6,01

3. Statistik uji yang digunakan:


a. H0 diterima jika f1 < F0,01(2,18) = 6,01
H0 ditolak jika f1 > F0,01(2,18) = 6,01
b. H0 diterima jika f2 < F0,01(1,18) = 8,28
H0 ditolak jika f2 > F0,01(2,18) = 6,01
c. H0 diterima jika f3 < F0,01(2,18) = 6,01
H0 ditolak jika f3 > F0,01(2,18) = 6,01

4. Tabel Analisis Varians (ANOVA)


JKT = 1352 + Termperatur 2
+ …. + 2
- 24162
Material Total 150 53
100C 180C 12
= 135 50 42717
JKB =
150 55 753
Material-1
176 64
85 38
150 76
162 88 915
Material-2
171 91
120 57
138 68
111 60
Material -3 748
140 74
106 51
Total 1644 772 2416
2 2 2 2
753 + 915 +748 2416
-
8 12
= 2257
2 2 2
1644 +772 2416
JKK = -
6 12
= 31682,667
2 2 2
546 +207 +…+253
JKI = - 245467,25−274893,3+243210,67
2
= 588,08
JKE = 42717−2257−31682,67−588,08
= 8190
Rata-rata
Sumber varians Jumlah Kuadrat Derajat Bebas Fo
Kuadrat
Rata-rata baris 2256,5833 2 1128,2917 F1 = 2,48
Rata-rata kolom 31682,67 1 31682,67 F2 = 69,63
Interaksi 588,08 2 294,0417 F3 = 0,646
Error 8190 18 455
Total 42717,3333 23

5. Menarik Kesimpulan
 Karena f1 = 2,48 < F(0,01)(2,18) = 6,01 maka H0 diterima, artinya
 Karena f2 = 69,63 > F(0,01)(1,18) = 8,28 maka H0 ditolak, artinya
 Karena f3 = 0,646 < F(0,01)(2,18) = 6,01 maka H0 diterima, artinya

6. Output Hasil Microsoft Excel


4. Jawaban Soal Nomor 4

A1 A2 A3 (A1)2 (A2)2 (A3)2


No
X1 Y1 X2 Y2 X3 Y3 (X1)2 (Y1)2 (X2)2 (Y2)2 (X3)2 (Y3)2
1 4 3 5 5 6 8 16 9 25 25 36 64
2 4 4 6 6 6 8 16 16 36 36 36 64
3 5 4 6 6 7 9 25 16 36 36 49 81
4 6 5 6 7 7 9 36 25 36 49 49 81
5 4 3 6 7 8 10 16 9 36 49 64 100
6 5 4 7 8 9 10 25 16 49 64 81 100
7 5 4 8 8 9 10 25 16 64 64 81 100
Jumlah 33 27 44 47 52 64 159 107 282 323 396 590

Hipotesis statistik:
Ho: μ1 = μ2 = μ3
H1 : bukan Ho
Untuk memudahkan perhitungan disusun tabel kerja sebagai berikut:
A1 A2 A3 Jumlah
Statistik
X Y X Y X Y X Y
n 7 7 7 7 7 7 21 21
∑ Xi ∑ Y i 33 27 44 47 52 64 129 138

∑ X i2 ∑ Y i2 159 107 282 323 396 590 837 1020

∑ x i2 ∑ yi2 3.43 2.86 0 7.43 9.71 4.86 13.14 15,15

Xi Yi 4.71 3.86 6.29 6.71 7.43 9.14 18.43 19.71

∑ XY 130 301 482 913


∑ xy 2.71 5.57 6.57 14,85

1. Jumlah Perkalian (JP)


JP (T) = ∑ Xt Y t -
( ∑ X t ) ( Y t ) = 913 - ( 129 ) (138 ) = 65.286
nt 21

JP (A) =∑
{ (∑ X i)( ∑ Y i )
ni } (∑

X t )( ∑ Y t )
nt
( 33 ) ( 27 ) ( 44 ) ( 47 ) ( 52 )( 54 ) (129 )( 138 )
= + + − = 50,4286
7 7 7 7
{∑ ( ∑ X i )(∑ Y i )
}
a
JP (D) =∑ X i Y i− = 2.71 + 5.57 + 6.57 = 14.85
n =1 nt
2. Jumlah Kuadrat Kovariabel X ( JK x )
(∑ X t )
2
( 129 )2
JK x ( T ) =∑ X t − = 837 - = 44.4286
2
nt 21

{ } ( ∑ X i) (∑ X t )
2 2
a
( 33 )2 ( 44 )2 ( 52 )2 ( 129 )2
JK x ( A )=∑ − = + + - = 26.000001
i =1 ni nt 7 7 7 21

∑ {∑ }
2
a
(∑ ) 2
Xi
= 3.43 + 0 + 9.71 = 13.14
JK x ( D )= X − i
i=1 ni
3. Jumlah Kuadrat Kovariabel Y ( JK y )
(∑ Y t )
2
( 138 )2
JK y (T )=∑ Y t − = 1020 - = 113.1429
2
nt 21

{ } (∑ Y i) (∑ Y t )
2 2
a
( 27 )2 ( 47 )2 ( 64 )2 1382
JK y ( A )=∑ − = + + - = 98
i=1 ni nt 7 7 7 21

∑ {∑ }
2
a
(∑ ) 2
Yi
= 2.86 + 7.43 + 4.86 = 15.15
JK y ( D )= Yi −
i=1 ni

4. Koefisien Regresi ( b xy )
JP(T ) 65.286
b xy (T ) = = = 1.4695
JK x (T ) 44.4286
JP( A) 50,42857
b xy ( A) = = = 1.9396
JK x (A ) 26.000001
JP(D) 14.85
b xy (D) = = = 1.1301
JK x (D) 13.14

5. Jumlah Kuadrat regresi (JKreg)


JKreg(T) = bxy(T) . JP(T) = (1.4695).(64.286) = 94.4683
JKreg(A) = bxy(A) . JP(A) = (1.9396).(50.4286) = 97.8113
JKreg(D) = bxy(D) . JP(D) = (1.1301).(14.85) = 16.7819

6. Jumlah Kuadrat Y Residu (JKres)


JK res(T) = JK y (T )−JK reg (T ) = (113.1429) (94.4683) = 10648.4174
JK res(A) = JK y ( A)−JK reg ( A) = (98) (97.8113) = 9585.5074
JK res(T) = JK y (D)−JK reg (D) = (15.15) (16.7819) = 254.2458

7. Menentukan derajat bebas (db) sumber Varians Total, Dalam, dan Antar
db res(T) = nt-m-1 = 21-1-1 = 19
db res(A) = 3 - 1 = 2
db res(D) = nt-m-a = 21-1-2 = 18

8. Menyusun tabel Ankova


Sumber Total Dalam Antar
JKxy 65.286 14.85 50,4286
JKx 44.4286 13.14 26.000001
JKy 113.1429 15.15 98
bxy 1.4695 1.1301 1.9396
JKregresi 94.4683 16.7819 97.8113
JKresidu 10648.4174 254.2458 9585.5074
Db 19 18 2
RJKresidu 560.443021 14.124767 4792.7537
Fhitung RJKres( A) 4792.7537
= = 352.059
RJKres(D) 14.124767
Ftabel F(0.05)(2 : 18)=3.55

9. Membuat kesimpulan
Fhitung > Ftabel atau Ho ditolak, sehingga dapat disimpulkan bahwa terdapat perbedaan rata-rata
hasil dari X dan Y yang signifikan antara sampel yang diberi perlakuan A1, A2, dan A3
setelah mengontrol pre-test

5. Jawaban Soal Nomor 5

BAGIAN A

Inisial A B C D E F G H I J
Publik 50.
50.2 58.8 56.3 58.2 54.2 55 59.5 57 51.9
Akuntan 9

Inisial K L M N O P Q R S T
Perencanaan 53.
49 49.2 53.1 55.9 51.9 49.7 53.9 51.8 48.9
Keuangan 6

Prosedur pengujian sebagai berikut:


1. Merumukan hipotesis statistik
H0 : μ1 ≥ μ2
H1 : μ1 < μ2
Hipotesis alternatifnya gaji tahunan profesi akuntan publik lebih rendah dibandingkan gaji
profesi perencanaan keuangan
2. Menetapkan U kritis
Misalkan α = 0.05 dengan n1 = 10, dan n2 = 10, diperoleh U(0.05)(10;10) = 27
3. Menentukan nilai statistik Mann-Whitney (U), dengan langkah-langkah:
Publik
a. Mengurutkan data tanpa Skor Rangking
memperhatikan sampelnya: skor terkecil diberi angka 1 dan
Akuntan
yang lebih besar diberi angka 2 dan seterusnya.
A 50.2 5
Skor Rangking
G 50.9 6
J 51.9 8.5
E 54.2 13
F 55 14
C 56.3 16
I 57 17
D 58.2 18
B 58.8 19
H 59.5 20
Jumlah (K1) = 136.5
Perencanaan
Keuangan
T 48.9 1
K 49 2
L 49.2 3
Q 49.7 4
S 51.8 7
O 51.9 8.5
M 53.1 10
P 53.6 11
R 53.9 12
N 55.9 15
Jumlah (K2) = 73.5
n1 = 10, n2 = 10

b. Menjumlahkan urutan masing-masing sampel


Misalkan untuk n1 (Publik Akuntan) K1 = 136.5
Dan n2 (Perencanaan Keuangan) K2 = 73.5
c. Menghitung statistik U melalui dua rumus:
n1 (n1 +1)
Pertama U = n1 n2 + – K1
2
10(10+1)
= (10)(10) + – 136.5
2
= 18.5
n2 (n2 +1)
Kedua U = n1 n2 + – K2
2
10(10+1)
= (10)(10) + – 73.5
2
= 81.5
Nilai U ditentukan berdasarkan nilai terkecil dari rumus tersebut, yaitu U = 18,5.
Untuk memeriksa kebenaran hasil ini, dapat dicek dengan rumus:
U terkecil = n1n2 – Uterbesar = 100 – 81.5,5 = 18,5 (Terbukti benar).
4. Membuat kesimpulan
Tolak Ho jika statistik U ≤ Ukritis dan terima Ho jika U > Ukritis .
Karena U = 18,5 ≤ U(0,05)(10;10) = 27 maka Ho ditolak atau rata-rata Gaji tahunan awal
perencanaan keuangan lebih tinggi dibanding dengan rata-rata gaji tahunan awal public
akuntan.

BAGIAN B
 Gaji rata-rata publik akuntan = (50.2+58.8+56.3+58.2+54.2+55+50.9+59.5+57+51.9) / 10
= 552 / 10
= 55.2
 Gaji rata-rata perencanaan keuangan =
(49+49.2+53.1+55.9+51.9+53.6+49.7+53.9+51.8+48.9) / 10
= 517 / 10
= 51.7
6. Jawaban Soal Nomor 6

Predicting breast cancer biopsy outcomes from BI-RADS findings using


random forests with chi-square and MI features

a. Pendahuluan:

Salah satu pendekatan deteksi dini terbaik untuk kanker payudara adalah klasifikasi
berdasarkan gambar mamografi. Namun, lemahnya tingkat prediksi positif biopsi
payudara yang timbul dari pemeriksaan mammogram berkontribusi pada biopsi yang tidak
diperlukan untuk menemukan temuan abnormal yang pada akhirnya terbukti jinak dalam
banyak kasus. BI-RADS adalah sistem standar untuk mengungkapkan dan
mengkomunikasikan temuan dan hasil mammogram. Penelitian telah dilakukan untuk
merancang dan mengembangkan skema klasifikasi ansambel, menggunakan metode FS
yang tepat dan pendekatan imputasi yang tepat, untuk memprediksi hasil biopsi kanker
dengan memanfaatkan temuan BIRADS dan untuk mengatasi masalah “tingkat prediksi
positif yang relatif rendah.” biopsi yang ditunjukkan oleh mamografi, yang mengarah pada
biopsi yang tidak diperlukan untuk temuan abnormal”. Pengklasifikasi RF dengan prosedur
pemilihan atribut ÿ2 dan MI telah diusulkan untuk memprediksi hasil biopsi kanker dari
fitur BI-RADS dan usia pasien.

b. Metode Statistik dalam Atribusi Penulis:

Menurut literatur yang tersedia, rendahnya tingkat prediksi positif dari biopsi
payudara dari analisis mammogram mengarah pada biopsi yang tidak perlu untuk
menemukan temuan abnormal akhirnya terbukti jinak dalam banyak kasus. Untuk
mengatasi masalah ini dan menerapkan ansambel skema klasifikasi dengan metode FS
yang sesuai untuk menganalisis dan memprediksi payudara hasil biopsi kanker dari temuan
BI-RADS, pengklasifikasi RF dengan ÿ2 dan MI FS prosedur diusulkan dalam makalah
ini. Kumpulan data Massa Mammografi UCI adalah digunakan untuk validasi. Imputasi
dengan algoritma KNN digunakan untuk menggantikan yang hilang nilai atribut.
Normalisasi Min-Max diterapkan untuk mengubah semua nilai secara linier menjadi masuk
rentang antara 0 dan 1. Teknik yang diusulkan disajikan secara skematis pada Gambar 1.
Langkah-langkah kunci dari teknik yang diusulkan adalah sebagai berikut:
1. Menangani nilai yang hilang menggunakan imputasi KNN.
2. & Penskalaan Min-Max kumpulan data.
3. & Pemilihan fitur yang relevan menggunakan ÿ2dan MI FS.
4. & Klasifikasi menggunakan RF.

c. Uji Chi-Square dalam Atribusi Penulis:

Uji independensi Chi-square (ÿ2) merupakan uji nonparametrik yang bertujuan untuk menguji
ada tidaknya suatu hal yang menonjol hubungan (misalnya, apakah keduanya independen atau
terkait) antara kedua peristiwa tersebut. Dalam proses ÿ2 FS, (ÿ2) statistik antara masing-
masing prediktor dan atribut keluaran diukur, dan jumlah prediktor yang diinginkan dengan skor
chi-kuadrat teratas dipilih untuk pelatihan model. Lebih formalnya, mengingat data keduanya
variabel, ÿ2 mengukur bagaimana penghitungan yang diharapkan dan penyimpangan
penghitungan yang diamati satu sama lain

d. Statistik

Saling Informasi (MI) adalah konsep teori informasi dan digunakan untuk
memperkirakan saling ketergantungan antara dua atribut. MI antara dua variabel diskrit
X dan Y ditunjukkan sebagai berikut :

informasi timbal balik dapat diterapkan untuk pemilihan atribut univariat. Untuk fitur
acak berkelanjutan bersama, jumlah ganda diganti dengan integral ganda. Dalam
Persamaan. (6), P(Yj) dan P(Xi) adalah marginal, dan joint fungsi distribusi
probabilitas adalah P(Xi , Yj). Nilai MI yang nol berarti kedua atribut tersebut
independen, dan skor yang lebih besar menunjukkan ketergantungan antar variabel
yang lebih besar
e. Eksperimen
1. Kumpulan data massal mamografi dan prapemrosesan data
Dataset Massa Mammografi UCI digunakan dalam penelitian ini [12, 14]. Kumpulan
data tersedia di https:// archive.ics.uci.edu/ml/datasets/mammographic+mass. Dataset
berisi 961 sampel (jinak: 516; ganas: 445) dan 6 atribut (5 fitur dan 1 atribut keluaran).
Untuk tujuan klasifikasi, label kelas keluaran ganas dan jinak masing-masing dianggap
sebagai kelas positif dan kelas negatif. Kumpulan data ini memiliki banyak nilai yang
hilang di antara fitur-fitur individual (detail nilai yang hilang disediakan pada Tabel 2)
yang mana metode penggantian yang disebut imputasi KNN (fungsionalitas
KNNImputer yang dibuat sebelumnya dari scikit-learn) digunakan (seperti yang
dinyatakan di atas). Kemudian, normalisasi Min-Max (scikit-learn'sMinMaxScaler)
semua nilai secara linier berada di kisaran antara 0 dan 1.

2. Pemeringkatan dan pemilihan fitur

Fungsionalitas bawaan Sklearn untuk ÿ2 dan MI FS digunakan untuk


menemukan skor fitur dan kemudian peringkat. Skor fitur yang diperoleh dengan
metode ÿ2 dan MI diberikan pada Tabel 3. Maju dan pendekatan FS mundur
yang diusulkan oleh Shu-Ting Luo (2012) pada dataset Massa Mammografi juga
dipertimbangkan untuk perbandingan Peringkat fitur fitur disediakan di Tabel 4.
Setiap fitur diberi peringkat berdasarkan metode ÿ2 dan MI. Maju dan mundur
Pemeringkatan metode FS juga diberikan. Angka tersebut menunjukkan
pentingnya fitur tersebut. 'Kepadatan Massa' adalah fitur yang paling tidak
signifikan menurut semua algoritma. Oleh karena itu, empat fitur tersisa dipilih
untuk diproses lebih lanjut.

3. Eksperimen

pada subbagian ini, ringkasan lengkap eksperimen dan kinerja yang dilakukan
analisis hasil (menggunakan indeks kinerja yang berbeda) telah disajikan. Itu
kinerja model yang diusulkan (selanjutnya disebut RF dengan FS) dibandingkan
dengan RF classifier dengan semua fitur (selanjutnya disingkat RF tanpa FS).
Keduanya model divalidasi terhadap kumpulan data Massa Mammografi UCI
menggunakan CV sepuluh kali lipat dan telah dievaluasi dan dibandingkan.
Model diimplementasikan dalam bahasa Python; itu implementasi algoritma
klasifikasi yang tersedia dari Scikit-Learn (sebuah Python ML perpustakaan)
diadopsi untuk menghindari kemungkinan kesalahan pemrograman Seleksi
terpisah dilakukan berdasarkan penurunan pengotor Gini. Algoritma
pengoptimalan jaringan adalah diterapkan untuk mendapatkan nilai optimal
untuk hyper-parameters:max_ depth (Max. depth of the DT),max_features
(Jumlah atribut yang perlu dipertimbangkan saat mencari pemisahan terbaik),
min_samples_split (Jumlah minimum instance yang diperlukan untuk membagi
node internal), n_estimators (Jumlah DT), dan min_samples _leaf (Jumlah
minimum instance harus berada di node daun).

f. Pembahasan hasil

Pada penelitian ini, RF dengan metode ÿ2 dan MI FS telah diterapkan untuk


prediksi hasil biopsi kanker menggunakan data BI-RADS. Kumpulan data bekas
berisi banyak nilai yang hilang; metode imputasi KNN digunakan untuk
menggantikan nilai yang hilang. 'Kepadatan Massa' adalah yang paling sedikit

fitur penting menurut algoritma FS yang berbeda. Oleh karena itu, empat fitur
sisanya dipilih untuk diproses lebih lanjut. Hasilnya langsung dibandingkan dengan
RF tanpa model FS, pengklasifikasi canggih, dan temuan yang dilaporkan
sebelumnya.
Dengan model RF tanpa FS diperoleh akurasi klasifikasi 83,87%, sensitivitas 82,7%,
spesifisitas 84,88%, recall 0,8251, F-score 0,826, dan MCC 0,6757. 0,8967 AUC
juga dilaporkan. Ini mengungguli semua pengklasifikasi canggih yang sudah ada.
Namun, ketika membandingkan hasil dengan penelitian sebelumnya, harus
ditunjukkan bahwa metode bagging yang diusulkan oleh Yan YT dkk. (2017)
memberikan hasil yang lebih baik (84%) dibandingkan model RF tanpa FS.
Yan YT dkk. (2017) menghapus sampel dengan nilai yang hilang dari dataset,
sedangkan dalam penelitian ini, untuk kedua model (RF dengan FS, RF tanpa FS),
imputasi KNN digunakan untuk menangani nilai yang hilang. Menurut literatur,
menghilangkan sampel yang nilainya hilang dapat menimbulkan bias dalam
klasifikasi. Artinya, dibandingkan dengan metode Yan YT dkk. (2017), kedua model
(RF tanpa FS dan RF dengan FS) bebas bias. Dalam penelitian lain, ZahriahSahri
dkk. (2017) menerapkan enam metode imputasi (Class-conditional, Mean, KNN,
Multiple, NN, dan SVR) untuk menggantikan nilai yang hilang yang ada dalam
dataset Mammographic Mass UCI dan kemudian pengklasifikasi ML yang berbeda
(DS, NB classifier, C4.5, RT , RF, dan SVM) untuk memverifikasi peningkatan
kinerja. Dua pendekatan, NB dengan imputasi KNN dan NB dengan imputasi
bersyarat kelas, memberikan akurasi terbaik di seluruh pendekatan ini. Kedua
pendekatan ini juga mengungguli model RF tanpa FS.
Namun, dengan metode yang diusulkan (RF dengan model FS), hasil yang lebih baik
telah diperoleh (yaitu, akurasi klasifikasi 84,7%, sensitivitas 83,37%, spesifisitas
85,85%, recall 0,8337, F-score 0,8346, MCC 0,6923, dan AUC 0,9023). Model
tersebut berkinerja baik, memberikan hasil yang baik. Analisis komparatif yang
diberikan di atas menunjukkan metode yang diusulkan memberikan hasil yang lebih
unggul dibandingkan metode RF (tanpa FS). Hal ini menunjukkan bahwa metode ÿ2
dan MI FS yang diusulkan merupakan pendekatan yang sangat berguna untuk FS
yang relevan. Selain itu, analisis komparatif (Tabel 6) menunjukkan potensi
keunggulan model, yang diusulkan dalam penelitian ini, dibandingkan klasifikasi
canggih yang sudah ada.
pendekatan dalam berbagai indeks. Selain itu, ketika membandingkan hasil yang
diusulkan model dengan penelitian yang lebih lama, hasilnya menunjukkan potensi
keunggulan model yang diusulkan atas metode yang sudah ada (digunakan untuk
perbandingan
g. Kesimpulan

Salah satu pendekatan deteksi dini terbaik untuk kanker payudara adalah
klasifikasi berdasarkan gambar mamografi. Ini adalah cara yang paling efisien dan
praktis. Meskipun demikian, yang lemah tingkat prediksi positif biopsi yang timbul
dari pemeriksaan mammogram berkontribusi terhadap biopsi yang tidak perlu untuk
temuan abnormal yang pada akhirnya terbukti jinak dalam banyak kasus. Di dalam
Dalam penelitian ini, model prediktif pengklasifikasi RF dengan FS
diimplementasikan pada kumpulan data nyata berisi evaluasi BI-RADS, usia, dan
tiga fitur BI-RADS lainnya untuk prediksi hasil biopsi kanker dan untuk
meminimalkan prediksi positif palsu. Karena kumpulan data Massa Mammografi
dari repositori UCI berisi nilai yang hilang dan sampelnya kurang memadai untuk
mendiagnosis secara memadai, metode imputasi berbasis KNN untuk penggantian
entri yang hilang digunakan alih-alih menghilangkan nilai-nilai itu. Kinerja
pengklasifikasi dengan dan tanpa fitur yang dipilih telah dievaluasi menggunakan
indeks kinerja yang berbeda, nilai AUC, dan grafik ROC. Perbandingan ini
menegaskan bahwa akurasi prediksi meningkat setelahnya penghapusan atribut
'Kepadatan Massa'. Dengan demikian, metode FS berbasis ÿ2 dan MI membantu
meningkatkan akurasi pengklasifikasi dengan memilih subkumpulan fitur terbaik.
Model ini mencapai akurasi klasifikasi yang lebih baik dibandingkan dengan teknik
lain yang ada saat ini dan banyak pengklasifikasi canggih yang sudah ada. Hasil
eksperimen dan studi komparatif menegaskan bahwa pendekatan yang diusulkan
tentunya merupakan model yang sangat baik dan efektif untuk memprediksi tingkat
keparahan massa payudara menggunakan fitur BI-RADS. Singkatnya, hasil
penelitian menunjukkan bahwa model ini merupakan metode yang menguntungkan,
praktis, dan masuk akal untuk memprediksi hasil biopsi kanker payudara dan
meminimalkan prediksi positif palsu. Model yang diusulkan dapat berfungsi sebagai
alat opini kedua bagi para ahli kesehatan.

You might also like