Professional Documents
Culture Documents
UAS Statistika - RAHMAN - 23081100052
UAS Statistika - RAHMAN - 23081100052
UAS Statistika - RAHMAN - 23081100052
Question Score
Question 1: 18
a. Explain the meaning of factor analysis.
b. State the advantages and disadvantages of factor analysis.
c. State the requirements for factor analysis.
Question 2: 18
An auto rental firm is using 15 identical motors that are adjusted to run at a fixed speed to test
3 different brands of gasoline. Each brand of gasoline is assigned to exactly 5 of the motors.
Eachmotor runs on 10 gallons of gasoline until it is out of fuel. The following represents the
total mileages obtained by the different motors:
Gas 1: 220 251 226 246 260
Gas 2: 244 235 232 242 225
Gas 3: 252 272 250 238 256
Test the hypothesis that the average mileage obtained is not affected by the type of gas used.
Use the 5 percent level of significance.
Question 3: 18
The life of a particular type of generator is thought to be influenced by the material used in its
construction and also by the temperature at the location where it is utilized. The following
table represents lifetime data on 24 generators made from three different types of materials
and utilized at two different temperatures. Do the data indicate that the material and the
temperature do indeed affect the lifetime of a generator? Is there evidence of an interaction
effect?
Question 4: 18
The research results data are given as follows:
Test a hypothesis with standard steps in an ANCOVA design to test the differences in the
means of Y1, Y2, and Y3, by controlling the influence of X1, X2, and X3.
Question 5: 18
Samples of starting annual salaries for individuals entering the public accounting and financial
planning professions follow. Annual salaries are shown in thousands of dollars.
Contoh gaji tahunan awal bagi individu yang memasuki profesi akuntan publik dan
perencanaan keuangan adalah sebagai berikut. Gaji tahunan ditampilkan dalam ribuan dolar.
a. Use a .05 level of significance and test the hypothesis that there is no difference
between the starting annual salaries of public accountants and financial planners.
What is your conclusion?
Gunakan tingkat signifikansi 0,05 dan uji hipotesis bahwa tidak ada perbedaan antara
gaji tahunan awal akuntan publik dan perencana keuangan. Apa kesimpulan Anda?
b. What are the sample median annual salaries for the two professions?
Berapakah contoh gaji tahunan rata-rata untuk kedua profesi tersebut?
Question 6: 10
Summarize an article. Find an article that using the chi-square method and make a detailed
summary (background, basic theory, number of datasets, research results, references) of the
article. Write down the open problem of the article, if any. Example article:
https://www.sciencedirect.com/science/article/abs/pii/S0020025519301550
JAWABAN
1. Reduksi Dimensi:
Analisis faktor membantu dalam mengurangi dimensi data dengan mengelompokkan
variabel-variabel yang saling berkorelasi ke dalam faktor-faktor yang lebih sedikit. Ini
mempermudah interpretasi data yang kompleks.
3. Pemudahan Interpretasi:
Melalui rotasi faktor, analisis faktor dapat membantu membuat hasil analisis lebih mudah
diinterpretasikan, terutama ketika terdapat korelasi yang tinggi antara variabel-variabel.
4. Uji Hipotesis:
Analisis faktor dapat digunakan untuk menguji hipotesis tentang struktur hubungan antar
variabel-variabel. Hal ini memungkinkan peneliti atau analis untuk memvalidasi model
yang mereka buat.
3. Overfitting:
Terdapat risiko overfitting, di mana model analisis faktor dapat terlalu sesuai dengan data
sampel yang digunakan untuk analisis, sehingga tidak dapat secara akurat menggambarkan
populasi secara umum.
4. Sensitif terhadap Outlier:
Analisis faktor dapat menjadi sensitif terhadap adanya outlier dalam data, yang dapat
memengaruhi hasil analisis dan interpretasinya.
5. Interpretasi yang Subjektif:
Meskipun analisis faktor dapat menyederhanakan kompleksitas data, interpretasi faktor dan
pemilihan nama untuk faktor-faktor tersebut dapat menjadi subjektif. Hal ini dapat
bervariasi antar peneliti atau analis.
6. Hanya Mengukur Korelasi:
Analisis faktor hanya mengukur hubungan korelasi antar variabel, bukan hubungan sebab-
akibat. Oleh karena itu, hasil analisis harus diinterpretasikan dengan hati-hati.
Penting untuk diingat bahwa kelebihan dan kekurangan analisis faktor dapat bervariasi tergantung
pada konteks penggunaannya dan karakteristik data yang dianalisis. Sebelum menggunakan metode
ini, penting untuk memahami asumsi-asumsi dan mempertimbangkan kecocokannya dengan jenis
data yang dimiliki.
Analisis faktor memiliki beberapa persyaratan yang perlu diperhatikan agar hasilnya dapat
dianggap valid. Berikut adalah beberapa persyaratan utama dalam melakukan analisis faktor:
1. Normalitas Data:
Asumsi normalitas harus dipenuhi, yang berarti distribusi variabel-variabel yang diamati
harus mendekati distribusi normal. Hal ini penting karena banyak metode analisis faktor
bergantung pada normalitas data.
2. Linieritas Hubungan:
Analisis faktor berasumsi bahwa hubungan antara variabel-variabel adalah linier. Oleh
karena itu, perlu diperiksa apakah hubungan antar variabel bersifat linier atau tidak.
Sebelum melakukan analisis faktor, peneliti atau analis harus memastikan bahwa persyaratan-
persyaratan ini terpenuhi untuk memastikan keandalan dan validitas hasil analisis. Selain itu, kritis
untuk memahami batasan dan asumsi-asumsi yang mendasari analisis faktor agar interpretasi
hasilnya dapat dilakukan dengan hati-hati.
Hipotesis statistik:
HO: µ1 = µ2 = µ3
H1: bukan Ho
Misalkan Gas 1=Y1, Gas 2=Y2, dan Gas 3=Y3
Jumlah Jarak Yang Ditempuh (Untuk 10 Gallon)
No Y1 Y12 Y2 Y22 Y3 Y32
1 220 48400 244 59536 252 63504
2 251 63001 235 55225 272 73984
3 226 51076 232 53824 250 62500
4 246 60516 242 58564 238 56644
5 260 67600 225 50625 256 65536
Σ 1.203 290593 1178 277774 1268 322168
Rata-rata 240.6 58118.6 235.6 55554.8 253.6 64433.6
(i) Menghitung Jumlah Kuadrat (JK) untuk beberapa sumber variansi, yaitu: Total (T), Antar (A),
dan Dalam (D)
2
3649
JK(T) = ∑ Y 2t −¿ ¿ ¿ = 890535 - = 2854.93
15
a 2 2 2 2
1203 1178 1268 3649
JK(A) = ∑ ¿¿ ¿ ¿ = + + − = 863.33
j=1 5 5 5 15
a
JK(D) = ∑ Y - ∑ ¿¿ ¿ ¿ = ∑ y = 1991.6
2 2
t
j=1
Fhitung = 2.61 < Ftabel = 3.89 pada taraf signifikan α = 0.05 dengan db pembilang, yaitu db(A) = 2 dan db
penyebut, yaitu db(D) = 12 maka Ho diterima.
Kesimpulan : Jadi tidak terdapat perbedaan pengaruh jenis bahan bakar terhadap jarak yang dapat
ditempuh oleh kendaraan bermotor
3. Jawaban Soal Nomor 3
A Keterangan :
A: B Temperatur
A1 A2
A1 135 50 : 100C
A1 : 180C
150 55
B1
B 176 64 = Material
B1 85 38 = Material 1
B2 150 76 = Material 2
B3 162 88 = Material 3
B2
171 91
120 57 Y = Masa Pakai Sebuah Generator
138 68
111 60
B3
140 74
106 51
Untuk Mempermudah perhitungan Jumlah Kuadrat beberapa sumber varian dapat dibuat taber
persiapan berikut:
Statistik A1B1 A2B1 A1B2 A2B2 A1B3 A2B3 Jumlah
n 4 4 4 4 4 4 24
∑ Xi 546 207 603 312 495 253 2136
∑ X i2 78926 11065 92385 25050 62201 16301 285928
∑ x i2
Xi 136.5 51.75 150.75 78 123.75 63.25 604
b = 3, k = 2, n = 4
1. Formulasi Hipotesis:
a. H0 : α1 = α2 = α3 = 0
H1 : Sekurang-kurangnya satu αi ≠ 0
b. H0 : β 1 = β 2 = β 3 = 0
H1 : Sekurang-kurangnya satu β j ≠ 0
c. H0 : αβ 11 = αβ 12=… = αβ 32 = 0
H1 : Sekurang-kurangnya satu αβ ij ≠ 0
2. Taraf nyata (α ) dan F tabel:
α = 1% = 0.01
a. Untuk baris v 1=2, v 2=3.2.(3) =18, 𝐹0,05(2,18) = 6,01
b. Untuk kolom v 1=1, v 2=3.2.(3) = 18, 𝐹0,05(1,18) = 8,28
c. Untuk interaksi v 1=2, v 2=3.2.(3) = 18, 𝐹0,05(2,18) =6,01
5. Menarik Kesimpulan
Karena f1 = 2,48 < F(0,01)(2,18) = 6,01 maka H0 diterima, artinya
Karena f2 = 69,63 > F(0,01)(1,18) = 8,28 maka H0 ditolak, artinya
Karena f3 = 0,646 < F(0,01)(2,18) = 6,01 maka H0 diterima, artinya
Hipotesis statistik:
Ho: μ1 = μ2 = μ3
H1 : bukan Ho
Untuk memudahkan perhitungan disusun tabel kerja sebagai berikut:
A1 A2 A3 Jumlah
Statistik
X Y X Y X Y X Y
n 7 7 7 7 7 7 21 21
∑ Xi ∑ Y i 33 27 44 47 52 64 129 138
JP (A) =∑
{ (∑ X i)( ∑ Y i )
ni } (∑
−
X t )( ∑ Y t )
nt
( 33 ) ( 27 ) ( 44 ) ( 47 ) ( 52 )( 54 ) (129 )( 138 )
= + + − = 50,4286
7 7 7 7
{∑ ( ∑ X i )(∑ Y i )
}
a
JP (D) =∑ X i Y i− = 2.71 + 5.57 + 6.57 = 14.85
n =1 nt
2. Jumlah Kuadrat Kovariabel X ( JK x )
(∑ X t )
2
( 129 )2
JK x ( T ) =∑ X t − = 837 - = 44.4286
2
nt 21
{ } ( ∑ X i) (∑ X t )
2 2
a
( 33 )2 ( 44 )2 ( 52 )2 ( 129 )2
JK x ( A )=∑ − = + + - = 26.000001
i =1 ni nt 7 7 7 21
∑ {∑ }
2
a
(∑ ) 2
Xi
= 3.43 + 0 + 9.71 = 13.14
JK x ( D )= X − i
i=1 ni
3. Jumlah Kuadrat Kovariabel Y ( JK y )
(∑ Y t )
2
( 138 )2
JK y (T )=∑ Y t − = 1020 - = 113.1429
2
nt 21
{ } (∑ Y i) (∑ Y t )
2 2
a
( 27 )2 ( 47 )2 ( 64 )2 1382
JK y ( A )=∑ − = + + - = 98
i=1 ni nt 7 7 7 21
∑ {∑ }
2
a
(∑ ) 2
Yi
= 2.86 + 7.43 + 4.86 = 15.15
JK y ( D )= Yi −
i=1 ni
4. Koefisien Regresi ( b xy )
JP(T ) 65.286
b xy (T ) = = = 1.4695
JK x (T ) 44.4286
JP( A) 50,42857
b xy ( A) = = = 1.9396
JK x (A ) 26.000001
JP(D) 14.85
b xy (D) = = = 1.1301
JK x (D) 13.14
7. Menentukan derajat bebas (db) sumber Varians Total, Dalam, dan Antar
db res(T) = nt-m-1 = 21-1-1 = 19
db res(A) = 3 - 1 = 2
db res(D) = nt-m-a = 21-1-2 = 18
9. Membuat kesimpulan
Fhitung > Ftabel atau Ho ditolak, sehingga dapat disimpulkan bahwa terdapat perbedaan rata-rata
hasil dari X dan Y yang signifikan antara sampel yang diberi perlakuan A1, A2, dan A3
setelah mengontrol pre-test
BAGIAN A
Inisial A B C D E F G H I J
Publik 50.
50.2 58.8 56.3 58.2 54.2 55 59.5 57 51.9
Akuntan 9
Inisial K L M N O P Q R S T
Perencanaan 53.
49 49.2 53.1 55.9 51.9 49.7 53.9 51.8 48.9
Keuangan 6
BAGIAN B
Gaji rata-rata publik akuntan = (50.2+58.8+56.3+58.2+54.2+55+50.9+59.5+57+51.9) / 10
= 552 / 10
= 55.2
Gaji rata-rata perencanaan keuangan =
(49+49.2+53.1+55.9+51.9+53.6+49.7+53.9+51.8+48.9) / 10
= 517 / 10
= 51.7
6. Jawaban Soal Nomor 6
a. Pendahuluan:
Salah satu pendekatan deteksi dini terbaik untuk kanker payudara adalah klasifikasi
berdasarkan gambar mamografi. Namun, lemahnya tingkat prediksi positif biopsi
payudara yang timbul dari pemeriksaan mammogram berkontribusi pada biopsi yang tidak
diperlukan untuk menemukan temuan abnormal yang pada akhirnya terbukti jinak dalam
banyak kasus. BI-RADS adalah sistem standar untuk mengungkapkan dan
mengkomunikasikan temuan dan hasil mammogram. Penelitian telah dilakukan untuk
merancang dan mengembangkan skema klasifikasi ansambel, menggunakan metode FS
yang tepat dan pendekatan imputasi yang tepat, untuk memprediksi hasil biopsi kanker
dengan memanfaatkan temuan BIRADS dan untuk mengatasi masalah “tingkat prediksi
positif yang relatif rendah.” biopsi yang ditunjukkan oleh mamografi, yang mengarah pada
biopsi yang tidak diperlukan untuk temuan abnormal”. Pengklasifikasi RF dengan prosedur
pemilihan atribut ÿ2 dan MI telah diusulkan untuk memprediksi hasil biopsi kanker dari
fitur BI-RADS dan usia pasien.
Menurut literatur yang tersedia, rendahnya tingkat prediksi positif dari biopsi
payudara dari analisis mammogram mengarah pada biopsi yang tidak perlu untuk
menemukan temuan abnormal akhirnya terbukti jinak dalam banyak kasus. Untuk
mengatasi masalah ini dan menerapkan ansambel skema klasifikasi dengan metode FS
yang sesuai untuk menganalisis dan memprediksi payudara hasil biopsi kanker dari temuan
BI-RADS, pengklasifikasi RF dengan ÿ2 dan MI FS prosedur diusulkan dalam makalah
ini. Kumpulan data Massa Mammografi UCI adalah digunakan untuk validasi. Imputasi
dengan algoritma KNN digunakan untuk menggantikan yang hilang nilai atribut.
Normalisasi Min-Max diterapkan untuk mengubah semua nilai secara linier menjadi masuk
rentang antara 0 dan 1. Teknik yang diusulkan disajikan secara skematis pada Gambar 1.
Langkah-langkah kunci dari teknik yang diusulkan adalah sebagai berikut:
1. Menangani nilai yang hilang menggunakan imputasi KNN.
2. & Penskalaan Min-Max kumpulan data.
3. & Pemilihan fitur yang relevan menggunakan ÿ2dan MI FS.
4. & Klasifikasi menggunakan RF.
Uji independensi Chi-square (ÿ2) merupakan uji nonparametrik yang bertujuan untuk menguji
ada tidaknya suatu hal yang menonjol hubungan (misalnya, apakah keduanya independen atau
terkait) antara kedua peristiwa tersebut. Dalam proses ÿ2 FS, (ÿ2) statistik antara masing-
masing prediktor dan atribut keluaran diukur, dan jumlah prediktor yang diinginkan dengan skor
chi-kuadrat teratas dipilih untuk pelatihan model. Lebih formalnya, mengingat data keduanya
variabel, ÿ2 mengukur bagaimana penghitungan yang diharapkan dan penyimpangan
penghitungan yang diamati satu sama lain
d. Statistik
Saling Informasi (MI) adalah konsep teori informasi dan digunakan untuk
memperkirakan saling ketergantungan antara dua atribut. MI antara dua variabel diskrit
X dan Y ditunjukkan sebagai berikut :
informasi timbal balik dapat diterapkan untuk pemilihan atribut univariat. Untuk fitur
acak berkelanjutan bersama, jumlah ganda diganti dengan integral ganda. Dalam
Persamaan. (6), P(Yj) dan P(Xi) adalah marginal, dan joint fungsi distribusi
probabilitas adalah P(Xi , Yj). Nilai MI yang nol berarti kedua atribut tersebut
independen, dan skor yang lebih besar menunjukkan ketergantungan antar variabel
yang lebih besar
e. Eksperimen
1. Kumpulan data massal mamografi dan prapemrosesan data
Dataset Massa Mammografi UCI digunakan dalam penelitian ini [12, 14]. Kumpulan
data tersedia di https:// archive.ics.uci.edu/ml/datasets/mammographic+mass. Dataset
berisi 961 sampel (jinak: 516; ganas: 445) dan 6 atribut (5 fitur dan 1 atribut keluaran).
Untuk tujuan klasifikasi, label kelas keluaran ganas dan jinak masing-masing dianggap
sebagai kelas positif dan kelas negatif. Kumpulan data ini memiliki banyak nilai yang
hilang di antara fitur-fitur individual (detail nilai yang hilang disediakan pada Tabel 2)
yang mana metode penggantian yang disebut imputasi KNN (fungsionalitas
KNNImputer yang dibuat sebelumnya dari scikit-learn) digunakan (seperti yang
dinyatakan di atas). Kemudian, normalisasi Min-Max (scikit-learn'sMinMaxScaler)
semua nilai secara linier berada di kisaran antara 0 dan 1.
3. Eksperimen
pada subbagian ini, ringkasan lengkap eksperimen dan kinerja yang dilakukan
analisis hasil (menggunakan indeks kinerja yang berbeda) telah disajikan. Itu
kinerja model yang diusulkan (selanjutnya disebut RF dengan FS) dibandingkan
dengan RF classifier dengan semua fitur (selanjutnya disingkat RF tanpa FS).
Keduanya model divalidasi terhadap kumpulan data Massa Mammografi UCI
menggunakan CV sepuluh kali lipat dan telah dievaluasi dan dibandingkan.
Model diimplementasikan dalam bahasa Python; itu implementasi algoritma
klasifikasi yang tersedia dari Scikit-Learn (sebuah Python ML perpustakaan)
diadopsi untuk menghindari kemungkinan kesalahan pemrograman Seleksi
terpisah dilakukan berdasarkan penurunan pengotor Gini. Algoritma
pengoptimalan jaringan adalah diterapkan untuk mendapatkan nilai optimal
untuk hyper-parameters:max_ depth (Max. depth of the DT),max_features
(Jumlah atribut yang perlu dipertimbangkan saat mencari pemisahan terbaik),
min_samples_split (Jumlah minimum instance yang diperlukan untuk membagi
node internal), n_estimators (Jumlah DT), dan min_samples _leaf (Jumlah
minimum instance harus berada di node daun).
f. Pembahasan hasil
fitur penting menurut algoritma FS yang berbeda. Oleh karena itu, empat fitur
sisanya dipilih untuk diproses lebih lanjut. Hasilnya langsung dibandingkan dengan
RF tanpa model FS, pengklasifikasi canggih, dan temuan yang dilaporkan
sebelumnya.
Dengan model RF tanpa FS diperoleh akurasi klasifikasi 83,87%, sensitivitas 82,7%,
spesifisitas 84,88%, recall 0,8251, F-score 0,826, dan MCC 0,6757. 0,8967 AUC
juga dilaporkan. Ini mengungguli semua pengklasifikasi canggih yang sudah ada.
Namun, ketika membandingkan hasil dengan penelitian sebelumnya, harus
ditunjukkan bahwa metode bagging yang diusulkan oleh Yan YT dkk. (2017)
memberikan hasil yang lebih baik (84%) dibandingkan model RF tanpa FS.
Yan YT dkk. (2017) menghapus sampel dengan nilai yang hilang dari dataset,
sedangkan dalam penelitian ini, untuk kedua model (RF dengan FS, RF tanpa FS),
imputasi KNN digunakan untuk menangani nilai yang hilang. Menurut literatur,
menghilangkan sampel yang nilainya hilang dapat menimbulkan bias dalam
klasifikasi. Artinya, dibandingkan dengan metode Yan YT dkk. (2017), kedua model
(RF tanpa FS dan RF dengan FS) bebas bias. Dalam penelitian lain, ZahriahSahri
dkk. (2017) menerapkan enam metode imputasi (Class-conditional, Mean, KNN,
Multiple, NN, dan SVR) untuk menggantikan nilai yang hilang yang ada dalam
dataset Mammographic Mass UCI dan kemudian pengklasifikasi ML yang berbeda
(DS, NB classifier, C4.5, RT , RF, dan SVM) untuk memverifikasi peningkatan
kinerja. Dua pendekatan, NB dengan imputasi KNN dan NB dengan imputasi
bersyarat kelas, memberikan akurasi terbaik di seluruh pendekatan ini. Kedua
pendekatan ini juga mengungguli model RF tanpa FS.
Namun, dengan metode yang diusulkan (RF dengan model FS), hasil yang lebih baik
telah diperoleh (yaitu, akurasi klasifikasi 84,7%, sensitivitas 83,37%, spesifisitas
85,85%, recall 0,8337, F-score 0,8346, MCC 0,6923, dan AUC 0,9023). Model
tersebut berkinerja baik, memberikan hasil yang baik. Analisis komparatif yang
diberikan di atas menunjukkan metode yang diusulkan memberikan hasil yang lebih
unggul dibandingkan metode RF (tanpa FS). Hal ini menunjukkan bahwa metode ÿ2
dan MI FS yang diusulkan merupakan pendekatan yang sangat berguna untuk FS
yang relevan. Selain itu, analisis komparatif (Tabel 6) menunjukkan potensi
keunggulan model, yang diusulkan dalam penelitian ini, dibandingkan klasifikasi
canggih yang sudah ada.
pendekatan dalam berbagai indeks. Selain itu, ketika membandingkan hasil yang
diusulkan model dengan penelitian yang lebih lama, hasilnya menunjukkan potensi
keunggulan model yang diusulkan atas metode yang sudah ada (digunakan untuk
perbandingan
g. Kesimpulan
Salah satu pendekatan deteksi dini terbaik untuk kanker payudara adalah
klasifikasi berdasarkan gambar mamografi. Ini adalah cara yang paling efisien dan
praktis. Meskipun demikian, yang lemah tingkat prediksi positif biopsi yang timbul
dari pemeriksaan mammogram berkontribusi terhadap biopsi yang tidak perlu untuk
temuan abnormal yang pada akhirnya terbukti jinak dalam banyak kasus. Di dalam
Dalam penelitian ini, model prediktif pengklasifikasi RF dengan FS
diimplementasikan pada kumpulan data nyata berisi evaluasi BI-RADS, usia, dan
tiga fitur BI-RADS lainnya untuk prediksi hasil biopsi kanker dan untuk
meminimalkan prediksi positif palsu. Karena kumpulan data Massa Mammografi
dari repositori UCI berisi nilai yang hilang dan sampelnya kurang memadai untuk
mendiagnosis secara memadai, metode imputasi berbasis KNN untuk penggantian
entri yang hilang digunakan alih-alih menghilangkan nilai-nilai itu. Kinerja
pengklasifikasi dengan dan tanpa fitur yang dipilih telah dievaluasi menggunakan
indeks kinerja yang berbeda, nilai AUC, dan grafik ROC. Perbandingan ini
menegaskan bahwa akurasi prediksi meningkat setelahnya penghapusan atribut
'Kepadatan Massa'. Dengan demikian, metode FS berbasis ÿ2 dan MI membantu
meningkatkan akurasi pengklasifikasi dengan memilih subkumpulan fitur terbaik.
Model ini mencapai akurasi klasifikasi yang lebih baik dibandingkan dengan teknik
lain yang ada saat ini dan banyak pengklasifikasi canggih yang sudah ada. Hasil
eksperimen dan studi komparatif menegaskan bahwa pendekatan yang diusulkan
tentunya merupakan model yang sangat baik dan efektif untuk memprediksi tingkat
keparahan massa payudara menggunakan fitur BI-RADS. Singkatnya, hasil
penelitian menunjukkan bahwa model ini merupakan metode yang menguntungkan,
praktis, dan masuk akal untuk memprediksi hasil biopsi kanker payudara dan
meminimalkan prediksi positif palsu. Model yang diusulkan dapat berfungsi sebagai
alat opini kedua bagi para ahli kesehatan.