Download as docx, pdf, or txt
Download as docx, pdf, or txt
You are on page 1of 2

Review σ² = Σ (x_i - μ)² * f_i

Atribut Kategorikal dalam Data Mining  Dimana:


Atribut kategorikal memiliki nilai simbolis, yang o μ: rata-rata
berarti Anda tidak dapat melakukan operasi o σ²: varians
aritmatika secara langsung. Namun, Anda dapat o x_i: nilai ke-i
menghitung frekuensi dari nilai-nilai ini dan
menggunakannya untuk menganalisis atribut. 3. Analisis Multivariat
Salah satu cara untuk menganalisis
Analisis multivariat digunakan untuk
atribut kategorikal adalah dengan menggunakan
menganalisis hubungan antar atribut kategorial.
analisis univariat. Hal ini melibatkan melihat
distribusi nilai untuk satu atribut. Cara lain
3.1 Tabel Kontingensi
untuk menganalisis atribut kategorikal adalah
dengan menggunakan analisis multivariat. Hal
 Menunjukkan hubungan antar dua atribut
ini melibatkan melihat hubungan antara dua atau kategorial.
lebih atribut.  Contoh:
Explain
1. Pengertian Atribut Kategorial Atribut A | Atribut B | Frekuensi
------- | -------- | --------
Atribut kategorial adalah atribut yang memiliki A1 | B1 | n_11
nilai simbolik, bukan numerik. Contohnya jenis A1 | B2 | n_12
kelamin (laki-laki, perempuan), warna (merah, ... | ... | ...
biru, hijau), dan status pernikahan (menikah,
belum menikah). 3.2 Uji Asosiasi

2. Analisis Univariat  Digunakan untuk menguji apakah terdapat


hubungan yang signifikan antara dua atribut
Analisis univariat dilakukan untuk menganalisis kategorial.
satu atribut kategorial pada satu waktu.  Uji yang umum digunakan:
o Uji Chi-square
2.1 Distribusi Frekuensi o Uji Fisher's Exact

 Menunjukkan jumlah data untuk setiap nilai Kesimpulan:


atribut.
 Dirumuskan dengan: Atribut kategorial penting dalam data mining.
f_i = n_i / n Berbagai metode analisis tersedia untuk
memahami distribusi dan hubungan antar atribut
 Dimana: kategorial.
o f_i: frekuensi nilai ke-i
o n_i: jumlah data dengan nilai ke-i Catatan:
o n: total data
 Materi ini hanya ringkasan. Untuk penjelasan
2.2 Rata-rata dan Varians lebih detail, silakan merujuk ke sumber materi
asli.
 Rata-rata (mean):  Rumus yang disajikan hanya contoh. Rumus
μ = Σ x_i * f_i yang digunakan mungkin berbeda tergantung
pada metode analisis yang dipilih.
 Varians:
Sumber Materi: Bernoulli multivariat dengan 3 nilai (misalnya
(1, 0, 0), (0, 1, 0), (0, 0, 1)).
 Data Mining: Concepts and Techniques by
Jiawei Han and Micheline Kamber Representasi Vektor:
 Introduction to Data Mining by Pang-Ning Tan,
Michael Steinbach, and Vipin Kumar  Setiap nilai variabel Bernoulli multivariat
direpresentasikan sebagai vektor "one-hot".
 Definisi atribut kategorial: Atribut yang  Dalam vektor one-hot, hanya satu elemen
memiliki nilai simbolik, bukan numerik. bernilai 1 (menunjukkan kategori
 Contoh atribut kategorial: Jenis dipilih), sisanya 0.
kelamin, warna, status pernikahan.  Contoh: (1, 0, 0) mewakili kategori
 Analisis univariat: Analisis untuk satu atribut pertama, (0, 1, 0) mewakili kategori kedua, dan
kategorial. seterusnya.
 Distribusi frekuensi: Jumlah data untuk setiap
nilai atribut.

Rumus yang Ditampilkan:

 Rumus distribusi frekuensi:


f_i = n_i / n

 Dimana:
o f_i: frekuensi nilai ke-i
o n_i: jumlah data dengan nilai ke-i
o n: total data

Variabel Bernoulli Multivariat:

Konsep Utama:

 Variabel Bernoulli: Variabel acak dengan dua


nilai (biasanya 0 dan 1), mewakili keberhasilan
atau kegagalan.
 Atribut Kategori: Atribut dengan nilai
simbolik, bukan numerik (misalnya jenis
kelamin, warna).
 Variabel Bernoulli Multivariat: Generalisasi dari
variabel Bernoulli, dapat memiliki lebih dari dua
nilai (sesuai dengan jumlah kategori dalam
atribut).

Ekstensi dari Variabel Bernoulli Biasa:

 Variabel Bernoulli biasa memiliki dua nilai


(misalnya 0 dan 1).
 Variabel Bernoulli multivariat dapat memiliki
lebih dari dua nilai, sesuai dengan jumlah
kategori dalam atribut yang dimodelkan.
 Contoh: Atribut dengan 3 kategori (misalnya
merah, hijau, biru), diwakili oleh variabel

You might also like