The document discusses categorical attributes in data mining. Categorical attributes have symbolic values rather than numeric values. Analysis of categorical attributes can be done through univariate and multivariate analysis. Univariate analysis looks at the distribution of values for one attribute, such as frequency distribution. Multivariate analysis examines relationships between two or more attributes, using techniques like contingency tables and association tests.
Original Description:
Review buku capter 3. data mining and machine learning
The document discusses categorical attributes in data mining. Categorical attributes have symbolic values rather than numeric values. Analysis of categorical attributes can be done through univariate and multivariate analysis. Univariate analysis looks at the distribution of values for one attribute, such as frequency distribution. Multivariate analysis examines relationships between two or more attributes, using techniques like contingency tables and association tests.
The document discusses categorical attributes in data mining. Categorical attributes have symbolic values rather than numeric values. Analysis of categorical attributes can be done through univariate and multivariate analysis. Univariate analysis looks at the distribution of values for one attribute, such as frequency distribution. Multivariate analysis examines relationships between two or more attributes, using techniques like contingency tables and association tests.
Atribut kategorikal memiliki nilai simbolis, yang o μ: rata-rata berarti Anda tidak dapat melakukan operasi o σ²: varians aritmatika secara langsung. Namun, Anda dapat o x_i: nilai ke-i menghitung frekuensi dari nilai-nilai ini dan menggunakannya untuk menganalisis atribut. 3. Analisis Multivariat Salah satu cara untuk menganalisis Analisis multivariat digunakan untuk atribut kategorikal adalah dengan menggunakan menganalisis hubungan antar atribut kategorial. analisis univariat. Hal ini melibatkan melihat distribusi nilai untuk satu atribut. Cara lain 3.1 Tabel Kontingensi untuk menganalisis atribut kategorikal adalah dengan menggunakan analisis multivariat. Hal Menunjukkan hubungan antar dua atribut ini melibatkan melihat hubungan antara dua atau kategorial. lebih atribut. Contoh: Explain 1. Pengertian Atribut Kategorial Atribut A | Atribut B | Frekuensi ------- | -------- | -------- Atribut kategorial adalah atribut yang memiliki A1 | B1 | n_11 nilai simbolik, bukan numerik. Contohnya jenis A1 | B2 | n_12 kelamin (laki-laki, perempuan), warna (merah, ... | ... | ... biru, hijau), dan status pernikahan (menikah, belum menikah). 3.2 Uji Asosiasi
2. Analisis Univariat Digunakan untuk menguji apakah terdapat
hubungan yang signifikan antara dua atribut Analisis univariat dilakukan untuk menganalisis kategorial. satu atribut kategorial pada satu waktu. Uji yang umum digunakan: o Uji Chi-square 2.1 Distribusi Frekuensi o Uji Fisher's Exact
Menunjukkan jumlah data untuk setiap nilai Kesimpulan:
atribut. Dirumuskan dengan: Atribut kategorial penting dalam data mining. f_i = n_i / n Berbagai metode analisis tersedia untuk memahami distribusi dan hubungan antar atribut Dimana: kategorial. o f_i: frekuensi nilai ke-i o n_i: jumlah data dengan nilai ke-i Catatan: o n: total data Materi ini hanya ringkasan. Untuk penjelasan 2.2 Rata-rata dan Varians lebih detail, silakan merujuk ke sumber materi asli. Rata-rata (mean): Rumus yang disajikan hanya contoh. Rumus μ = Σ x_i * f_i yang digunakan mungkin berbeda tergantung pada metode analisis yang dipilih. Varians: Sumber Materi: Bernoulli multivariat dengan 3 nilai (misalnya (1, 0, 0), (0, 1, 0), (0, 0, 1)). Data Mining: Concepts and Techniques by Jiawei Han and Micheline Kamber Representasi Vektor: Introduction to Data Mining by Pang-Ning Tan, Michael Steinbach, and Vipin Kumar Setiap nilai variabel Bernoulli multivariat direpresentasikan sebagai vektor "one-hot". Definisi atribut kategorial: Atribut yang Dalam vektor one-hot, hanya satu elemen memiliki nilai simbolik, bukan numerik. bernilai 1 (menunjukkan kategori Contoh atribut kategorial: Jenis dipilih), sisanya 0. kelamin, warna, status pernikahan. Contoh: (1, 0, 0) mewakili kategori Analisis univariat: Analisis untuk satu atribut pertama, (0, 1, 0) mewakili kategori kedua, dan kategorial. seterusnya. Distribusi frekuensi: Jumlah data untuk setiap nilai atribut.
Rumus yang Ditampilkan:
Rumus distribusi frekuensi:
f_i = n_i / n
Dimana: o f_i: frekuensi nilai ke-i o n_i: jumlah data dengan nilai ke-i o n: total data
Variabel Bernoulli Multivariat:
Konsep Utama:
Variabel Bernoulli: Variabel acak dengan dua
nilai (biasanya 0 dan 1), mewakili keberhasilan atau kegagalan. Atribut Kategori: Atribut dengan nilai simbolik, bukan numerik (misalnya jenis kelamin, warna). Variabel Bernoulli Multivariat: Generalisasi dari variabel Bernoulli, dapat memiliki lebih dari dua nilai (sesuai dengan jumlah kategori dalam atribut).
Ekstensi dari Variabel Bernoulli Biasa:
Variabel Bernoulli biasa memiliki dua nilai
(misalnya 0 dan 1). Variabel Bernoulli multivariat dapat memiliki lebih dari dua nilai, sesuai dengan jumlah kategori dalam atribut yang dimodelkan. Contoh: Atribut dengan 3 kategori (misalnya merah, hijau, biru), diwakili oleh variabel