Download as pdf or txt
Download as pdf or txt
You are on page 1of 8

Jurnal Teknik dan Sistem Komputer (JTIKOM)

Volume (Sesuaikan Edisi Terbitan)


ISSN: 2723-6382

ANALISIS SENTIMEN TWITTER TERHADAP CAPRES


2024 DENGAN PENDEKATAN TEXT MINING DAN
ALGORITMA NAÏVE BAYES CLASSIFIER
Naufal Yuwan Kanugraha1, Fajar Anggito Abimanyu2
1,2Universitas Internasional Semen Indonesia

Kompleks PT. Semen Indonesia (Persero) Tbk. Jl. Veteran, Kb Dalem, Sidomoro, Kabupaten
Gresik, Jawa Timur
naufal.kanugraha20@student.uisi.ac.id1, fajar.abimanyu20@student.uisi.ac.id2

Abstract

This research applies text mining and the Naïve Bayes Classifier algorithm to
analyze sentiment on Twitter regarding the 2024 presidential candidates. With
the advancement of digital information and the popularity of social media
platforms like Twitter, analyzing public sentiment has become crucial for
understanding public opinions and political dynamics. The study focuses on the
upcoming presidential election in Indonesia and aims to uncover valuable insights
into the public sentiment towards potential candidates. By collecting and
preprocessing 150 tweets related to the candidates, the research performs
sentiment analysis using the Naïve Bayes Classifier algorithm. The evaluation of
the model's performance is based on precision and recall metrics. The results
indicate an overall accuracy of 72%, with the Naïve Bayes Classifier effectively
categorizing tweets as positive or negative sentiments. The analysis of sentiment
offers valuable information for the candidates, campaign teams, and the general
public, aiding in campaign strategy development and understanding public
opinions. The research demonstrates the effectiveness of combining text mining
and the Naïve Bayes Classifier algorithm in analyzing public sentiment on Twitter,
contributing to the fields of politics, social media, and data science.

Keywords: Twitter, Sentimen, Analyst, Classifier, President

Abstrak

Penelitian ini menerapkan teknik text mining dan algoritma Naïve Bayes
Classifier untuk menganalisis sentimen di Twitter terkait calon presiden 2024.
Dengan kemajuan informasi digital dan popularitas platform media sosial seperti
Twitter, menganalisis sentimen publik menjadi penting untuk memahami
pendapat publik dan dinamika politik. Penelitian ini berfokus pada pemilihan
presiden yang akan datang di Indonesia dan bertujuan untuk mengungkap
wawasan berharga mengenai sentimen publik terhadap calon-calon potensial.
Dengan mengumpulkan dan memproses 150 twit terkait calon-calon tersebut,
penelitian ini melakukan analisis sentimen menggunakan algoritma Naïve Bayes
Classifier. Evaluasi kinerja model didasarkan pada metrik presisi dan recall. Hasil
penelitian menunjukkan akurasi keseluruhan sebesar 72%, dengan Naïve Bayes
Classifier secara efektif mengkategorikan twit sebagai sentimen positif atau
negatif. Analisis sentimen memberikan informasi berharga bagi calon-calon, tim
kampanye, dan masyarakat umum, membantu dalam pengembangan strategi
kampanye dan pemahaman pendapat publik. Penelitian ini menunjukkan
efektivitas penggabungan teknik text mining dan algoritma Naïve Bayes

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 1


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

Classifier dalam menganalisis sentimen publik di Twitter, berkontribusi pada


bidang politik, media sosial, dan ilmu data.

Kata kunci: Twitter, Sentimen, Analisis, Capres, Klasifikasi

1. PENDAHULUAN

Dalam era informasi digital yang semakin maju, media sosial telah menjadi platform
penting bagi masyarakat untuk berbagi pendapat, memperoleh informasi, dan
berpartisipasi dalam perdebatan politik. Twitter, sebagai salah satu media sosial yang
populer, menawarkan akses real-time terhadap jutaan percakapan publik. Oleh karena itu,
Twitter telah menjadi sumber data yang berharga untuk menganalisis sentimen publik
terkait berbagai topik, termasuk politik[1].
Pemilihan presiden (Pilpres) adalah salah satu peristiwa politik yang paling penting
dan mempengaruhi kehidupan publik dalam suatu negara. Di Indonesia, pilpres 2024
merupakan perhelatan politik yang dinanti-nantikan, di mana masyarakat akan memilih
calon presiden yang akan memimpin negara selama periode berikutnya. Namun, dalam
menghadapi Pilpres, penting untuk memahami dan menganalisis sentimen publik terkait
calon presiden yang berpotensi mempengaruhi persepsi masyarakat.
Analisis sentimen Twitter merupakan metode yang efektif untuk menggali
informasi tentang pendapat publik terkait suatu topik tertentu. Dalam analisis sentimen
Twitter, teks-teks yang berhubungan dengan topik tertentu dianalisis untuk menentukan
apakah sentimen yang terkandung di dalamnya positif, atau negatif. Dalam Pilpres 2024,
analisis sentimen Twitter dapat membantu untuk memahami dukungan dan pandangan
masyarakat terhadap calon presiden yang berpotensi memenangkan pemilihan.
Dalam penelitian ini, pendekatan text mining dan algoritma Naïve Bayes Classifier
digunakan untuk melakukan analisis sentimen terhadap calon Pilpres 2024 yang dibahas di
Twitter. Teks mining adalah proses penggalian informasi yang menggunakan teknik-teknik
pengolahan bahasa alami (natural language processing) untuk menganalisis dan menggali
makna dari teks. Algoritma Naïve Bayes Classifier adalah salah satu metode klasifikasi yang
populer dalam analisis sentimen, di mana teks-teks yang dianalisis diberi label sentimen
berdasarkan probabilitas kemunculan kata-kata dalam teks.
Penelitian ini diharapkan dapat memberikan wawasan yang berharga mengenai
sentimen publik terhadap calon Pilpres 2024 di Twitter. Hasil analisis sentimen dapat
memberikan gambaran tentang tingkat dukungan, kritik, atau ketidaksetujuan masyarakat
terhadap calon presiden tertentu. Informasi ini dapat berguna bagi calon presiden dan tim
kampanye mereka dalam merancang strategi kampanye yang efektif, serta bagi masyarakat
umum dan peneliti politik untuk memahami dinamika opini publik terkait Pilpres 2024.
Melalui kombinasi text mining dan algoritma Naïve Bayes Classifier, diharapkan
penelitian ini dapat memberikan kontribusi positif dalam memahami sentimen publik dan
meningkatkan pemahaman kita tentang pandangan masyarakat dalam konteks politik.
Dengan demikian, penelitian ini memiliki implikasi yang luas dalam bidang politik, media
sosial, dan ilmu data, serta dapat menjadi dasar untuk pengambilan keputusan yang lebih
baik dalam proses demokrasi yang berlangsung di Indonesia.

2. METODOLOGI PENELITIAN
2.1. Metode Pengumpulan Data
Beberapa metode digunakan dalam teknik pengumpulan data pada penelitian ini,
Metode tersebut meliputi:
1. Observasi
Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 2
Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

Metode observasi yang dilakukan adalah dengan mencari langsung tweet-


tweet terkait calon presiden 2024 pada website dan aplikasi twitter.
2. Data Crawling
Data crawling adalah proses pengambilan data yang bekerja dengan
mengimpor informasi atau data yang telah ditemukan ke dalam file lokal di
komputer. Crawling dilakukan untuk ekstraksi data yang mengacu pada
pengumpulan data dari website Twitter. Proses ini kami lakukan
menggunakan bahasa python pada google colabs dengan kata kunci “pilpres
2024”, “capres 2024”, “presiden 2024”, dan lain-lain.

2.2. Metode Analisa Data


Kami akan menggunakan pendekatan text mining serta menerapkan
algoritma Naïve Bayes Classifier untuk mendapatkan wawasan yang mendalam
mengenai sentimen publik terhadap calon presiden pada aplikasi Twitter. Dalam
subbab ini, kami akan menjelaskan tentang langkah-langkah yang kami lakukan
dalam analisis data, termasuk pengumpulan dan pengolahan data Twitter,
penggunaan teknik text mining, dan penerapan algoritma Naïve Bayes Classifier.
Berikut adalah flow yang kami terapkan:

Gambar 1 Alur Analisa Sentimen

Dibawah ini adalah penjelasan singkat terkait alur analisa sentimen pada gambar 1 :
1. Analisa Data
Setelah memperoleh data dari twitter sebanyak 150 tweet, selanjutnya data
tersebut dibagi menjadi dua yaitu data latih sebanyak 100 tweet dan data uji
sebanyak 50 tweet. dari 150 data latih, kemudian ditentukan nilai
sentimennya secara manual dan dihasilkan 71 tweet sentimen positif dan 79
tweet sentimen negatif.
2. Data Preprocessing
Data processing atau text processing berfungsi untuk mengubah data teks
yang tidak terstruktur atau menjadi data yang terstruktur. Secara umum
proses yang dilakukan dalam tahapan preprocessing adalah normalisasi,
tokenizing, dan stopword removal.
3. Penerapan Algoritma
Naive Bayes adalah metode yang cocok untuk klasifikasi biner
dan multiclass. Metode yang juga dikenal sebagai Naive Bayes Classifier ini
menerapkan teknik supervised klasifikasi objek di masa depan dengan
menetapkan label kelas ke instance/catatan menggunakan probabilitas
bersyarat.
4. Evaluasi Model
Pada evaluasi model kami menggunakan presisi dan recall, ini digunakan
dalam algoritma Naive Bayes Classifier untuk mengukur kinerja model
klasifikasi. Presisi mengukur sejauh mana model memberikan prediksi yang
benar untuk kelas positif, sementara recall mengukur sejauh mana model
berhasil mendeteksi semua data positif yang ada. Keduanya memberikan
informasi yang berbeda tentang kemampuan model dalam
mengklasifikasikan data, dan penting untuk mempertimbangkan

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 3


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

keseimbangan antara presisi dan recall dalam konteks klasifikasi yang


spesifik.

2.3. Metode Naïve Bayes Classifier


Metode Naïve Bayes Classifier secara umum dibagi menjadi beberapa tahap sebagai
berikut :
1. Data uji yang belum diklasifikasi akan melalui tahap preprocessing text.
Tahapan preprocessing text terdiri dari normalisasi, tokenisasi, dan
stopword removal atau filtering.
2. Setelah preprocessing dilakukan, langkah selanjutnya adalah menghitung
frekuensi term pada data tweet.
3. Langkah selanjutnya adalah menghitung Vmap untuk setiap kelas dengan
rumus sebagai berikut:

Dimana 𝑉𝑗 Kategori tweet, j =1,2,….n dalam penelitian ini berarti j1 adalah


tweet sentimen positif dan j2 tweet sentimen negatif. 𝑃(𝑥𝑖|𝑉𝑗 ) adalah
probibilitas pada kategori 𝑉𝑗 . Dan 𝑃(𝑉𝑗 ) adalah probibilitas dari 𝑉𝑗
Kelelas suatu tweet ditentukan dengan nilai Vmap terbesar.
4. Presisi dan Recall:
Dalam algoritma Naive Bayes Classifier, rumus presisi dan recall digunakan
untuk mengukur kinerja model klasifikasi. Mari kita definisikan beberapa
variabel yang digunakan dalam rumus ini:
• TP (True Positive): Jumlah data yang diklasifikasikan dengan benar
sebagai kelas positif.
• FP (False Positive): Jumlah data yang keliru diklasifikasikan sebagai
kelas positif.
• FN (False Negative): Jumlah data yang salah diklasifikasikan sebagai
negatif padahal sebenarnya positif.
Presisi dihitung dengan membagi TP dengan jumlah prediksi positif secara
keseluruhan, seperti yang ditunjukkan oleh rumus berikut:
𝑇𝑃
𝑃𝑟𝑒𝑠𝑖𝑠𝑖 =
𝑇𝑃 + 𝐹𝑃
Rumus di atas memberikan persentase dari data yang diklasifikasikan
dengan benar sebagai kelas positif dari semua data yang diprediksi sebagai
kelas positif. Sementara itu, recall dihitung dengan membagi TP dengan
jumlah data aktual yang memang positif, seperti yang ditunjukkan oleh
rumus berikut:
𝑇𝑃
𝑅𝑒𝑐𝑎𝑙𝑙 =
𝑇𝑃 + 𝐹𝑁
Rumus ini memberikan persentase dari data positif yang berhasil dideteksi
oleh model dari semua data aktual yang positif. Kedua rumus ini
memberikan wawasan yang berbeda tentang kinerja model klasifikasi.
Presisi memberikan informasi tentang seberapa akurat model dalam
mengklasifikasikan data positif, sementara recall memberikan informasi
tentang seberapa baik model dapat menemukan semua data positif yang
ada. Keduanya penting dalam konteks klasifikasi dan dapat digunakan
untuk mengukur kinerja model secara menyeluruh.

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 4


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

3. HASIL DAN PEMBAHASAN


Data tweet diperoleh dari media sosial Twitter berupa tweet bahasa Indonesia
dengan jumlah data 150 tweet. kemudian data akan disimpan ke dalam database dengan
format csv. Dari 150 data tweet tersebut dilabeli menjadi dua, label Positif dan Negatif
secara manual.

Gambar 2 Hasil Tweet

3.1. Text Preprocessing


Langkah selanjutnya yaitu teks Preprocessing, dalam tahap ini dilakukan tokenisasi
yaitu pemecahan teks menjadi token. Kemudian, teks dibersihkan dari karakter atau elemen
tidak relevan dalam tahap cleaning text. Stopword removal dilakukan untuk menghilangkan
kata-kata umum yang tidak memberikan kontribusi signifikan. Selanjutnya, case folding
dilakukan dengan mengubah semua karakter menjadi huruf kecil untuk menghindari
perbedaan yang tidak perlu. Terakhir, stemming dilakukan untuk mengubah kata-kata
menjadi bentuk dasar mereka. Dengan mengikuti tahapan-tahapan ini, teks preprocessing
memastikan data teks lebih terstruktur dan siap untuk analisis atau pemodelan. Berikut
adalah hasil dari preprocessing data:

Gambar 3 Hasil Preprocesing

Pada gambar 3 diatas kami menunjukkan hasil preprocessing data pada tweet yang telah
kami kumpulkan, tabel diatas menunjukkan label positif atau negatif, data tweet, hasil
tokensisasi, hasil stopword, dan hasil stemming.

3.2 Visualisasi Data


Pada subbab ini adalah tahap yang menampilkan data kata – kata (term) yang paling sering
muncul pada tweet. Visualisasi yang kami gunakan adalah wordcloud[2].

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 5


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

Gambar 4 Visualisasi Data Wordcloud

Pada gambar 4 diatas, dapat dilihat bahwa 5 kata yang paling muncul adalah “Ganjar”,
“Anies”, “Jokowi”, “Capres” dan “Presiden”.

3.3. Pemodelan dan Hasil

Pada Pemodelan data menggunakan algoritma Naïve Bayes classifier, dari 150 data, 100 data
digunakan sebagai data latih dan 50 data sebagai data uji.
Berdasarkan hasil yang diperoleh, performa dari metode yang digunakan dalam
penelitian ini dapat dilihat dari nilai precision, recall, dan f1-score. Hasil dari dari pemodelan
dapat dilihat pada gambar 5 dibawah ini.

Gambar 5 Hasil Presisi dan Recall

Kategori -1 merepresentasikan sentimen negatif, sedangkan 1 merepresentasikan


sentimen positif. Precision untuk sentimen negatif hampir sempurna yaitu (0.90), artinya
semua tweet yang diprediksi sebagai negatif memang negatif. Namun, nilai recallnya rendah
(0.41), artinya dari semua tweet yang sebenarnya negatif, hanya 41% yang berhasil
dideteksi. Hal ini menghasilkan nilai f1-score sebesar 0.56.
Untuk sentimen positif, precisionnya adalah 0.68 yang berarti 68% dari tweet yang
diprediksi sebagai positif memang positif. Nilai recallnya adalah 0.96 yang berarti hampir
semua tweet yang sebenarnya positif berhasil dideteksi. Hal ini menghasilkan nilai f1-score
sebesar 0.79.
Akurasi keseluruhan dari model ini adalah 0.72, artinya model dapat memprediksi
sentimen tweet dengan akurat sekitar 72% dari waktu. Rata-rata nilai precision, recall, dan
f1-score (macro avg) untuk kedua kategori adalah 0.79, 0.69, dan 0.68. Jika dilihat dari bobot
jumlah data setiap kategori (weighted avg), rata-rata nilai precision, recall, dan f1-score
adalah 0.77, 0.72, dan 0.69.

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 6


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

Dari hasil di atas, terlihat bahwa model ini memiliki performa yang kurang optimal
dalam mengklasifikasikan tweet dengan sentimen negatif (-1). Hal ini mungkin disebabkan
oleh jumlah sampel yang tidak seimbang antara tweet negatif dan positif dalam dataset, atau
juga bisa disebabkan oleh fitur yang digunakan dalam proses klasifikasi yang tidak mampu
membedakan dengan baik antara sentimen negatif dan positif.
Meski demikian, model ini mampu dengan baik dalam mengidentifikasi dan
mengklasifikasikan tweet dengan sentimen positif (1). Mungkin ini disebabkan oleh fitur
yang relevan dan informatif dalam tweet positif yang memudahkan model dalam
melakukan klasifikasi.
Oleh karena itu, penelitian lebih lanjut perlu dilakukan untuk meningkatkan kinerja
model, terutama dalam mengklasifikasikan sentimen negatif. Hal ini bisa mencakup teknik-
teknik seperti penyeimbangan dataset, pemilihan fitur yang lebih baik, atau penggunaan
model klasifikasi yang lebih kompleks.

4. SIMPULAN
Dari penelitian kami diatas, dapat disimpulkan beberapa hal berikut:
1. Dalam penelitian ini, dilakukan analisis sentimen terhadap 150 data tweet
terkait Capres 2024 menggunakan Text Mining dan Naïve Bayes Classifier.
Hasilnya menunjukkan model memiliki akurasi sebesar 72%.
2. Dengan hasil akurasi yang cukup tinggi yaitu 72% maka metode Naive
Bayes Classifier cukup efektif dalam melakukan klasifikasi data tweet
dengan sentimen negatif dan positif secara otomatis[2].
3. Analisa sentimen terbukti dapat digunakan dalam hal mengetahui
sentimen rakyat Indonesia khusunya pengguna Twitter terhadap para
calon presiden ditahun 2024, sehingga dapat membantu masyarakat awam
yan ingin mengetahui sentimen masyarakat Indonesia terhadap calon
presiden Indonesia[2].

DAFTAR PUSTAKA
[1] Buntoro, G. A. (2017). Analisis Sentimen Calon Gubernur DKI Jakarta 2017 Di
Twitter.
[2] Mahbubah, E. Z. (2019). ANALISA SENTIMEN TWITTER PADA PILPRES 2019
MENGGUNAKAN.
[3] Manalu, B. U. (2014). ANALISIS SENTIMEN PADA TWITTER MENGGUNAKAN TEXT
MINING.
[4] Sudiantoro, A. V., & Zuliarso, E. (2018). ANALISIS SENTIMEN TWITTER
MENGGUNAKAN TEXT MINING DENGAN.

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 7


Jurnal Teknik dan Sistem Komputer (JTIKOM)
Volume (Sesuaikan Edisi Terbitan)
ISSN: 2723-6382

Bukti Upload Jurnal Pada Webiste JTIKOM:

Analisa Sentimen Twitter Terhadap Capres … (Naufal Yuwan Kanugraha) | Halaman 8

You might also like