Universitas Gadjah Mada Cloud Experience Research Group
Department of Electrical Engineering & Information Technology
Faculty of Engineering Universitas Gadjah Mada
  • Beranda
  • Articles
  • Dataset bahasa Indonesia untuk Analisis Sentimen

Dataset bahasa Indonesia untuk Analisis Sentimen

  • Articles
  • 8 July 2019, 13.33
  • Oleh:
  • 0

Data is Everything and Everything is Data

Pada zaman digital sekarang data menjadi salah satu hal terpenting yang mendorong perkembangan teknologi, terlebih lagi teknologi kecerdasan buatan. Dalam pembangunan sebuah sistem kecerdasan buatan (terutama machine learning), data dalam jumlah besar (dataset) dibutuhkan untuk digunakan pada proses pelatihan sistem tersebut. Sebenarnya sudah banyak dataset yang tersedia dari luar negeri untuk digunakan dalam pelatihan model kecerdasan buatan, namun hal ini sedikit bermasalah pada sistem kecerdasan buatan yang membutuhkan data teks. Pada sistem ini, data teks yang digunakan harus sesuai dengan bahasa sistemnya, contohnya dalam pembuatan sistem kecerdasan buatan berbahasa Indonesia, dibutuhkan pula data teks yang berbahasa Indonesia.

Memperkenalkan Dataset bahasa Indonesia

Pada kesempatan ini, kami menyajikan sebuah dataset teks berbahasa Indonesia yang disesuaikan untuk pembangunan sistem analisis sentimen. Dataset ini dikumpulkan melalui media sosial twitter dan mengandung 10.806 baris data berupa tweet bahasa Indonesia yang dikategorikan kedalam tiga polaritas yaitu positif, negatif, dan netral.

Pengujian Data

Untuk Memastikan bahwa data yang disediakan benar-benar sesuai untuk digunakan dalam proses pelatihan analisis sentimen. Data kami (data primer) akan dibandingkan dengan dataset SemEval-2018 (data sekunder) yang merupakan dataset dari konferensi Semantic Evaluation dari segi akurasi setelah digunakan untuk pelatihan model.

Berdasarkan pengujian yang dilakukan, terlihat bahwa dataset bahasa Indonesia yang disediakan memiliki nilai akurasi yang hampir sama dengan data pembanding dan dengan demikian, disimpulkan bahwa dataset ini sesuai untuk digunakan dalam proses pelatihan analisis sentimen berbahasa Indonesia.

Masa Depan Dataset

Kedepanya, penulis berharap untuk dapat tetap memperbaharui dataset bahasa Indonesia ini  antara lain dengan :

  • Meningkatkan jumlah data pada dataset dengan menambahkan tweet-tweet baru kedalam dataset.
  • Meningkatkan kualitas data pada dataset dengan cara melakukan penyaringan yang lebih intensif dari tweet–tweet yang diambil.
  • Menambahkan kategori emosi yang lebih spesifik pada dataset, misalnya senang, sedih, marah, dan lain-lain.
Tags: capstone Dataset ECHA Twitter

Recent Posts

  • Paper Publikasi Cloud Experience – Update Juli 2025
    August 4, 2025
  • Tips Menyusun Perumusan Masalah Yang Benar di Bidang Teknik
    January 27, 2025
  • Software Engineering Research Roadmap for 2025
    December 27, 2024
Universitas Gadjah Mada

CLOUD EXPERIENCE RESEARCH GROUP

Department of Electrical Engineering & Information Technology

Faculty of Engineering 

Universitas Gadjah Mada

 

Jl. Grafika No.2 Sinduadi, Mlati, Sleman

Daerah Istimewa Yogyakarta 55281, Indonesia

+ 62 123 456 789

cloudex@yeah.com

Recent Posts

  • Paper Publikasi Cloud Experience – Update Juli 2025
  • Tips Menyusun Perumusan Masalah Yang Benar di Bidang Teknik
  • Software Engineering Research Roadmap for 2025
  • Deteksi Pornografi dengan Gelombang Otak

© Universitas Gadjah Mada

KEBIJAKAN PRIVASI/PRIVACY POLICY