Dataset bahasa Indonesia untuk Analisis Sentimen

Articles
8 July 2019, 13.33
By :

Data is Everything and Everything is Data

Pada zaman digital sekarang data menjadi salah satu hal terpenting yang mendorong perkembangan teknologi, terlebih lagi teknologi kecerdasan buatan. Dalam pembangunan sebuah sistem kecerdasan buatan (terutama machine learning), data dalam jumlah besar (dataset) dibutuhkan untuk digunakan pada proses pelatihan sistem tersebut. Sebenarnya sudah banyak dataset yang tersedia dari luar negeri untuk digunakan dalam pelatihan model kecerdasan buatan, namun hal ini sedikit bermasalah pada sistem kecerdasan buatan yang membutuhkan data teks. Pada sistem ini, data teks yang digunakan harus sesuai dengan bahasa sistemnya, contohnya dalam pembuatan sistem kecerdasan buatan berbahasa Indonesia, dibutuhkan pula data teks yang berbahasa Indonesia.

Memperkenalkan Dataset bahasa Indonesia

Pada kesempatan ini, kami menyajikan sebuah dataset teks berbahasa Indonesia yang disesuaikan untuk pembangunan sistem analisis sentimen. Dataset ini dikumpulkan melalui media sosial twitter dan mengandung 10.806 baris data berupa tweet bahasa Indonesia yang dikategorikan kedalam tiga polaritas yaitu positif, negatif, dan netral.

Pengujian Data

Untuk Memastikan bahwa data yang disediakan benar-benar sesuai untuk digunakan dalam proses pelatihan analisis sentimen. Data kami (data primer) akan dibandingkan dengan dataset SemEval-2018 (data sekunder) yang merupakan dataset dari konferensi Semantic Evaluation dari segi akurasi setelah digunakan untuk pelatihan model.

Berdasarkan pengujian yang dilakukan, terlihat bahwa dataset bahasa Indonesia yang disediakan memiliki nilai akurasi yang hampir sama dengan data pembanding dan dengan demikian, disimpulkan bahwa dataset ini sesuai untuk digunakan dalam proses pelatihan analisis sentimen berbahasa Indonesia.

Masa Depan Dataset

Kedepanya, penulis berharap untuk dapat tetap memperbaharui dataset bahasa Indonesia ini antara lain dengan :

Meningkatkan jumlah data pada dataset dengan menambahkan tweet-tweet baru kedalam dataset.
Meningkatkan kualitas data pada dataset dengan cara melakukan penyaringan yang lebih intensif dari tweet–tweet yang diambil.
Menambahkan kategori emosi yang lebih spesifik pada dataset, misalnya senang, sedih, marah, dan lain-lain.

Pengembangan Aplikasi Requirement Change Management dengan Proses Bisnis dan Tata Kelola Berbasis Web dengan PERN Stack

Articles Thursday, 22 September 2022

Dalam suatu proses pengembangan perangkat lunak, seorang product owner memiliki peran utama untuk mencapai suatu keberhasilan dalam timnya dengan mendefinisikan requirement, mengatur prioritas pengembangan, kualitas hingga keberhasilan pengembangannya.

Perancangan Pengalaman Pengguna, Arsitektur dan Implementasi Frontend-Backend Sistem Manager Berbasis SCORM untuk Mendukung Penyusunan Konten E-Learning

Articles Friday, 2 September 2022

Ketika pandemi Covid-19 berada di skala tertinggi, mendorong kebutuhan penggunaan e-learning menjadi meningkat dari sebelumnya bahkan menjadi hal yang semakin signifikan untuk dilakukan.

Model Penilaian Triangulasi untuk Proyek Capstone dalam Rekayasa Perangkat Lunak

Articles Sunday, 8 November 2020

Mengupas Tuntas Pengukuran Penilaian

Proyek capstone didefinisikan sebagai kegiatan kumulatif untuk menutup pengalaman dunia nyata kepada mahasiswa. Proyek capstone diperlukan untuk menunjukkan peluang di industri yang tidak tersedia dalam kurikulum.

Adopsi MOOC untuk Meningkatkan Keterampilan Desain Rekayasa dalam Proyek Capstone

Articles Sunday, 1 November 2020

Sebuah Perkenalan dalam Meningkatkan Ketrampilan

Salah satu upaya untuk meningkatkan kualitas pendidikan Teknik adalah dengan menerapkan Outcome-based Education(OBE). OBE menekankan bagaimana setiap proses pendidikan menghasilkan hasil yang dapat membantu siswa mencapai kompetensi yang tercantum dalam hasil siswa .