Data is Everything and Everything is Data

Pada zaman digital sekarang data menjadi salah satu hal terpenting yang mendorong perkembangan teknologi, terlebih lagi teknologi kecerdasan buatan. Dalam pembangunan sebuah sistem kecerdasan buatan (terutama machine learning), data dalam jumlah besar (dataset) dibutuhkan untuk digunakan pada proses pelatihan sistem tersebut. Sebenarnya sudah banyak dataset yang tersedia dari luar negeri untuk digunakan dalam pelatihan model kecerdasan buatan, namun hal ini sedikit bermasalah pada sistem kecerdasan buatan yang membutuhkan data teks. Pada sistem ini, data teks yang digunakan harus sesuai dengan bahasa sistemnya, contohnya dalam pembuatan sistem kecerdasan buatan berbahasa Indonesia, dibutuhkan pula data teks yang berbahasa Indonesia.

Memperkenalkan Dataset bahasa Indonesia

Pada kesempatan ini, kami menyajikan sebuah dataset teks berbahasa Indonesia yang disesuaikan untuk pembangunan sistem analisis sentimen. Dataset ini dikumpulkan melalui media sosial twitter dan mengandung 10.806 baris data berupa tweet bahasa Indonesia yang dikategorikan kedalam tiga polaritas yaitu positif, negatif, dan netral.

Pengujian Data

Untuk Memastikan bahwa data yang disediakan benar-benar sesuai untuk digunakan dalam proses pelatihan analisis sentimen. Data kami (data primer) akan dibandingkan dengan dataset SemEval-2018 (data sekunder) yang merupakan dataset dari konferensi Semantic Evaluation dari segi akurasi setelah digunakan untuk pelatihan model.

Berdasarkan pengujian yang dilakukan, terlihat bahwa dataset bahasa Indonesia yang disediakan memiliki nilai akurasi yang hampir sama dengan data pembanding dan dengan demikian, disimpulkan bahwa dataset ini sesuai untuk digunakan dalam proses pelatihan analisis sentimen berbahasa Indonesia.

Masa Depan Dataset

Kedepanya, penulis berharap untuk dapat tetap memperbaharui dataset bahasa Indonesia ini antara lain dengan :

Meningkatkan jumlah data pada dataset dengan menambahkan tweet-tweet baru kedalam dataset.
Meningkatkan kualitas data pada dataset dengan cara melakukan penyaringan yang lebih intensif dari tweet–tweet yang diambil.
Menambahkan kategori emosi yang lebih spesifik pada dataset, misalnya senang, sedih, marah, dan lain-lain.

Pajak dimata Peneliti

Setiap warga negara yang berkomitmen memajukan negara, pasti patuh dan mentaati aturan negera termasuk didalamnya membayar pajak. Setiap peneliti yang terlibat hibah memiliki kewajiban untuk membayar pajak. Sayangnya tidak semua peneliti memiliki pemahaman yang mencukupi mengenai pajak. Beberapa peneliti juga tidak memiliki waktu untuk melakukan penyusunan laporan pajak dikarenakan kepadatannya dalam meneliti. Pada penelitian yang berdana besar maka peneliti dapat melibatkan akuntan untuk menyusun laporan pajak. Tetapi pada penelitian yang berdana kecil atau tidak diizinkan untuk melibatkan atau menggunakan dana untuk honor maka mau tidak mau peneliti melakukan penyusunan laporan pajak secara mandiri. Pada tahap ini tidak menutup resiko bahwa terjadi kesalahan laporan pajak peneliti akibat 1) keterbatasan pemahaman peneliti 2) ketidaktelitian dalam penyusunan laporan akibat terbatasnya waktu menyusun laporan non penelitian 3) keterbatasan pendidikan perpajakan (tax literature) bagi peneliti. Sebagai solusinya lahirlah aplikasi otomasi perpajakan untuk penelitian. Harapannya aplikasi web ini akan membantu para peneliti untuk dapat disiplin dalam melakukan pelaporan penelitian yang terkait dengan perpajakan dan mengurangi beban peneliti dalam menyusun laporan pajak secara manual. read more

Dataset bahasa Indonesia untuk Analisis Sentimen