Muhammad A. G. Fausta, Bagus Rakadyanto O.P., Qornain Aji, dan Axel Xaverius, berhasil meraih Juara 1 pada kompetisi Data Analysis Competition Informatics Festival Universitas Padjadjaran 2023. Empat mahasiswa dari program studi Teknologi Informasi tahun 2021 ini, mengajukan karya berjudul “Model Ensemble Weighted averaging IndoBERT dan IndoRoBERTa pada Emotion classification Data Twitter Indonesia”.
Media sosial adalah platform pergaulan daring yang semakin populer. Berdasarkan riset dari Wearesosial Hootsuite pada Januari 2020, pengguna media sosial di Indonesia mencapai 160 juta dari total populasi 272,1 juta. Jumlah pengguna media sosial jenis mobile adalah sebanyak 338,2 juta. Salah satu platform yang mengalami pertumbuhan pengguna tercepat adalah Twitter.
Twitter sering digunakan sebagai tempat berbagi pikiran dan curahan hati. Namun, Twitter juga merupakan ruang publik yang terbuka, diakses oleh banyak orang. Ini berarti kegiatan individu dapat diketahui oleh siapa pun, memungkinkan pembacaan emosi dari tulisan pengguna Twitter. Emosi adalah kondisi pikiran yang tercermin dalam gejala mental, fisik, dan perilaku seseorang. Di sisi lain, raut wajah dan ekspresi langsung dapat membantu dalam mengetahui emosi seseorang.
Kemampuan mendeteksi emosi secara otomatis memiliki banyak aplikasi, termasuk dalam lingkungan pendidikan smart e-learning. Analisis emosi dalam data media sosial, seperti Twitter, bermanfaat bagi pemerintah untuk memantau respons publik terhadap kebijakan atau peristiwa politik. Perusahaan juga dapat menggunakan analisis emosi dalam data media sosial untuk memantau tanggapan masyarakat terhadap layanan atau produk, membantu dalam menentukan target pasar.
Analisis emosi cuitan pada media sosial, khususnya Twitter, dapat memberikan manfaat yang luas bagi berbagai pihak. Oleh karena itu, pengembangan model klasifikasi emosi menjadi hal yang menarik untuk menganalisis dan menentukan emosi yang tercermin dalam cuitan pengguna Twitter.
Karya Fausta dkk. mengusulkan kombinasi antara model berbasis BERT dan RoBERTa untuk mengklasifikasikan emosi pada cuitan pengguna Twitter. Model BERT adalah model representasi bahasa yang dirancang untuk melatih representasi dua arah dari teks yang belum diberi label dengan menggabungkan kondisi dari konteks bagian kiri dan kanan dalam semua lapisan. Sebagai hasilnya model BERT pra-pelatihan dapat disempurnakan hanya dengan satu lapisan luaran tambahan untuk membuat model terkemuka untuk berbagai macam tugas, seperti menjawab pertanyaan dan menyimpulkan kalimat.
RoBERTa merupakan model hasil dari studi replikasi dari pelatihan BERT yang dikembangkan oleh Facebook AI dan University of Washington pada tahun 2019. Studi tersebut secara cermat mengukur berbagai parameter dari model BERT sebelumnya dan ditemukan bahwa model BERT masih kurang optimal dalam pelatihannya. Dengan menggunakan pendekatan robust, RoBERTa mampu mencocokkan atau bahkan dapat melampaui performa dari model BERT. Selanjutnya, hal yang diajukan pada karya ini membangun suatu model Ensemble dengan metode weighted averaging pada probabilitas yang dihasilkan kedua model ini. Didapatkan bahwa hasil model Ensemble ini jauh lebih baik dibandingkan BERT atau RoBERTa yang berdiri sendiri ataupun dengan metode feature extraction yang diklasifikasikan dengan machine learning tradisional.
Fausta dkk berharap riset yang dilakukan dapat bermanfaat, dan juga memacu mahasiswa lain untuk semakin berprestasi. (M. Fausta/Review: Purwoko)