KOMBINASI NAÏVE BAYES DAN CHI-SQUARE UNTUK IDENTIFIKASI SMS PENIPUAN
Keywords:
naive bayes, TF-IDF, Chi-Square, Klasifikasi, SMS PenipuanAbstract
Ancaman kejahatan siber seperti SMS penipuan telah menjadi masalah serius yang berpotensi mengakibatkan kerugian finansial dan pencurian data pribadi. Penelitian ini bertujuan untuk merancang dan membangun sebuah sistem deteksi yang efektif guna mengklasifikasikan SMS penipuan secara akurat dengan memanfaatkan pendekatan machine learning (ML). Pendekatan yang digunakan adalah penerapan algoritma
klasifikasi Naïve Bayes, sebuah metode probabilistik yang dikenal efisien untuk analisis teks. Proses penelitian diawali dengan pengumpulan dataset SMS yang relevan, diikuti oleh tahap pra-pemrosesan data yang komprehensif, mencakup case folding untuk menyeragamkan teks, normalisasi untuk standardisasi kata,stopwords removal untuk eliminasi kata-kata umum, serta stemming untuk mengubah kata ke bentuk dasarnya. Selanjutnya, fitur-fitur teks diekstraksi dan dibobot menggunakan metode Term Frequency-Inverse Document Frequency (TF-IDF), dan fitur yang paling signifikan diseleksi menggunakan Chi -Square untuk meningkatkan fokus model. Hasil pengujian dan evaluasi, yang didasarkan pada confusion matrix,menunjukkan performa model yang sangat baik, dengan keberhasilan mencapai tingkat akurasi sebesar 93%.
Lebih lanjut, model ini juga menunjukkan keseimbangan yang kuat antara presisi (93%), recall (93%), dan F1-Score (93%). Capaian ini menegaskan bahwa model Naïve Bayes merupakan solusi yang andal dan valid untuk mengembangkan sistem perlindungan pengguna yang efektif terhadap ancaman SMS penipuan.
References
Rosmayati. (Nov 2023). Kominfo: Ada 958 kasus penipuan berkedok sms. Bloomberg Technoz.https://www.bloombergtechnoz.com/detail-news/21101/kominfo-ada-958-kasus-penipuan-berkedoksms.
Sofyan, M. A., Rahaningsih, N., & Dana, R. D. (2024). Deteksi sms spam berbahasa Indonesia menggunakan algoritma support vector machine. JATI: Jurnal Mahasiswa Teknik Informatika, 8(3),3071-3079.
Rosyidi, M. I. U., & Rochmawati, N. (2024). Implementasi ensemble learning adaboost pada algoritma klasifikasi decision tree dan svm untuk klasifikasi sms berbahasa Indonesia. JIEET: Journal of Information Engineering and Educational Technology, 8(1), 7-13.
Alvares, J., & Saputro, U. A. (2023). Klasifikasi short message service spam menggunakan algoritma naïve bayes classifier. Smart Comp: Jurnalnya Orang Pintar Komputer, 12(4), 885-893.
Liliana, L., Hartono, H., & Bernanda, D. Y. (2020). Integrasi data mining dan online analytical processing (olap) pada data performa siswa. Jurnal Sisfokom: Sistem Informasi dan Komputer, 9(3), 400-406.
Maryoosh, A. A., & Hussein, E. M. (2022). A review: Data mining techniques and its applications. International Journal of Computer Science and Mobile Applications, 10(3), 1-14.
Darmawan, I. P. E., Djuri, P. A., & Rhamadhani, R. F. (2024). Implementasi artificial intelligence dalam
dunia auditing: sebuah peluang atau tantangan baru. JAIM: Jurnal Akuntansi Manado, 5(3), 675-683.
Rajeswari, P., Sathishkumar, V. E., Anilkumar, C., Thilakaveni, P., & Moorthy, U. (2023). Big data analytics and implementation challenges of machine learning in big data. Applied and Computational Engineering, 233-238.
Wahid, A., Baharulloh, M., Kahfiansyah, R., Abrilianto, T., Saifudin, A., & Mulyati, S. (2021). Identifikasi sms spam menggunakan metode naive bayes. Jurnal Informatika Universitas Pamulang, 6(3), 536-539.
Azzahra, F. N., Rohana, T., Rahmat, R., & Juwita, A. R. (2024). Penerapan metode naive bayes dalam klasifikasi spam sms menggunakan fitur teks untuk mengatasi ancaman pada pengguna. Journal of Information System Research (JOSH), 5(3), 873-880.
Putera, A. W., S., & Lestari, Y. D. (2023). Klasifikasi SMS Spam Menggunakan Algoritma K-Nearest Neighbour. Jurnal Ilmu Komputer Dan Sistem Komputer Terapan, 5(1), 43-55.
Herwanto, H., Chusna, N. L., & Arif, M. S. (2021). Klasifikasi sms spam berbahasa Indonesia menggunakan algoritma multinomial naïve bayes. Jurnal Media Informatika Budidarma, 5(4), 1316.
Dwiyansaputra, R., Nugraha, G. S., Bimantoro, F., & Aranta, A. (2021). Deteksi sms spam berbahasa Indonesia menggunakan tf-idf dan stochastic gradient descent classifier. JTIKA: Jurnal Teknologi
Informasi, Komputer, dan Aplikasinya, 3(2), 200-207.
Reviantika, F., Azhar, Y., & Marthasari, G. I. (2021). Analisis klasifikasi sms spam menggunakan logistic regression. Jurnal Repositor, 3(4), 387-392.
Kesuma, I. G. M. J., Widiati, I. A. P., & Sugiartha, I. N. G. (2020). Penegakan hukum terhadap penipuan melalui media elektronik. Jurnal Preferensi Hukum, 1(2), 72-77.
Astuti, A. P., Alam, S., & Jaelani, I. (2022). Komparasi algoritma support vector machine dengan naive bayes untuk analisis sentimen pada aplikasi brimo. Jurnal Bangkit Indonesia, 11(2), 1-6.
Alshdaifat, E. A., Alshdaifat, D. A., Alsarhan, A., Hussein, F., & El -Salhi, S. M. D. F. S. (2021). The effect of preprocessing techniques, applied to numeric features, on classification algorithms’ performance. Data, 6(2), 11.
Ma’rifah, H., Wibawa, A. P., & Akbar, M. I. (2020). Klasifikasi artikel ilmiah dengan berbagai scenario preprocessing. Sains, Aplikasi, Komputasi dan Teknologi Informasi, 2(2), 70-78.
Ramadhanti, F., Wibisono, Y., & Sukamto, R. A. (2019). Analisis morfologi untuk menangani out -ofvocabulary words pada part-of-speech tagger bahasa Indonesia menggunakan hidden markov model. JLK: Jurnal Linguistik Komputasional, 2(1), 6-12.
Duha, T., Laia, M., Huda, A. K., & Jasuma, A. (2023). Klasifikasi data gempa bumi di pulau sumatera menggunakan algoritma naïve bayes. Jurnal Informatika, 2(1), 23-27.
Ksnugroho. Klasifikasi-spam-sms. (2019). https://github.com/ksnugroho/klasifikasi-spam-sms.
Widyanto, A. (2023). Pengaruh Keseimbangan Data terhadap Akurasi Model Support Vector Machine pada Data Set Donor Darah. Jurnal Teknologi Terpadu, 9(2), 79-88.
