Klasifikasi Berita Berbahasa Indonesia Mengggunakan Seleksi Fitur Dua Tahap Dan Naïve Bayes

  • M Ali Fauzi Universitas Brawijaya
  • Sony Gosario Institut Teknologi Sepuluh Nopember Surabaya
  • Agus Zainal Arifin Institut Teknologi Sepuluh Nopember Surabaya
Keywords: Klasifikasi Dokumen, Seleksi Fitur, Information Gain

Abstract

Jumlah dokumen digital telah meningkat secara pesat, sehingga klasifikasi dokumen secara otomatis menjadi sangat penting. Pemilihan fitur diperlukan dalam klasifikasi dokumen otomatis. Salah satu metode seleksi fitur yang terbukti handal adalah Maximal Marginal Relevance for Feature Selection (MMR-FS), namun metode ini memiliki kompleksitas yang tinggi. Dalam penelitian ini, diusulkan sebuah metode baru dalam pemilihan fitur untuk klasifikasi dokumen. Metode yang diusulkan terdiri dari dua tahap, yang pertama adalah Information Gain dan yang kedua adalah MMR-FS . Pada proses klasifikasinya digunakan metode Naïve Bayes. Dalam percobaan yang dilakukan, metode yang diusulkan bisa mencapai akurasi 86%. Metode baru ini dapat menurunkan kompleksitas MMR-FS namun tetap mempertahankan keakuratannya.

Downloads

Download data is not yet available.

References

U. Haran, “A Two Stage Feature Selection Method for Text Categorization by Using Information Gain, Principal Component Analysis and Genetic Algorithm”. Knowledge Based Systems, 10241032. 2011.

C. Lee & G.G. Lee, “Information Gain and Divergence Based Feature Selection for Machine Learning based Text Classifications”. Information Processing and Management 42, 155-165. 2006.

Uguz, H., 2011. A Two-Stage Feature Selection Method For Text Categorization By Using Information Gain, Principal Component Analysis And Genetic Algorithm, pp. 1024-1032, Turkey: Elsevier.

J. Carbonell & J. Goldstein. “The use of MMR, diversity-based reranking for reordering documents and producing summaries.” In Proceedings of the 21st ACM-SIGIR international conference on research and development in information retrieval. 1998.

Guo, Q. (2010). An Effective Algorithm for Improving the Performance of Naive Bayes for Text Classification. Cambridge University Press.

J. Chen et al, “Feature Selection for Text Classification with Naïve Bayes”. Expert System with Applications 36, 5432-5435. 2009.

A. McCallum & K. Nigam. A comparison of event models for naive Bayes text classification. AAAI98 workshop on learning for text categorization. 1998.

C. Fiarni, H. Maharani dan R. Pratama, “Sentiment Analysis System for Indonesia Online Retail Shop Review Using Hierarchy Naive Bayes Technique,” Bandung, 2016.

C. D. Manning, P. Raghavan dan H. Schutze, An Introduction to Information Retrieval, Online penyunt., Cambrigde: Cambridge University Press, 2009.

Fauzi, M.A., Arifin, A. and Yuniarti, A., 2013. Term Weighting Berbasis Indeks Buku dan Kelas untuk Perangkingan Dokumen Berbahasa Arab. Lontar Komputer: Jurnal Ilmiah Teknologi Informasi, 5(2).

Published
2017-12-04
How to Cite
Fauzi, M., Gosario, S., & Arifin, A. (2017). Klasifikasi Berita Berbahasa Indonesia Mengggunakan Seleksi Fitur Dua Tahap Dan Naïve Bayes. Systemic: Information System and Informatics Journal, 3(2), 7-12. https://doi.org/10.29080/systemic.v3i2.240
Section
Articles