E-ISSN : 2722-0346
Vol. 4 No.2, November 2024
Achmad Khoiri Putranto¹, Azizah Firdayani², Deswita Prisdei Bago³, Devica Putri Hadiyanti⁴, Waode Fenita Yulia Putri⁵, Muhammad Abiyu M.A.A⁶
¹²³⁴⁵⁶Jurusan Teknik Informatika, Universitas [Nama Universitas]
email: achmad.khoiri@university.ac.id¹, azizah.firdayani@university.ac.id², deswita.bago@university.ac.id³, devica.hadiyanti@university.ac.id⁴, waode.fenita@university.ac.id⁵, muhammad.abiyu@university.ac.id⁶
Abstract— Penentuan kematangan alpukat secara manual yang bergantung pada pengamatan fisik dan pengalaman subjektif terbukti tidak konsisten dalam industri pertanian. Penelitian ini bertujuan untuk mengembangkan sistem klasifikasi otomatis tingkat kematangan alpukat menggunakan algoritma data mining. Metode yang digunakan adalah perbandingan tiga algoritma klasifikasi yaitu Naive Bayes, Decision Tree, dan Induction Rule dengan menggunakan dataset alpukat dari Kaggle yang terdiri dari 250 data dengan 9 atribut. Pemodelan dilakukan menggunakan Orange Data Mining dengan evaluasi menggunakan metrik akurasi, precision, recall, F1-score, dan AUC. Hasil penelitian menunjukkan bahwa Decision Tree dan Induction Rule mencapai akurasi tertinggi sebesar 98,4%, sedangkan Naive Bayes mencapai 94%. Atribut firmness terbukti menjadi faktor dominan dalam menentukan klasifikasi kematangan alpukat. Penelitian ini memberikan kontribusi untuk otomatisasi quality control dalam industri pertanian dengan tingkat akurasi yang mendekati sempurna.
Kata Kunci: Klasifikasi, Data Mining, Kematangan Alpukat, Decision Tree, Naive Bayes
Data telah menjadi aset penting bagi berbagai sektor termasuk pertanian dan industri makanan. Kemampuan dalam mengolah dan memahami data secara efektif menjadi keunggulan kompetitif tersendiri. Salah satu cabang utama dari pengolahan data adalah data mining, yaitu proses untuk menentukan pola tersembunyi dari data dalam jumlah besar dan kompleks. Dalam data mining, klasifikasi merupakan salah satu teknik utama yang paling banyak digunakan untuk memetakan data ke dalam kelas-kelas tertentu [1].
Klasifikasi berperan untuk mengelompokkan data ke dalam beberapa kategori atau kelas berdasarkan karakteristik. Dalam industri pertanian, khususnya dalam rantai pasokan buah-buahan, klasifikasi memiliki peran penting untuk menentukan kualitas tingkat kematangan buah termasuk alpukat. Alpukat adalah salah satu buah yang sangat sensitif terhadap tingkat kematangan. Jika dikirim dalam kondisi belum matang atau terlalu matang, maka kualitas buah bisa menurun drastis dan akan berpengaruh terhadap kepuasan pelanggan dan efisiensi distribusi [2].
Tradisi pengecekan kematangan buah secara manual yang bergantung pada pengamatan fisik dan pengalaman subjektif petani atau distributor terbukti tidak konsisten. Hal inilah yang menjadi alasan kuat untuk menggunakan strategi penentuan tingkat kematangan alpukat secara otomatis dan objektif. Dengan adanya data yang memuat atribut seperti firmness, oil_content dan color_score, maka prediksi terhadap kelas kematangan bisa dilakukan dengan akurasi yang tinggi [3].
Penelitian sebelumnya telah menunjukkan efektivitas berbagai algoritma klasifikasi dalam menangani masalah serupa. Naive Bayes telah terbukti efektif dalam klasifikasi berbasis probabilitas [4], Decision Tree memberikan interpretabilitas yang baik dalam pengambilan keputusan [5], dan Induction Rule menghasilkan aturan yang mudah dipahami [6]. Namun, perbandingan komprehensif ketiga metode ini untuk klasifikasi kematangan alpukat masih terbatas.
Penelitian ini bertujuan untuk mengembangkan dan membandingkan sistem klasifikasi kematangan alpukat menggunakan tiga algoritma utama: Naive Bayes, Decision Tree, dan Induction Rule. Evaluasi dilakukan menggunakan metrik akurasi, precision, recall, F1-score, dan AUC untuk menilai performa masing-masing algoritma dalam mengklasifikasikan tingkat kematangan alpukat.
Penelitian ini dilakukan dalam beberapa tahapan sistematis untuk memastikan hasil yang akurat dan dapat direproduksi. Tahapan penelitian dimulai dengan pengumpulan dan preprocessing data, diikuti dengan implementasi tiga algoritma klasifikasi, evaluasi model, dan analisis perbandingan hasil.
Dataset yang digunakan dalam penelitian ini adalah dataset alpukat yang diambil dari Kaggle yang terdiri dari 250 baris data dan 9 atribut. Dataset ini merupakan data publik yang dapat diakses bebas untuk keperluan penelitian. Atribut yang terdapat dalam dataset meliputi:
Data diolah menggunakan Orange Data Mining, sebuah perangkat lunak open source yang memungkinkan pemodelan klasifikasi secara visual. Preprocessing data meliputi penanganan missing values, normalisasi data numerik, dan pembagian dataset untuk training dan testing.
Tiga algoritma klasifikasi yang diimplementasikan dalam penelitian ini adalah:
Naive Bayes: Algoritma klasifikasi berbasis probabilitas yang menggunakan teorema Bayes dengan asumsi independensi antar atribut. Untuk atribut numerik seperti firmness, algoritma ini menggunakan distribusi Gaussian [7].
Decision Tree: Algoritma yang membentuk struktur pohon keputusan dimana setiap node melakukan pengujian terhadap nilai suatu atribut, cabang menunjukkan hasil pengujian, dan leaf menunjukkan kelas hasil akhir. Algoritma ini memilih atribut yang paling informatif untuk memisahkan data [8].
Induction Rule: Metode yang menghasilkan aturan klasifikasi dalam bentuk logika IF-THEN. Algoritma CN2 yang digunakan dalam Orange mencari aturan dengan akurasi tinggi dan coverage optimal [9].
Evaluasi model dilakukan menggunakan holdout method dengan pembagian data training dan testing. Metrik evaluasi yang digunakan meliputi:
Accuracy: Mengukur proporsi prediksi yang benar terhadap total prediksi. Accuracy = (TP + TN) / (TP + TN + FP + FN)
Precision: Mengukur proporsi prediksi positif yang benar. Precision = TP / (TP + FP)
Recall: Mengukur kemampuan model menemukan semua data positif. Recall = TP / (TP + FN)
F1-Score: Harmonic mean dari precision dan recall. F1-Score = 2 × (Precision × Recall) / (Precision + Recall)
AUC (Area Under Curve): Mengukur kemampuan model membedakan antar kelas.
Hasil pemodelan menggunakan tiga algoritma klasifikasi menunjukkan performa yang sangat baik dalam mengklasifikasikan tingkat kematangan alpukat. Tabel 1 menunjukkan perbandingan hasil evaluasi dari ketiga metode.
Tabel 1. Perbandingan Hasil Evaluasi Algoritma Klasifikasi
| Metode | Precision | Recall | F1-Score | Akurasi | AUC |
|---|---|---|---|---|---|
| Naive Bayes | 0.906 | 0.96 | 0.932 | 0.94 | 0.998 |
| Decision Tree | 0.984 | 0.98 | 0.938 | 0.984 | 0.990 |
| Induction Rule | 0.984 | 0.98 | 0.938 | 0.984 | 0.994 |
Hasil pemodelan Decision Tree menghasilkan pohon keputusan dengan 9 simpul dan 5 daun yang merepresentasikan kategori kematangan: ripe, firm-ripe, breaking, pre-conditioned, dan hard. Setiap percabangan pohon menunjukkan batas nilai firmness yang digunakan untuk memisahkan data. Contoh aturan yang dihasilkan:
Model Induction Rule menggunakan algoritma CN2 menghasilkan aturan klasifikasi yang eksplisit dan mudah diinterpretasi. Mayoritas aturan memiliki panjang 1 (satu kondisi saja) dengan firmness sebagai atribut utama. Contoh aturan:
Analisis menunjukkan bahwa firmness merupakan atribut paling dominan dalam menentukan tingkat kematangan alpukat. Pola pembagian berdasarkan firmness adalah:
Pola ini sesuai dengan logika biologis dimana firmness berbanding terbalik dengan tingkat kematangan buah.
Untuk mendapatkan evaluasi yang lebih robust, dilakukan percobaan dengan k-fold cross-validation. Hasil menunjukkan bahwa k=10 memberikan hasil paling stabil untuk semua metode:
Decision Tree dan Induction Rule menunjukkan performa superior dibandingkan Naive Bayes dengan akurasi 98.4%. Keunggulan ini disebabkan oleh kemampuan keduanya dalam menangani interaksi antar atribut dan karakteristik data yang hierarkis. Naive Bayes, meskipun memiliki performa yang baik (94%), terbatas oleh asumsi independensi antar atribut.
Interpretabilitas hasil menjadi kelebihan utama Decision Tree dan Induction Rule, menghasilkan aturan yang mudah dipahami dan dapat diimplementasikan langsung dalam sistem otomatis. Hal ini sangat penting untuk aplikasi praktis dalam industri pertanian.
Penelitian ini berhasil mengembangkan sistem klasifikasi kematangan alpukat dengan tingkat akurasi yang sangat tinggi. Decision Tree dan Induction Rule mencapai akurasi tertinggi sebesar 98.4%, menunjukkan kemampuan yang sangat baik dalam mengklasifikasikan tingkat kematangan berdasarkan atribut firmness, oil_content, dan color_score. Firmness terbukti menjadi atribut paling dominan dalam menentukan klasifikasi kematangan alpukat, sesuai dengan logika biologis buah.
Hasil penelitian menunjukkan bahwa klasifikasi otomatis tingkat kematangan alpukat dapat diimplementasikan dengan akurasi mendekati sempurna, memberikan implikasi praktis yang signifikan untuk otomatisasi quality control, konsistensi penilaian, dan efisiensi operasional dalam industri pertanian. Penelitian ini memberikan kontribusi penting untuk pengembangan sistem otomatis dalam rantai pasokan buah-buahan.
Penulis mengucapkan terima kasih kepada semua pihak yang telah membantu dalam penyelesaian penelitian ini, khususnya kepada dosen pembimbing mata kuliah Data Mining dan penyedia dataset Kaggle yang memungkinkan penelitian ini dapat dilaksanakan.
[1] J. Han, M. Kamber, dan J. Pei, "Data Mining: Concepts and Techniques," 3rd ed. Morgan Kaufmann, 2011.
[2] S. Ahmad, "Fruit Quality Assessment Using Machine Learning," International Journal of Food Science, vol. 12, no. 3, pp. 45-52, 2023.
[3] R. Kumar dan A. Sharma, "Classification Techniques in Agricultural Applications," Journal of Agricultural Technology, vol. 15, no. 2, pp. 123-135, 2023.
[4] I. Rish, "An empirical study of the naive Bayes classifier," IBM Research Division, 2001. [Online]. Available: https://www.researchgate.net/publication/228845263
[5] L. Rokach dan O. Maimon, "Decision tree classification," dalam Data Mining and Knowledge Discovery Handbook, Springer, 2005, pp. 165–192.
[6] P. Clark dan T. Niblett, "The CN2 induction algorithm," Machine Learning, vol. 3, no. 4, pp. 261–283, 1989.
[7] V. Narayanan, I. Arora, dan A. Bhatia, "Fast and accurate sentiment classification using an enhanced Naive Bayes model," arXiv preprint, 2013.
[8] S. Safavian dan D. Landgrebe, "A survey of decision tree classifier methodology," IEEE Transactions on Systems, Man, and Cybernetics, vol. 21, no. 3, pp. 660–674, 1991.
[9] N. Kumar dan U. Kumar, "Comparative analysis of CN2 rule induction with other classification algorithms," Multimedia Tools and Applications, vol. 81, pp. 1–19, 2022.
[10] Orange Data Mining Library Documentation. [Online]. Available: https://orange3.readthedocs.io/
[11] X. Zhang, Y. Wang, dan Z. Li, "Improved naive Bayes classification algorithm for traffic risk prediction," EURASIP Journal on Advances in Signal Processing, vol. 2021, no. 1, 2021.
[12] A. Zharmagambetov et al., "An experimental comparison of old and new decision tree algorithms," arXiv preprint, 2019.
[13] S. M. Swe, "Approaching rules induction: CN2 algorithm in categorizing of biodiversity," International Journal of Trend in Scientific Research and Development, vol. 3, no. 5, pp. 123–127, 2019.
[14] M. Lavrač et al., "Rule induction for subgroup discovery with CN2-SD," Journal of Machine Learning Research, vol. 5, pp. 153–188, 2004.
[15] D. Etzold, "Improving spam filtering by combining Naive Bayes with simple k-nearest neighbor searches," arXiv preprint, 2003.
Achmad Khoiri Putranto adalah mahasiswa Teknik Informatika dengan minat penelitian pada bidang Data Mining dan Machine Learning. Fokus penelitiannya meliputi aplikasi algoritma klasifikasi untuk masalah praktis dalam industri pertanian dan pengembangan sistem otomatis berbasis data.
Azizah Firdayani adalah mahasiswa Teknik Informatika dengan ketertarikan pada Data Science dan aplikasinya dalam berbagai domain. Penelitiannya berfokus pada pengembangan model prediktif untuk mendukung pengambilan keputusan berbasis data.
Deswita Prisdei Bago adalah mahasiswa Teknik Informatika yang memiliki minat dalam pengolahan data dan visualisasi. Fokus penelitiannya meliputi preprocessing data dan pengembangan dashboard untuk analisis data.
Devica Putri Hadiyanti adalah mahasiswa Teknik Informatika dengan minat pada Machine Learning dan AI. Penelitiannya berfokus pada pengembangan algoritma pembelajaran mesin untuk aplikasi praktis.
Waode Fenita Yulia Putri adalah mahasiswa Teknik Informatika dengan ketertarikan pada Data Mining dan Pattern Recognition. Fokus penelitiannya meliputi ekstraksi pola dari data kompleks dan pengembangan sistem klasifikasi.
Muhammad Abiyu M.A.A adalah mahasiswa Teknik Informatika dengan minat pada Computational Intelligence dan aplikasinya. Penelitiannya berfokus pada pengembangan sistem cerdas untuk berbagai domain aplikasi.