Proyek Machine Learning
Anggota Kelompok:
- Muhammad Hafidz (202310715202)
- Rizky Noor Fazila (202310715254)
- Silviani Rizky (202310715239)
Ketentuan Tugas
- Mencari dataset yang terdapat pada website https://www.kaggle.com/
- Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
- Lakukan evaluasi model pada data yang sudah ada
- Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
- Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
Produksi Beras Indonesia Tahun 2020–2022
Sumber dataset: https://www.kaggle.com/
Beras merupakan komoditas pangan utama di Indonesia dan memiliki peran strategis dalam menjaga stabilitas ekonomi, sosial, dan ketahanan pangan nasional. Sebagai negara agraris, sebagian besar penduduk Indonesia menggantungkan hidup pada sektor pertanian, sehingga produksi beras tidak hanya menjadi indikator kesejahteraan petani, tetapi juga penentu kestabilan harga dan ketersediaan pangan bagi masyarakat luas.
Pemerintah menetapkan sektor pertanian sebagai prioritas nasional, termasuk di dalamnya program peningkatan produktivitas padi. Oleh karena itu, ketersediaan data produksi beras yang akurat dan mutakhir sangat penting untuk berbagai kebutuhan, seperti perencanaan distribusi pupuk, pengembangan teknologi pertanian, penyusunan kebijakan impor, hingga pembangunan infrastruktur irigasi.
Data produksi beras per provinsi pada tahun 2020–2022 memberikan gambaran mengenai kondisi pertanian Indonesia secara regional. Data ini mencerminkan perbedaan produktivitas antar wilayah, faktor geografis, luas lahan, serta tingkat keberhasilan program pemerintah di masing-masing provinsi. Analisis data produksi beras dapat membantu mengidentifikasi daerah dengan produksi tinggi, produksi rendah, atau yang mengalami fluktuasi dari tahun ke tahun.
Dengan menganalisis dataset ini menggunakan metode machine learning, kita dapat memahami pola produksi, memprediksi hasil produksi di masa mendatang, serta memberikan wawasan bagi pemerintah dan pemangku kepentingan dalam merumuskan kebijakan yang lebih tepat untuk menjaga ketahanan pangan nasional. Dataset ini memuat informasi produksi per provinsi yang merefleksikan variasi agronomis, kondisi lahan, serta keberhasilan program peningkatan produktivitas di berbagai wilayah. Sebagai komoditas strategis, perubahan produksi beras memiliki implikasi langsung terhadap stabilitas pangan nasional, sehingga analisis kuantitatif berbasis data diperlukan untuk mendukung perumusan kebijakan yang lebih presisi.
Analisis Dataset: Regression
Algoritma yang paling cocok untuk mengolah dataset ini adalah Regresi, karena variabel target berupa angka (jumlah produksi beras dalam ton).
Algoritma yang digunakan:
- Linear Regression
- Random Forest Regression
Pada proyek ini dilakukan analisis menggunakan model Linear Regression dan Random Forest Regression. Linear Regression berfungsi sebagai model dasar yang memberikan pemahaman mengenai kontribusi masing-masing variabel terhadap target secara langsung. Model ini mengasumsikan bahwa perubahan pada satu variabel fitur akan menyebabkan perubahan proporsional pada variabel output, sehingga cocok digunakan untuk mengidentifikasi hubungan struktural yang bersifat sederhana serta memberikan interpretasi koefisien yang jelas.
Random Forest Regression digunakan untuk meningkatkan akurasi prediktif dengan memanfaatkan kemampuan ensemble learning. Algoritma ini menggabungkan banyak pohon keputusan yang dibangun dari subset data dan fitur yang berbeda, sehingga menghasilkan prediksi yang lebih stabil dan tahan terhadap outlier. Pendekatan ini sangat bermanfaat ketika data memiliki pola interaksi antarvariabel yang datanya memiliki pola Non linear.
Dengan mengombinasikan kedua pendekatan tersebut, penelitian ini tidak hanya memperoleh model yang akurat, tetapi juga dapat memahami struktur dasar data secara lebih mendalam. Hasil analisis dari kedua algoritma memungkinkan peneliti untuk mengevaluasi mana model yang paling representatif terhadap kondisi nyata, serta memberikan dasar yang kuat untuk melakukan prediksi produksi beras di masa mendatang. Pendekatan ini juga memperkuat proses pengambilan keputusan berbasis data dalam perencanaan kebijakan pertanian dan pengelolaan ketahanan pangan nasional.
Regresi merupakan bagian dari supervised learning, di mana model mempelajari hubungan antara fitur dan output numerik dari data sebelumnya. Model regresi menghasilkan prediksi yang dapat digunakan untuk pengambilan keputusan dan perencanaan masa depan, terutama dalam konteks ketahanan pangan nasional.
Alasan:
- Target berupa nilai kontinu sehingga cocok untuk regresi.
- Dapat memprediksi jumlah produksi beras di masa depan.
- Dapat menganalisis hubungan antara provinsi, luas panen, produktivitas, dan hasil produksi.
- Model regresi dapat dievaluasi dengan metrik kuantitatif (R², MSE, RMSE).
- Mendukung cross validation untuk mengukur konsistensi model.
Evaluasi Model
Evaluasi model dilakukan secara sistematis menggunakan metrik R² Score, Mean Squared Error (MSE), dan Root Mean Squared Error (RMSE) guna mengukur kualitas prediksi secara kuantitatif. Hasil evaluasi tersebut memberikan dasar empiris untuk membandingkan kinerja kedua model dan menentukan pendekatan yang paling sesuai dengan karakteristik data.
Evaluasi dilakukan untuk membandingkan Linear Regression dan Random Forest Regression sehingga dapat ditentukan model mana yang memberikan performa terbaik.
Model dievaluasi menggunakan:
- R² Score
- Mean Squared Error (MSE)
- Root Mean Squared Error (RMSE)
Cross Validation
Cross validation digunakan untuk menguji konsistensi model pada beberapa pembagian data.
Metode yang digunakan adalah K-Fold Cross Validation, sehingga performa model tidak hanya bergantung pada satu kali train-test split dan hasil evaluasi menjadi lebih akurat.Penerapan juga memberikan jaminan bahwa kinerja model tidak hanya berlaku pada satu subset data tertentu, melainkan konsisten pada berbagai skenario pembagian data. Metode ini penting untuk mengurangi risiko overfitting serta memastikan model memiliki kemampuan generalisasi yang baik.
Kesimpulan
Secara keseluruhan, analisis ini menegaskan bahwa metode regresi, khususnya Random Forest Regression, memberikan hasil yang lebih stabil dalam menangkap variasi antarprovinsi. Model yang dibangun berpotensi menjadi alat pendukung keputusan dalam perencanaan distribusi sumber daya pertanian dan evaluasi kebijakan peningkatan produktivitas padi dalam menjaga ketahanan pangan nasional, terutama dalam menghadapi dinamika produksi pangan di masa mendatang.