65 lines
6.1 KiB
Markdown
Raw Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# Proyek Machine Learning
Anggota Kelompok:
1. Muhammad Hafidz (202310715202)
2. Rizky Noor Fazila (202310715254)
3. Silviani Rizky (202310715239)
# Ketentuan Tugas
1. Mencari dataset yang terdapat pada website https://www.kaggle.com/
2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
3. Lakukan evaluasi model pada data yang sudah ada
4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/
# Produksi Beras Indonesia Tahun 20202022
Sumber dataset: https://www.kaggle.com/
Beras merupakan komoditas pangan utama di Indonesia dan memiliki peran strategis dalam menjaga stabilitas ekonomi, sosial, dan ketahanan pangan nasional. Sebagai negara agraris, sebagian besar penduduk Indonesia menggantungkan hidup pada sektor pertanian, sehingga produksi beras tidak hanya menjadi indikator kesejahteraan petani, tetapi juga penentu kestabilan harga dan ketersediaan pangan bagi masyarakat luas.
Pemerintah menetapkan sektor pertanian sebagai prioritas nasional, termasuk di dalamnya program peningkatan produktivitas padi. Oleh karena itu, ketersediaan data produksi beras yang akurat dan mutakhir sangat penting untuk berbagai kebutuhan, seperti perencanaan distribusi pupuk, pengembangan teknologi pertanian, penyusunan kebijakan impor, hingga pembangunan infrastruktur irigasi.
Data produksi beras per provinsi pada tahun 20202022 memberikan gambaran mengenai kondisi pertanian Indonesia secara regional. Data ini mencerminkan perbedaan produktivitas antar wilayah, faktor geografis, luas lahan, serta tingkat keberhasilan program pemerintah di masing-masing provinsi. Analisis data produksi beras dapat membantu mengidentifikasi daerah dengan produksi tinggi, produksi rendah, atau yang mengalami fluktuasi dari tahun ke tahun.
Dengan menganalisis dataset ini menggunakan metode machine learning, kita dapat memahami pola produksi, memprediksi hasil produksi di masa mendatang, serta memberikan wawasan bagi pemerintah dan pemangku kepentingan dalam merumuskan kebijakan yang lebih tepat untuk menjaga ketahanan pangan nasional. Dataset ini memuat informasi produksi per provinsi yang merefleksikan variasi agronomis, kondisi lahan, serta keberhasilan program peningkatan produktivitas di berbagai wilayah. Sebagai komoditas strategis, perubahan produksi beras memiliki implikasi langsung terhadap stabilitas pangan nasional, sehingga analisis kuantitatif berbasis data diperlukan untuk mendukung perumusan kebijakan yang lebih presisi.
# Analisis Dataset: Regression
Algoritma yang paling cocok untuk mengolah dataset ini adalah **Regresi**, karena variabel target berupa angka (jumlah produksi beras dalam ton).
Algoritma yang digunakan:
1. Linear Regression
2. Random Forest Regression
Dua algoritma ini digunakan untuk memodelkan pola hubungan antara variabel fitur dan total produksi beras. Linear Regression memberikan gambaran keterkaitan linear antarvariabel, sedangkan Random Forest Regression mampu menangkap hubungan yang lebih kompleks melalui ensemble banyak decision tree. Kombinasi kedua model tersebut memungkinkan analisis yang komprehensif, baik dari sisi interpretabilitas maupun akurasi prediksi.
## Alasan:
1. Target berupa nilai kontinu sehingga cocok untuk regresi.
2. Dapat memprediksi jumlah produksi beras di masa depan.
3. Dapat menganalisis hubungan antara provinsi, luas panen, produktivitas, dan hasil produksi.
4. Model regresi dapat dievaluasi dengan metrik kuantitatif (R², MSE, RMSE).
5. Mendukung cross validation untuk mengukur konsistensi model.
Pada proyek ini dilakukan analisis menggunakan model **Linear Regression** dan **Random Forest Regression**.
Linear Regression digunakan untuk melihat hubungan secara linear, sedangkan Random Forest digunakan untuk menangkap pola yang lebih kompleks dan non-linear.
Regresi merupakan bagian dari supervised learning, di mana model mempelajari hubungan antara fitur dan output numerik dari data sebelumnya. Model regresi menghasilkan prediksi yang dapat digunakan untuk pengambilan keputusan dan perencanaan masa depan, terutama dalam konteks ketahanan pangan nasional.
Random Forest Regression bekerja dengan membangun banyak decision tree kemudian menggabungkannya untuk menghasilkan prediksi yang lebih stabil dan akurat. Model ini juga tahan terhadap outlier dan cocok ketika data memiliki pola tidak linear.
# Evaluasi Model
Evaluasi model dilakukan secara sistematis menggunakan metrik R² Score, Mean Squared Error (MSE), dan Root Mean Squared Error (RMSE) guna mengukur kualitas prediksi secara kuantitatif. Hasil evaluasi tersebut memberikan dasar empiris untuk membandingkan kinerja kedua model dan menentukan pendekatan yang paling sesuai dengan karakteristik data.
Evaluasi dilakukan untuk membandingkan Linear Regression dan Random Forest Regression sehingga dapat ditentukan model mana yang memberikan performa terbaik.
Model dievaluasi menggunakan:
1. R² Score
2. Mean Squared Error (MSE)
3. Root Mean Squared Error (RMSE)
# Cross Validation
Cross validation digunakan untuk menguji konsistensi model pada beberapa pembagian data.
Metode yang digunakan adalah **K-Fold Cross Validation**, sehingga performa model tidak hanya bergantung pada satu kali train-test split dan hasil evaluasi menjadi lebih akurat.Penerapan juga memberikan jaminan bahwa kinerja model tidak hanya berlaku pada satu subset data tertentu, melainkan konsisten pada berbagai skenario pembagian data. Metode ini penting untuk mengurangi risiko overfitting serta memastikan model memiliki kemampuan generalisasi yang baik.
# Kesimpulan
Secara keseluruhan, analisis ini menegaskan bahwa metode regresi, khususnya Random Forest Regression, memberikan hasil yang lebih stabil dalam menangkap variasi antarprovinsi. Model yang dibangun berpotensi menjadi alat pendukung keputusan dalam perencanaan distribusi sumber daya pertanian dan evaluasi kebijakan peningkatan produktivitas padi dalam menjaga ketahanan pangan nasional, terutama dalam menghadapi dinamika produksi pangan di masa mendatang.