Proyek Machine Learning

Anggota Kelompok:

  1. Muhammad Hafidz (202310715202)
  2. Rizky Noor Fazila (202310715254)
  3. Silviani Rizky (202310715239)

Ketentuan Tugas

  1. Mencari dataset yang terdapat pada website https://www.kaggle.com/
  2. Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
  3. Lakukan evaluasi model pada data yang sudah ada
  4. Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
  5. Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/

Produksi Beras Indonesia Tahun 20202022

Sumber dataset: https://www.kaggle.com/

Beras merupakan komoditas pangan utama di Indonesia dan memiliki peran strategis dalam menjaga stabilitas ekonomi, sosial, dan ketahanan pangan nasional. Sebagai negara agraris, sebagian besar penduduk Indonesia menggantungkan hidup pada sektor pertanian, sehingga produksi beras tidak hanya menjadi indikator kesejahteraan petani, tetapi juga penentu kestabilan harga dan ketersediaan pangan bagi masyarakat luas.

Pemerintah menetapkan sektor pertanian sebagai prioritas nasional, termasuk di dalamnya program peningkatan produktivitas padi. Oleh karena itu, ketersediaan data produksi beras yang akurat dan mutakhir sangat penting untuk berbagai kebutuhan, seperti perencanaan distribusi pupuk, pengembangan teknologi pertanian, penyusunan kebijakan impor, hingga pembangunan infrastruktur irigasi.

Data produksi beras per provinsi pada tahun 20202022 memberikan gambaran mengenai kondisi pertanian Indonesia secara regional. Data ini mencerminkan perbedaan produktivitas antar wilayah, faktor geografis, luas lahan, serta tingkat keberhasilan program pemerintah di masing-masing provinsi. Analisis data produksi beras dapat membantu mengidentifikasi daerah dengan produksi tinggi, produksi rendah, atau yang mengalami fluktuasi dari tahun ke tahun.

Dengan menganalisis dataset ini menggunakan metode machine learning, kita dapat memahami pola produksi, memprediksi hasil produksi di masa mendatang, serta memberikan wawasan bagi pemerintah dan pemangku kepentingan dalam merumuskan kebijakan yang lebih tepat untuk menjaga ketahanan pangan nasional.

Analisis Dataset: Regression

Algoritma yang paling cocok untuk mengolah dataset ini adalah Regresi, karena variabel target berupa angka (jumlah produksi beras dalam ton).

Algoritma yang digunakan:

  1. Linear Regression
  2. Random Forest Regression

Alasan:

  1. Target berupa nilai kontinu sehingga cocok untuk regresi.
  2. Dapat memprediksi jumlah produksi beras di masa depan.
  3. Dapat menganalisis hubungan antara provinsi, luas panen, produktivitas, dan hasil produksi.
  4. Model regresi dapat dievaluasi dengan metrik kuantitatif (R², MSE, RMSE).
  5. Mendukung cross validation untuk mengukur konsistensi model.

Pada proyek ini dilakukan analisis menggunakan model Linear Regression dan Random Forest Regression.
Linear Regression digunakan untuk melihat hubungan secara linear, sedangkan Random Forest digunakan untuk menangkap pola yang lebih kompleks dan non-linear.

Regresi merupakan bagian dari supervised learning, di mana model mempelajari hubungan antara fitur dan output numerik dari data sebelumnya. Model regresi menghasilkan prediksi yang dapat digunakan untuk pengambilan keputusan dan perencanaan masa depan, terutama dalam konteks ketahanan pangan nasional.

Random Forest Regression bekerja dengan membangun banyak decision tree kemudian menggabungkannya untuk menghasilkan prediksi yang lebih stabil dan akurat. Model ini juga tahan terhadap outlier dan cocok ketika data memiliki pola tidak linear.

Evaluasi Model

Model dievaluasi menggunakan:

  1. R² Score
  2. Mean Squared Error (MSE)
  3. Root Mean Squared Error (RMSE)

Evaluasi dilakukan untuk membandingkan Linear Regression dan Random Forest Regression sehingga dapat ditentukan model mana yang memberikan performa terbaik.

Cross Validation

Cross validation digunakan untuk menguji konsistensi model pada beberapa pembagian data.
Metode yang digunakan adalah K-Fold Cross Validation, sehingga performa model tidak hanya bergantung pada satu kali train-test split dan hasil evaluasi menjadi lebih akurat.

Description
No description provided
Readme 142 KiB
Languages
Jupyter Notebook 100%