🏥 Machine Learning Project Analisis Rumah Sakit di Indonesia

👥 Anggota Kelompok

  1. Dwi Putri Setiawan (20231075009)
  2. Syabrina Bening Putri (202310715235)
  3. Syahdan Faiz Munachaswa (202310715258)

📒 Ketentuan Tugas

  • Mencari dataset yang terdapat pada website https://www.kaggle.com/
  • Tentukan algoritma (klasifikasi, regresi, atau klastering) yang paling cocok untuk data tersebut
  • Lakukan evaluasi model pada data yang sudah ada
  • Lakukan juga cross validation untuk memastikan bahwa hasil prediksi model tidak jauh berbeda dari pola asli dalam data
  • Lakukan push atau penyimpanan laporan pada website https://git.lab.ubharajaya.ac.id/

📑 Table of Contents

📘 Deskripsi Proyek

Proyek ini merupakan penelitian berbasis machine learning yang bertujuan untuk menganalisis data rumah sakit di Indonesia dan membangun model klasifikasi untuk mengelompokkan informasi rumah sakit berdasarkan atribut yang disediakan dalam dataset. Dataset yang digunakan bersumber dari Kaggle, berisi data lengkap mengenai nama rumah sakit, kelas rumah sakit, jenis rumah sakit, lokasi provinsi, kota/kabupaten, dan beberapa atribut pendukung lainnya.

Penelitian ini dilakukan karena masih terdapat ketimpangan distribusi fasilitas kesehatan di berbagai wilayah Indonesia. Dengan memanfaatkan metode machine learning, analisis data rumah sakit dapat dilakukan secara sistematis untuk memahami pola distribusi fasilitas kesehatan, mengidentifikasi karakteristik rumah sakit di masing-masing wilayah, serta membangun model prediktif untuk mengklasifikasikan jenis atau kategori rumah sakit berdasarkan fitur tertentu.

Proyek ini tidak hanya menyajikan hasil klasifikasi, tetapi juga menjelaskan seluruh tahapan penelitian seperti preprocessing data, eksplorasi data, pemilihan algoritma, penerapan metode evaluasi, hingga penyajian interpretasi hasil. Melalui pendekatan ini, pengguna dapat memahami proses analitis secara menyeluruh dan mengetahui bagaimana machine learning dapat digunakan untuk mendukung pengambilan keputusan di sektor kesehatan.

📦 Sumber Data

Dataset yang digunakan dalam penelitian ini berasal dari Kaggle:

🏥 Hospital Indonesia Dataset
📌 Sumber: https://www.kaggle.com/datasets/arnoldusema/hospital-indonesia

Dataset ini dipilih karena:

  • Menyajikan data rumah sakit secara lengkap dan relevan.
  • 🌍 Memiliki cakupan nasional sehingga cocok untuk analisis pemerataan fasilitas kesehatan.
  • 📋 Tersusun dengan baik, sehingga mendukung proses preprocessing hingga modeling.
  • 🎯 Fitur-fitur yang ada sangat sesuai untuk studi klasifikasi berbasis machine learning.

🤖 Algoritma yang Digunakan

1. Random Forest

Random Forest adalah algoritma ensemble berbasis decision tree yang membangun banyak pohon keputusan (decision trees) secara acak dan menggabungkan hasilnya melalui voting mayoritas untuk klasifikasi. Model ini mengurangi risiko overfitting dengan menggunakan subset data dan fitur secara acak pada setiap pohon.

Alasan menggunakan Random Forest:

  • 🌳 Algoritma ini kuat dan akurat untuk dataset kompleks dengan fitur campuran (kategorikal dan numerik).
  • 🛡️ Mengurangi overfitting melalui ensemble method.
  • 📊 Cocok untuk dataset menengah hingga besar seperti dataset rumah sakit ini.
  • 🔍 Memberikan interpretasi fitur penting melalui feature importance.
  • 🚀 Kinerjanya unggul sebagai model lanjutan setelah baseline, dengan akurasi tinggi dan stabilitas yang baik.

🧪 Metode Penelitian

Penelitian dalam proyek ini menggunakan pendekatan CRISP-DM (Cross Industry Standard Process for Data Mining) yang terdiri dari beberapa tahapan berikut:

  1. Business Understanding
    Merumuskan kebutuhan analisis terkait distribusi dan klasifikasi rumah sakit di Indonesia.

  2. Data Understanding
    Menganalisis struktur dataset, tipe data, serta mengidentifikasi potensi masalah seperti data kosong atau tidak konsisten.

  3. Data Preparation

    • 🧹 Membersihkan missing values
    • 🔄 Encoding fitur kategorikal
    • ⚖️ Normalisasi fitur numerik
    • 🎯 Seleksi fitur relevan
      Tahap ini penting untuk memastikan kualitas input model.
  4. Modeling
    Penerapan algoritma Random Forest Classifier dengan tuning hyperparameter seperti jumlah pohon (n_estimators) untuk mencari performa terbaik.

  5. Evaluation
    Model diuji menggunakan metrik seperti akurasi dan confusion matrix untuk memastikan performanya.

  6. Deployment (Dokumentasi)
    Model tidak di-deploy, namun hasil dianalisis dan didokumentasikan sebagai laporan penelitian.

🔍 Hasil Penelitian

Dari proses penelitian, diperoleh beberapa temuan penting:

  • 📍 Dataset menunjukkan variasi distribusi rumah sakit di berbagai provinsi. Beberapa provinsi memiliki jumlah rumah sakit lebih banyak dibanding yang lain, menunjukkan adanya perbedaan akses layanan kesehatan.
  • 🏥 Distribusi rumah sakit berdasarkan kelas (A, B, C, D) memberikan gambaran tingkat layanan yang tersedia di setiap wilayah.
  • 🤖 Model Random Forest mampu mengklasifikasikan kategori rumah sakit secara akurat setelah preprocessing dan normalisasi data dilakukan.
  • 📊 Hyperparameter optimal memberikan akurasi tinggi dan menunjukkan bahwa pola antar atribut rumah sakit dapat dipelajari dengan baik.
  • 🔮 Hasil klasifikasi dapat dimanfaatkan untuk mengidentifikasi karakteristik rumah sakit baru berdasarkan fitur dasarnya.

🏁 Kesimpulan

Berdasarkan seluruh rangkaian penelitian yang telah dilakukan, dapat disimpulkan bahwa penerapan algoritma Random Forest pada dataset rumah sakit di Indonesia mampu memberikan hasil klasifikasi yang baik dan stabil. Proses penelitian dimulai dari pemahaman data, pembersihan dan persiapan data, hingga pemodelan dan evaluasi model. Pemilihan algoritma Random Forest didasarkan pada kekuatannya dalam menangani dataset kompleks, kemampuannya mengurangi overfitting melalui ensemble, serta sifatnya yang efektif untuk klasifikasi dengan akurasi tinggi. Hasil analisis menunjukkan bahwa fitur-fitur yang terdapat dalam dataset seperti kelas rumah sakit, jenis rumah sakit, dan lokasi administrasi memiliki hubungan yang kuat sehingga dapat digunakan sebagai dasar klasifikasi oleh model Random Forest. Selain itu, hasil eksplorasi data juga memberikan wawasan penting mengenai distribusi dan karakteristik rumah sakit di Indonesia, yang dapat digunakan sebagai referensi dalam perencanaan pemerataan fasilitas kesehatan. Secara keseluruhan, penelitian ini membuktikan bahwa metode machine learning, khususnya algoritma Random Forest, dapat diaplikasikan secara efektif untuk analisis dan klasifikasi data kesehatan, serta memberikan fondasi yang kuat untuk pengembangan model yang lebih kompleks pada penelitian selanjutnya.