# Analisis Profil Ekonomi Regional: Segmentasi Pendapatan Pekerja Mandiri Berdasarkan Jenjang Pendidikan (2025) Project Machine Learning ## Anggota Kelompok 1. Fanysia Helena Kosuwandi (NIM: 202310715031) 2. Faadhilah Zahraan Siregar (NIM: 202310715184) ## Ketentuan & Tujuan Tugas 1. Dataset Riil: Mengolah data resmi "Rata-Rata Pendapatan Bersih Sebulan Pekerja Berusaha Sendiri" tahun 2025 pada website Badan Pusat Statistik https://www.bps.go.id/id/statistics-table/2/MjQ2NiMy/rata-rata-pendapatan-bersih-sebulan-pekerja-berusaha-sendiri-menurut-provinsi-dan-pendidikan-yang-ditamatkan.html. 2. Menentukan Algoritma: Menerapkan algoritma Unsupervised Learning yaitu **Clustering** untuk menemukan pola tersembunyi tanpa label data awal. 3. Komparasi Model: Membandingkan efisiensi K-Means dengan kedalaman informasi Hierarchical Clustering. 4. Evaluasi model: Melakukan validasi internal menggunakan Silhouette Score dan Elbow Method 5. Cross Validation: uji stabilitas melalui Bootstrap Resampling (ARI). 5. Seluruh kode, notebook analisis, dan laporan akhir diunggah ke GitLab ## Deskripsi Permasalahan Variasi pendapatan pekerja mandiri antarprovinsi di Indonesia merupakan cerminan dari kompleksitas faktor ekonomi makro dan karakteristik regional yang unik. Melalui pendekatan Machine Learning, proyek ini membuktikan dan memetakan pola tersebut untuk menjawab pertanyaan mendasar: *"Dapatkah provinsi-provinsi di Indonesia dikelompokkan ke dalam klaster ekonomi yang homogen berdasarkan profil pendapatan pekerja mandiri lintas jenjang pendidikan, dan bagaimana stabilitas pengelompokan tersebut?"* ## Informasi Dataset Dataset yang digunakan dalam proyek ini bersumber dari data publik yang mencatat statistik ekonomi tenaga kerja di Indonesia pada tahun 2025. 1. Nama Dataset: Rata-Rata Pendapatan Bersih Sebulan Pekerja Berusaha Sendiri Menurut Provinsi dan Pendidikan yang Ditamatkan. 2. Cakupan Data: 38 Provinsi di Indonesia. 3. Unit Observasi: Rata-rata pendapatan bersih bulanan (dalam ribuan Rupiah). 4. Fitur Utama (Kategori Pendidikan): * Tidak pernah sekolah/Belum tamat SD: Pendapatan pekerja tanpa latar belakang pendidikan formal lengkap. * SD: Pendapatan lulusan Sekolah Dasar. * SMP: Pendapatan lulusan Sekolah Menengah Pertama. * SMA ke atas: Pendapatan lulusan SMA, Diploma, hingga Sarjana. ## Metodologi dan Algoritma 1. **K-Means Clustering**: * Cara Penggunaan: Algoritma bekerja dengan menentukan titik pusat kelompok (centroid). Setiap data provinsi akan ditarik ke pusat kelompok terdekat berdasarkan perhitungan jarak ekonomi (pendapatan lintas jenjang pendidikan). * Proses Optimasi: Penentuan jumlah kelompok ($k$) tidak dilakukan secara acak, melainkan menggunakan Elbow Method (melihat grafik penurunan inersia) dan divalidasi dengan Silhouette Coefficient untuk memastikan batas antar-wilayah terpisah dengan jelas. * Hasil: Memberikan segmentasi wilayah yang geometris dan "bersih", sehingga mudah dibedakan antara provinsi dengan performa ekonomi tinggi dan menengah-rendah. 2. **Hierarchical Clustering (Agglomerative)** * Cara Penggunaan: Menggunakan pendekatan bottom-up. Awalnya, setiap provinsi dianggap sebagai satu klaster tunggal, kemudian secara bertahap dipasangkan dengan provinsi lain yang memiliki profil ekonomi paling mirip hingga membentuk struktur pohon. * Visualisasi Utama: Menghasilkan Dendrogram, yang memungkinkan peneliti melihat pada tingkat kedekatan berapa provinsi di satu pulau (misal: Jawa) mulai bergabung menjadi satu kesatuan ekonomi dibandingkan dengan provinsi di pulau lain. * Keunggulan dalam Proyek: Sangat efektif untuk mengidentifikasi provinsi-provinsi outliers yang secara struktur ekonomi sangat berbeda jauh dan sulit digabungkan dengan kelompok besar lainnya. ## **Insight** Berdasarkan analisis yang dilakukan: * Dualitas Ekonomi: Teridentifikasi dua klaster utama: Klaster Pendapatan Tinggi dan Klaster Pendapatan Menengah-Rendah. * Pendidikan sebagai Akselerator: Terdapat gap pendapatan yang masif pada jenjang pendidikan SMA ke atas di provinsi klaster 1, menunjukkan nilai ekonomi pendidikan lebih tinggi di wilayah maju. * Stabilitas Menengah: Skor ARI sebesar 0.45 menunjukkan bahwa pengelompokan yang terbentuk cukup konsisten namun dinamis terhadap perubahan sampel data. ## **Kesimpulan & Rekomendasi Strategis** Analisis klastering yang dilakukan telah berhasil mengurai kompleksitas data pendapatan 38 provinsi di Indonesia menjadi struktur pengelompokan yang bermakna secara sosiopolitik. Integrasi antara metodologi machine learning dan tujuan analisis menghasilkan poin-poin kesimpulan sebagai berikut: Pencapaian Tujuan (Pemerintah): Klastering ini berhasil mengidentifikasi segmentasi wilayah yang homogen. Hasil analisis ini dapat menjadi fondasi kebijakan intervensi ekonomi berbasis wilayah (Targeted Regional Policy), di mana Pemerintah dapat menerapkan strategi yang berbeda untuk Klaster 0 (Menengah-Rendah) dan Klaster 1 (Tinggi) guna mempercepat pemerataan kesejahteraan. 1. Optimalisasi Bisnis (Perusahaan): Melalui pemisahan klaster yang stabil, proyek ini menyediakan panduan ekspansi pasar yang presisi. Perusahaan dapat membedakan strategi penetapan harga dan alokasi sumber daya berdasarkan daya beli riil yang ditemukan di tiap segmen klaster. 2. Validasi Akademik (Peneliti): Studi ini membuktikan adanya kesenjangan struktural antarwilayah yang dipicu oleh akses pendidikan. Perbandingan kedua algoritma menunjukkan fleksibilitas dalam analisis: 3. K-Means Clustering: Direkomendasikan untuk analisis cepat berskala nasional karena efisiensi pemisahan grup utamanya. 4. Hierarchical Clustering: Direkomendasikan untuk studi kasus mendalam guna memahami hubungan kekerabatan ekonomi antar-wilayah bertetangga secara mikro. Secara keseluruhan, proyek ini memberikan gambaran yang komprehensif dan objektif mengenai distribusi pendapatan di Indonesia, membuktikan bahwa pendekatan data science mampu memberikan insight mendalam yang tidak kasat mata hanya dengan statistik rata-rata nasional saja.