115 lines
7.1 KiB
Markdown
115 lines
7.1 KiB
Markdown
# Proyek Machine Learning
|
|
Anggota:
|
|
1. Ananda Dwi Prasetyo (202310715065)
|
|
2. Muhammad Bintang Mudzaffar (202310715001)
|
|
3. Muhammad Shaddam Maghany Suryasaputra (202310715093)
|
|
|
|
# Ketentuan Tugas
|
|
1. menentukan dataset nasional yang terdapat pada https://data.go.id/
|
|
2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok
|
|
3. Lakukan evaluasi model
|
|
4. Lakukan cross validation
|
|
5. Laporan diletakkan di gitlab
|
|
|
|
# Pendahuluan
|
|
Pendidikan merupakan aspek fundamental dalam pembangunan suatu bangsa karena berperan penting dalam meningkatkan kualitas sumber daya manusia. Pemerintah Indonesia menempatkan sektor pendidikan sebagai prioritas pembangunan nasional, sebagaimana tercantum dalam Undang-Undang Nomor 20 Tahun 2003 tentang Sistem Pendidikan Nasional.
|
|
|
|
Tenaga pendidik, khususnya guru pada jenjang SMA dan sederajat, memiliki peran strategis sebagai penghubung antara pendidikan dasar dan pendidikan tinggi. Oleh karena itu, analisis terhadap data jumlah pendidik SMA/sederajat menjadi penting untuk mengetahui persebaran guru serta potensi ketimpangan antar wilayah.
|
|
|
|
Dataset jumlah pendidik SMA/MA/sederajat tahun 2023 yang bersumber dari data.go.id memberikan gambaran kondisi tenaga pendidik di seluruh provinsi di Indonesia. Analisis terhadap dataset ini diharapkan dapat membantu dalam perencanaan pemerataan pendidik dan peningkatan mutu pendidikan nasional.
|
|
|
|
# Dataset
|
|
Sumber data: https://data.go.id/dataset/dataset/jumlah-pendidik-sma-sma-ma-sederajat-2024
|
|
|
|
Nama dataset: Jumlah Pendidik SMA/MA/Sederajat Tahun 2023
|
|
Jumlah data: 24 provinsi
|
|
Variabel utama:
|
|
1. Jumlah pendidik SMA/sederajat
|
|
2. Jumlah sekolah SMA/sederajat
|
|
3. Rasio guru per sekolah
|
|
Dataset tidak memiliki nilai kosong (missing value) dan siap digunakan untuk analisis.
|
|
|
|
# Metode Analisis: Clustering
|
|
Clustering merupakan salah satu metode unsupervised learning, yang mana dataset akan dipartisi menjadi kelompok atau cluster yang berbeda berdasarkan ukuran kesamaan tertentu. Metode ini akan mengelompokkan objek-objek ke dalam cluster berdasarkan karakteristik yang memiliki tingkat kemiripan yang signifikan jika berada dalam satu kluster, dan memiliki perbedaan yang cukup besar jika objek berada dalam kluster yang berbeda.
|
|
|
|
Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering
|
|
Algoritma yang disarankan:
|
|
1. K-Means Clustering
|
|
2. Hierarchical Clustering
|
|
|
|
Kedua metode digunakan untuk membandingkan hasil pengelompokan wilayah berdasarkan jumlah pendidik dan jumlah sekolah.
|
|
|
|
# A. Metode Penelitian: K-Means Clustering
|
|
|
|
Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja.
|
|
|
|
K-Means adalah metode pengelompokan non-hierarki yang membagi data menjadi k kelompok (cluster) berdasarkan kedekatannya dengan centroid (titik pusat cluster).
|
|
|
|
Cara Kerja K-Means:
|
|
|
|
1. Menentukan jumlah cluster (k).
|
|
2. Inisialisasi centroid secara acak.
|
|
3. Menghitung jarak setiap data terhadap centroid.
|
|
4. Menempatkan data ke cluster terdekat.
|
|
5. Memperbarui posisi centroid berdasarkan rata-rata data pada cluster.
|
|
6. Mengulangi proses hingga centroid stabil (konvergen).
|
|
|
|
Tujuan K-Means
|
|
|
|
1. Meminimalkan jarak antar data dalam satu cluster.
|
|
2. Memaksimalkan perbedaan antar cluster.
|
|
3. Menghasilkan pengelompokan wilayah yang mencerminkan kesamaan jumlah pendidik.
|
|
|
|
Evaluasi dan Penentuan Jumlah Cluster
|
|
Elbow Method menunjukkan titik optimal pada K = 3
|
|
Silhouette Score:
|
|
K = 2 → 0,731
|
|
K = 3 → 0,595
|
|
Meskipun K=2 memiliki skor lebih tinggi, K=3 dipilih karena lebih mudah diinterpretasikan secara kebijakan (kepadatan rendah, sedang, tinggi).
|
|
|
|
Hasil Evaluasi Model
|
|
Inertia: 3,68
|
|
Silhouette Score: 0,595 (kategori baik)
|
|
Davies-Bouldin Index: 0,464 (semakin kecil semakin baik)
|
|
|
|
Hasil ini menunjukkan model clustering cukup stabil dan mampu memisahkan data dengan baik.
|
|
|
|
# Hasil K-means Clustering
|
|
Pembagian Cluster
|
|
1. Cluster Kepadatan Rendah: 14 provinsi
|
|
2. Cluster Kepadatan Sedang: 7 provinsi
|
|
3. Cluster Kepadatan Tinggi: 3 provinsi (Jawa Barat, Jawa Tengah, Jawa Timur)
|
|
|
|
Interpretasi Cluster
|
|
|
|
Kepadatan Rendah
|
|
Rasio guru per sekolah: 22,31 (di bawah standar ideal).
|
|
➜ Rekomendasi: Penambahan dan pemerataan guru.
|
|
|
|
Kepadatan Sedang
|
|
Rasio guru per sekolah: 27,88 (ideal).
|
|
➜ Rekomendasi: Menjaga stabilitas distribusi.
|
|
|
|
Kepadatan Tinggi
|
|
Rasio guru per sekolah: 28,28 (ideal).
|
|
➜ Rekomendasi: Optimalisasi dan pemerataan internal.
|
|
|
|
# Hierarchical Clustering
|
|
Hierarchical Clustering merupakan metode clustering yang mengelompokkan data secara bertahap berdasarkan tingkat kemiripan antar data. Metode ini tidak menggunakan centroid seperti K-Means.
|
|
Hasil pengelompokan menunjukkan pola cluster yang relatif serupa dengan K-Means, yaitu pembagian wilayah ke dalam kepadatan rendah, sedang, dan tinggi.
|
|
Hierarchical Clustering memberikan pemahaman yang lebih jelas mengenai hubungan dan kemiripan antar wilayah, meskipun prosesnya lebih kompleks dan kurang efisien dibandingkan K-Means.
|
|
|
|
# Perbandingan K-Means vs Hierarchical Clustering
|
|
Berdasarkan hasil pengolahan data jumlah pendidik SMA/MA/sederajat tahun 2023, algoritma K-Means dan Hierarchical Clustering menghasilkan pola pengelompokan wilayah yang relatif serupa. Kedua metode membagi data ke dalam tiga cluster utama, yaitu kepadatan pendidik rendah, sedang, dan tinggi, yang menunjukkan adanya perbedaan distribusi pendidik antar wilayah di Indonesia. Hasil ini menegaskan bahwa struktur data cukup jelas sehingga dapat dikenali dengan baik oleh kedua pendekatan clustering, serta mampu menggambarkan ketimpangan dan kesamaan karakteristik antar provinsi.
|
|
|
|
Perbedaan kedua metode terletak pada pendekatan pengelompokannya. K-Means mengelompokkan data berdasarkan kedekatan terhadap pusat cluster (centroid) sehingga prosesnya lebih cepat, sederhana, dan efisien untuk analisis umum serta pengambilan keputusan. Sementara itu, Hierarchical Clustering mengelompokkan data secara bertahap berdasarkan tingkat kemiripan antar wilayah, sehingga memberikan pemahaman yang lebih mendalam mengenai struktur dan hubungan antar data. Dengan demikian, K-Means lebih unggul dari sisi efisiensi komputasi, sedangkan Hierarchical Clustering lebih informatif dalam menjelaskan hubungan antar wilayah, sehingga keduanya saling melengkapi dalam analisis distribusi pendidik.
|
|
|
|
# Kesimpulan
|
|
Berdasarkan analisis clustering terhadap data jumlah pendidik dan jumlah sekolah SMA/sederajat tahun 2023, dapat disimpulkan bahwa:
|
|
|
|
1. Dataset berhasil dikelompokkan menjadi tiga cluster utama: kepadatan rendah, sedang, dan tinggi.
|
|
2. K-Means Clustering menghasilkan pengelompokan yang jelas, stabil, dan mudah diinterpretasikan.
|
|
3. Hierarchical Clustering menunjukkan pola pengelompokan yang serupa, dengan keunggulan dalam memahami hubungan antar wilayah.
|
|
4. Hasil clustering mengindikasikan adanya ketimpangan distribusi pendidik antar provinsi, sehingga dapat dijadikan dasar pengambilan kebijakan pemerataan guru di tingkat nasional.
|
|
|