diff --git a/README.md b/README.md index bc56dee..5f94311 100644 --- a/README.md +++ b/README.md @@ -3,9 +3,9 @@ Anggota: 1. Ananda Dwi Prasetyo # Ketentuan Tugas -1. Cari dataset -2. Lakukan algoritma klasifikasi, regresi atau klastering (jenis) -3. Lakukan perbandingan dengan algoritma lain +1. menentukan dataset nasional yang terdapat pada https://data.go.id/ +2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok +3. Cari perbandingan dengan algoritma lain 4. Lakukan evaluasi model 5. Lakukan cross validation 6. Laporan diletakkan di gitlab @@ -22,6 +22,18 @@ Pada tahun 2023, Indonesia mencatat jumlah pendidik pada jenjang SMA dan sederaj # Analisis Dataset: K-Means Clustering +Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering +Algoritma yang disarankan: +1. K-Means Clustering +2. Hierarchical Clustering +3. DBSCAN +Alasan: +Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena: +1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik +2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan) +3. Menemukan cluster wilayah dengan karakteristik serupa +4. Membantu pemerintah dalam perencanaan distribusi guru + Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi bagian dari satu cluster saja. Clustering merupakan salah satu metode unsupervised learning, yang mana datasetakan dipartisi menjadi kelompok atau clusteryang berbeda berdasarkan ukuran kesamaan tertentu. Metode ini akan mengelompokkan objek-objek ke dalam cluster berdasarkan karakteristik yang memiliki tingkat kemiripan yang signifikan jika berada dalam satu kluster, dan memiliki perbedaan yang cukup besar jika objek berada dalam kluster yang berbeda.