From 5acf0d0167652f697c82ccb3c73873bf1b923b23 Mon Sep 17 00:00:00 2001
From: 202310715065 ANANDA DWI PRASETYO <202310715065@mhs.ubharajaya.ac.id>
Date: Tue, 18 Nov 2025 18:39:16 +0700
Subject: [PATCH] Update README.md

---
 README.md | 18 +++++++++++++++---
 1 file changed, 15 insertions(+), 3 deletions(-)

diff --git a/README.md b/README.md
index bc56dee..5f94311 100644
--- a/README.md
+++ b/README.md
@@ -3,9 +3,9 @@ Anggota:
 1. Ananda Dwi Prasetyo
 
 # Ketentuan Tugas
-1. Cari dataset
-2. Lakukan algoritma klasifikasi, regresi atau klastering (jenis)
-3. Lakukan perbandingan dengan algoritma lain
+1. menentukan dataset nasional yang terdapat pada https://data.go.id/
+2. Tentukan algoritma (klasifikasi, regresi atau klastering) yang paling cocok 
+3. Cari perbandingan dengan algoritma lain
 4. Lakukan evaluasi model
 5. Lakukan cross validation 
 6. Laporan diletakkan di gitlab
@@ -22,6 +22,18 @@ Pada tahun 2023, Indonesia mencatat jumlah pendidik pada jenjang SMA dan sederaj
 
 # Analisis Dataset: K-Means Clustering
 
+Algoritma yang paling cocok untuk mengolah dataset ini adalah Clustering
+Algoritma yang disarankan:
+1. K-Means Clustering
+2. Hierarchical Clustering
+3. DBSCAN
+Alasan:
+Dataset jumlah pendidik per wilayah sangat cocok untuk clustering karena:
+1. Mengelompokkan wilayah berdasarkan kesamaan jumlah pendidik
+2. Mengidentifikasi pola distribusi pendidik (wilayah surplus vs kekurangan)
+3. Menemukan cluster wilayah dengan karakteristik serupa
+4. Membantu pemerintah dalam perencanaan distribusi guru
+
 Pada penelitian ini data dianalisis dengan metode analisis clusterya itu K-Means Clustering yang  mana termasuk dalam metode non hirarki. K-Means menggunakan pendekatan yang berbeda dengan metode lain seperti Fuzzy C-Means, Agglomerative Hierarchical Clustering, dan K-Medoids. K-Means hanya memungkinkan suatu data menjadi bagian dari satu cluster, sedangkan metode lain seperti Fuzzy C-Means memungkinkan suatu data tidak hanya menjadi  bagian dari satu cluster saja.
 
 Clustering merupakan salah satu metode unsupervised learning, yang mana datasetakan dipartisi menjadi kelompok atau clusteryang berbeda berdasarkan ukuran kesamaan tertentu. Metode ini akan mengelompokkan objek-objek ke dalam cluster berdasarkan karakteristik yang memiliki tingkat kemiripan yang signifikan jika berada dalam satu kluster, dan memiliki perbedaan yang cukup besar jika objek berada dalam kluster yang berbeda.