4.9 KiB
Praktikum 1 Machine Learning
Ananda Dwi Prasetyo
202310715065
F5A2
Regression dan Classification
Regression
Regression adalah salah satu metode dalam machine learning yang digunakan untuk memprediksi nilai numerik (angka) berdasarkan hubungan antara variabel input (independent variables) dan variabel output (dependent variable). Tujuan utama regression adalah mencari pola atau fungsi matematika yang paling sesuai dengan data sehingga model dapat memprediksi nilai output untuk data baru. Berbeda dengan classification yang menghasilkan kelas atau kategori, regression menghasilkan nilai kontinu, seperti harga rumah, suhu, jumlah pengunjung, atau penjualan.
ALGORITMA REGRESSION
- Single Linear Regression adalah bentuk regression paling sederhana yang hanya melibatkan satu variabel input. Model ini berusaha menemukan garis lurus terbaik yang menggambarkan hubungan antara satu input dan satu output.
- Multiple Linear Regression adalah pengembangan dari single linear regression, tetapi menggunakan lebih dari satu variabel input. Hubungan antara input dan output tetap diasumsikan linear, tetapi dalam bentuk bidang atau hyperplane.
- Polynomial Regression adalah jenis regression linear yang ditingkatkan dengan menambahkan pangkat (degree) pada variabel input, seperti X², X³, dan seterusnya. Meskipun menggunakan metode linear regression untuk menghitung parameter, bentuk hubungannya menjadi non-linear. Model ini cocok untuk data yang membentuk pola melengkung atau kurva.
- Non Linear Regression adalah bentuk regression di mana hubungan antara input dan output benar-benar non-linear, tidak dapat direpresentasikan oleh garis lurus maupun polinomial tertentu. Model ini menggunakan fungsi matematika yang kompleks, seperti eksponensial, logaritmik, power-law, sigmoid, atau model berbasis kurva lainnya.
Classification
Classification adalah suatu metode dalam machine learning yang bertujuan untuk mengelompokkan data ke dalam kategori atau kelas tertentu berdasarkan pola yang ditemukan dari data sebelumnya. Dalam prosesnya, model dilatih menggunakan data yang sudah memiliki label kelas, sehingga mesin dapat memahami hubungan antara fitur-fitur dalam data dengan kategori yang menjadi target. Setelah pola tersebut dipelajari, model dapat digunakan untuk memprediksi kelas dari data baru yang belum pernah dilihat sebelumnya.
Metode ini banyak digunakan dalam berbagai bidang, seperti pendeteksian email spam, diagnosa penyakit, identifikasi objek pada gambar, hingga analisis sentimen pada teks. Dengan kata lain, classification membantu komputer membuat keputusan kategorikal secara otomatis berdasarkan informasi yang dipelajari dari contoh data terdahulu.
ALGORITMA CLASSIFICATION
- Logistic Regression Logistic Regression adalah algoritma classification yang memprediksi suatu data ke dalam dua kelas atau lebih dengan menghitung probabilitas menggunakan fungsi logistik (sigmoid). Meskipun namanya “regression”, algoritma ini tidak memprediksi angka kontinu, melainkan memutuskan apakah suatu data termasuk ke dalam kelas tertentu berdasarkan nilai probabilitas. Logistic Regression sangat cocok digunakan pada kasus seperti deteksi spam, prediksi gagal bayar, atau klasifikasi sederhana lainnya.
- Decision Tree Decision Tree adalah algoritma yang bekerja dengan membentuk sebuah struktur pohon keputusan. Setiap cabang pohon mewakili aturan atau kondisi tertentu, dan setiap daun (leaf) pada pohon menunjukkan kelas akhir data. Algoritma ini memilih fitur yang paling informatif untuk memecah data secara bertahap sehingga menghasilkan keputusan yang mudah dipahami. Karena bentuknya seperti pohon logika, Decision Tree sangat mudah diinterpretasikan oleh manusia dan sering digunakan untuk analisis keputusan seperti penentuan risiko, klasifikasi pelanggan, atau diagnosa penyakit.
- K-Nearest Neighbors (KNN) KNN adalah algoritma classification yang bekerja berdasarkan kedekatan jarak antara satu data dengan data lain dalam ruang fitur. Saat menerima data baru, algoritma mencari k data terdekat (tetangga terdekat) dari data tersebut, kemudian menentukan kelas berdasarkan suara terbanyak (majority voting) dari tetangga-tetangga tersebut. Algoritma ini sederhana namun efektif, terutama untuk dataset kecil hingga menengah, misalnya untuk pengenalan pola, rekomendasi, atau deteksi objek.
- Support Vector Machine (SVM) SVM adalah algoritma classification yang bekerja dengan mencari garis atau hyperplane terbaik yang memisahkan dua kelas data. Hyperplane terbaik adalah yang memberikan jarak terbesar (margin) antara dua kelas, sehingga keputusan model menjadi lebih kuat dan tidak mudah terpengaruh oleh noise atau data yang salah label. SVM juga dapat menangani data yang tidak linear dengan menggunakan kernel (misalnya RBF atau polynomial) untuk memetakan data ke ruang dimensi lebih tinggi agar dapat dipisahkan. Algoritma ini kuat, akurat, dan sering digunakan pada klasifikasi teks, pengenalan wajah, dan berbagai aplikasi machine learning lain yang membutuhkan presisi tinggi.