Anggota Kelompok : 
1. Aryo Saputro (202310715049)
2. Fawaz Irwan Ramadhan (202310715161)
3. Putra Al Rifki (202310715112)
<br>
<br>

**Laporan Analisis Klasifikasi Kualitas Film**

Metode: Random Forest vs. K-Nearest Neighbors (KNN)

Dataset: Latest 2025 Movies Dataset
1. Pendahuluan

    1.1 Latar Belakang

    Penelitian ini bertujuan untuk membangun model Machine Learning yang mampu memprediksi apakah sebuah film layak tonton (watchable) atau sebaiknya dilewati , berdasarkan meta-data popularitas film tersebut.

    1.2 Deskripsi Dataset

    Sumber Data: Latest 2025 movies Datasets.csv

    Total Sampel: 10.000 judul film.

    Fitur Independen (X):

        popularity (Skor popularitas numerik)

        vote_count (Jumlah partisipasi voting)

        original_language (Bahasa asli film)

    Target Dependen (y): is_watchable

        Kelas 1 (Layak Tonton): Rating (vote_average) > 7.0

        Kelas 0 (Lewati): Rating (vote_average) ≤ 7.0

    1.3 Distribusi Kelas

    Berdasarkan analisis awal, dataset memiliki distribusi yang tidak seimbang (imbalanced):

        Kelas 0 (Lewati): ~74.7%
        Kelas 1 (Layak Tonton): ~25.3%
        Catatan: Strategi Stratified Sampling digunakan untuk menjaga proporsi ini selama pelatihan.

2. Metodologi

    2.1 Pra-pemrosesan Data (Preprocessing)

    Sebelum masuk ke pemodelan, dilakukan tahapan berikut:

        1. Penanganan Missing Values: Menggunakan strategi median untuk data numerik.
        2. Feature Scaling: Menggunakan StandardScaler untuk menstandarisasi fitur numerik (popularity, vote_count). Langkah ini krusial untuk KNN agar perhitungan jarak tidak bias.
        3.Encoding Kategorikal: Menggunakan OneHotEncoder untuk fitur original_language.

    2.2 Skenario Pengujian

        Pembagian Data: 80% Latih (Train), 20% Uji (Test).
        Validasi: Stratified K-Fold Cross Validation (5-Fold) dan GridSearchCV untuk pencarian hyperparameter otomatis.
        Metrik Evaluasi: Akurasi, Presisi, Recall, F1-Score, dan ROC-AUC.

3. Hasil Evaluasi Model

    Berikut adalah ringkasan performa model terbaik setelah proses Hyperparameter Tuning:
| Metrik               | Random Forest (Tuned) | K-Nearest Neighbors (KNN) |
|----------------------|-----------------------|---------------------------|
| Akurasi              | ~85.0%                | ~78.0%                    |
| Presisi (Kelas 1)    | ~74.0%                | ~58.0%                    |
| Recall (Kelas 1)     | ~60.0%                | ~42.0%                    |
| F1-Score             | ~0.66                 | ~0.49                     |
| ROC - AUC            | 0.84                  | 0.74                      |


    3.1 Analisis Performa

        1. Dominasi Random Forest: Model Random Forest mengungguli KNN di seluruh metrik pengujian. Hal ini disebabkan oleh sifat         ensemble Random Forest yang lebih tahan terhadap noise dan mampu menangani fitur kategorikal (bahasa) dengan lebih baik daripada perhitungan jarak KNN.

        2. Kelemahan KNN: KNN cenderung memiliki banyak False Positives (memprediksi film jelek sebagai bagus) dan sensitivitas (Recall) yang rendah pada dataset ini.

        3. Masalah Keseimbangan: Kedua model menunjukkan performa lebih tinggi pada Kelas 0 (Mayoritas) dibandingkan Kelas 1 (Minoritas), namun Random Forest menangani kelas minoritas jauh lebih baik dibanding KNN.

4. Analisis Fitur (Feature Importance)

    Berdasarkan ekstraksi Gini Impurity dari model Random Forest, berikut adalah fitur yang paling mempengaruhi keputusan apakah film tersebut layak tonton:

        1. Vote Count (Jumlah Suara): Fitur paling dominan. Film dengan jumlah vote yang sangat tinggi cenderung memiliki korelasi kuat dengan kualitas (karena film bagus cenderung memancing banyak orang untuk memberi rating).

        2. Popularity: Tingkat popularitas saat ini.

        3. Original Language: Bahasa film memiliki pengaruh kecil namun tetap berkontribusi.

    Insight: Popularitas dan banyaknya interaksi penonton (vote) adalah indikator terkuat kualitas film dalam dataset ini, jauh melebihi faktor bahasa.

5. Kesimpulan dan Rekomendasi

    5.1 Kesimpulan

        1. Model Terbaik: Random Forest direkomendasikan untuk digunakan dalam sistem produksi karena memiliki stabilitas akurasi dan AUC yang jauh lebih tinggi (0.84 vs 0.74).

        2. Ambang Batas: Sistem klasifikasi berhasil memisahkan film berkualitas tinggi dengan akurasi 85%, yang dianggap cukup baik untuk sistem rekomendasi awal.