In [1]:
# Input jumlah dokumen
import pandas as pd
n = int(input("Masukkan jumlah dokumen yang ingin dimasukkan: "))

Masukkan jumlah dokumen yang ingin dimasukkan: 3


In [2]:
# Input teks dokumen satu per satu
documents = []
for i in range(n):
    teks = input(f"Masukkan teks untuk dokumen ke-{i+1}: ")
    documents.append(teks)

print("\n=== Dokumen yang Dimasukkan ===")
for i, doc in enumerate(documents):
    print(f"Doc {i+1}: {doc}")

Masukkan teks untuk dokumen ke-1: saya belajar nlp di kampus
Masukkan teks untuk dokumen ke-2: saya suka belajar ai
Masukkan teks untuk dokumen ke-3: mahasiswa belajar data science dan nlp

=== Dokumen yang Dimasukkan ===
Doc 1: saya belajar nlp di kampus
Doc 2: saya suka belajar ai
Doc 3: mahasiswa belajar data science dan nlp


In [3]:
# Tahap Tokenisasi
tokenized_docs = []
for doc in documents:
    tokens = doc.lower().split()
    tokenized_docs.append(tokens)

print("\n=== Hasil Tokenisasi ===")
for i, tokens in enumerate(tokenized_docs):
    print(f"Doc {i+1}: {tokens}")


=== Hasil Tokenisasi ===
Doc 1: ['saya', 'belajar', 'nlp', 'di', 'kampus']
Doc 2: ['saya', 'suka', 'belajar', 'ai']
Doc 3: ['mahasiswa', 'belajar', 'data', 'science', 'dan', 'nlp']


In [4]:
# Pembuatan Corpus
corpus_all = [word for doc in tokenized_docs for word in doc]

print("\n=== Corpus Keseluruhan (Semua Kata dari Semua Dokumen) ===")
print(corpus_all)
print(f"Jumlah total kata dalam seluruh dokumen: {len(corpus_all)}")


=== Corpus Keseluruhan (Semua Kata dari Semua Dokumen) ===
['saya', 'belajar', 'nlp', 'di', 'kampus', 'saya', 'suka', 'belajar', 'ai', 'mahasiswa', 'belajar', 'data', 'science', 'dan', 'nlp']
Jumlah total kata dalam seluruh dokumen: 15


In [5]:
# Pembuatan Vocabulary
vocabulary = sorted(set(corpus_all))

print("\n=== Vocabulary (Kata Unik) ===")
print(vocabulary)
print(f"Jumlah kata unik (vocabulary size): {len(vocabulary)}")


vocabulary = sorted(set(corpus_all))

print("\n=== Vocabulary (Kata Unik) ===")
for idx, word in enumerate(vocabulary, start=1):
    print(f"{idx:>2}. {word}")
print(f"\nJumlah kata unik (vocabulary size): {len(vocabulary)}")


=== Vocabulary (Kata Unik) ===
['ai', 'belajar', 'dan', 'data', 'di', 'kampus', 'mahasiswa', 'nlp', 'saya', 'science', 'suka']
Jumlah kata unik (vocabulary size): 11

=== Vocabulary (Kata Unik) ===
 1. ai
 2. belajar
 3. dan
 4. data
 5. di
 6. kampus
 7. mahasiswa
 8. nlp
 9. saya
10. science
11. suka

Jumlah kata unik (vocabulary size): 11


In [6]:
# Representasi Numerik (Matriks BoW)
bow_matrix = []
for doc in tokenized_docs:
    vector = [doc.count(word) for word in vocabulary]
    bow_matrix.append(vector)

In [7]:
df_bow = pd.DataFrame(bow_matrix, columns=vocabulary)
df_bow.index = [f"D{i}" for i in range(1, len(documents)+1)]  # ubah label indeks jadi D1, D2, D3

print("\n=== Matriks Bag of Words ===")
print(df_bow)


=== Matriks Bag of Words ===
    ai  belajar  dan  data  di  kampus  mahasiswa  nlp  saya  science  suka
D1   0        1    0     0   1       1          0    1     1        0     0
D2   1        1    0     0   0       0          0    0     1        0     1
D3   0        1    1     1   0       0          1    1     0        1     0


In [8]:
# Membuat Tabel Frekuensi Kata (Total dari seluruh dokumen)
word_frequencies = df_bow.sum().sort_values(ascending=False).reset_index()
word_frequencies.columns = ["Kata", "Frekuensi"]

print("\n=== Tabel Frekuensi Kata (Keseluruhan Dokumen) ===")
print(word_frequencies)
print(f"Frekuensi kata: {len(word_frequencies)}")


=== Tabel Frekuensi Kata (Keseluruhan Dokumen) ===
         Kata  Frekuensi
0     belajar          3
1         nlp          2
2        saya          2
3         dan          1
4          ai          1
5        data          1
6          di          1
7   mahasiswa          1
8      kampus          1
9     science          1
10       suka          1
Frekuensi kata: 11
