Pemrosesan teks mencakup:
- Information retrieval: pencarian dokumen
- Klasifikasi dokumen: membagi dokumen ke dalam kelas-kelas yang telah ditentukan sebelumnya. Misalnya secara otomatis dapat menentukan apakah dokumen ini masuk ke dalam kategori politik, ekonomi, militer dan lain sebagainya.
- Document Clustering: mirip dengan klasifikasi dokumen, hanya saja kelas dokumen tidak ditentukan sebelumnya. Misalnya berita tentang lalulintas dapat menjadi satu kelas dengan berita tentang kriminal karena didalamnya banyak memuat tentang orang yang tewas, cedera, rumah sakit dsb.
- Peringkasan teks. Menghasilkan ringkasan suatu dokumen secara otomatis.
- Ekstraksi informasi. Mengekstrak informasi yang dianggap penting dari suatu dokumen. Misalnya pada dokumen lowongan, walaupun memiliki format beragam dapat diekstrak secara otomatis job title, tingkat pendidikan, penguasaan bahasa dsb.
Pada praktikum ini akan diperlihatkan distribusi statistik pemakaian kata-kata dalam Bahasa Indonesia. Hal yang ingin didapatkan yaitu :
- Jumlah huruf
- Jumlah Kata
- Jumlah kalimat
- Jumlah huruf per kata
- Jumlah kata per kalimat
- Jumlah kalimat per paragraph
Tahapan dalam membuat program parsing menggunakan Visual Basic adalah sebagai berikut:
1.Atur form sebagai berikut:
2.Ketik kode berikut
Public Function HitungHuruf(ByVal Text As String) As Long
Dim i, xx, Jumlah As Integer
For i = 1 To Len(Text)
xx = Asc(Mid(Text, i, 1)) ' ubah text menjadi kode ASCII
If (xx >= 65 And xx <= 90) Or (xx >= 97 And xx <= 122) Then 'kode tombol ASCII untuk huruf a-z mulai dari 65-90 Jumlah = Jumlah + 1 End If Next HitungHuruf = Jumlah End Function
Public Function HitungJmlKata(ByVal Text As String) As Long
'Definisikan sebuah tanda hubung pada setiap akhir baris yang
'merupakan bagian dari seluruh kata, jadi kombinasikan bersama.
Text = Trim(Replace(Text, "-" & vbNewLine, ""))
'Ganti baris baru dengan sebuah space tunggal
Text = Trim(Replace(Text, vbNewLine, " "))
'Ganti spasi yang lebih dari satu (jika ada) menjadi spasi tunggal
Text = Replace(Text, ".", " ")
Do While Text Like "* *"
Text = Replace(Text, " ", " ")
Loop
'Pisahkan string dan kembalikan kata yang dihitung
HitungJmlKata = 0 + UBound(Split(Text, " "))
End Function
Public Function HitungKalimat(ByVal Text As String) As Long
'Definisikan sebuah tanda hubung pada setiap akhir baris yang
'merupakan bagian dari seluruh kata, jadi kombinasikan bersama.
Text = Trim(Replace(Text, "-" & vbNewLine, ""))
'Ganti baris baru dengan sebuah space tunggal
Text = Trim(Replace(Text, vbNewLine, " "))
'Ganti spasi yang lebih dari satu (jika ada) menjadi spasi tunggal
Do While Text Like "* *"
Text = Replace(Text, " ", " ")
Loop
'Pisahkan string dan kembalikan kalimat yang dihitung
HitungKalimat = 1 + UBound(Split(Text, ".")) + _
UBound(Split(Text, "?")) + UBound(Split(Text, "!"))
End Function
Public Function HitungHurufPerKata()
Text4.Text = _
HitungHuruf(RichTextBox1.Text)/HitungJmlKata(RichTextBox1.Text)
End Function
Public Function HitungKataPerKalimat()
Text5.Text = _
HitungJmlKata(RichTextBox1.Text)/HitungKalimat(RichTextBox1.Text)
End Function
Private Sub Command1_Click()
Text1.Text = HitungHuruf(RichTextBox1.Text)
Text2.Text = HitungJmlKata(RichTextBox1.Text)
Text3.Text = HitungKalimat(RichTextBox1.Text)
HitungHurufPerKata
HitungKataPerKalimat
End Sub
Private Sub Command2_Click()
Dim Contrl As Control
For Each Contrl In Form1.Controls
If (TypeOf Contrl Is RichTextBox) Then Contrl.Text = ""
Next Contrl
RichTextBox1.SetFocus
Text = ""
Text1.Text = ""
Text2.Text = ""
Text3.Text = ""
Text4.Text = ""
Text5.Text = ""
End Sub
3.jalankan program tersebut dan inputkan beberapa kalimat
4.amati outputnya, kemudian masukkan sebuah kalimat seperti contoh tampilan berikut.
Tugas temen-temen nich....
- pada program di atas, coba tambahkan fungsi untuk menghitung jumlah paragraph dari sebuah artikel, fungsi untuk menghitung jumlah kalimat per paragraph
- tambahkan fungsi untuk menampilkan distribusi frekwensi kemunculan huruf atau huruf yang paling banyak digunakan.