Rocchio classifiers merupakan salah satu metode pembelajaran supervised document classification. Metode klasifikasi rocchio membandingkan kesamaan isi antara data training dan data test dengan merepresentasikan semua data ke dalam vektor. Setiap bobot kata merupakan dimensi dalam ruang vektor. Kedekatan kesamaan isi dihitung dari kedekatan sudut yang terbentuk antara bobot data training dan bobot data test menggunakan aturan cosine. Untuk menghitung bobot setiap kata dalam dokumen digunakan skema pembobotan TFIDF (Term Frequency / Invers Document Frequency). Karena komponen heuristic / utama dari klasifikasi rocchio adalah skema pembobotan TFIDF, metode pembelajaran rocchio disebut juga dengan TFIDF Classifiers (Joachihms, 1997).
Dalam membandingkan kesamaan isi antara data training dan data test, TFIDF classifiers menggunakan prototipe vektor untuk merepresentasikan kategori yang terbentuk dari data training, dengan kata lain prototipe vektor merupakan vektor yang mewakili seluruh vektor data training dalam setiap kategori. Tiga hal utama yang dipakai pada klasifikasi TFIDF adalah menggunakan skema pembobotan TFIDF untuk merepresentasikan dokumen ke dalam vektor, merepresentasikan prototipe setiap kategori dengan menjumlahkan vektor-vektor dalam satu kategori dari data training, membandingkan kedekatan sudut antara vektor data test dengan semua prototipe vektor (Tomassen, 2007). (dikutip dari blogna http://unkick.wordpress.com/2008/03/24/rocchio-classifiers/)
nih sedikit diskusi aj nih..
nih sedikit cerita aj..
gmn gw bkin klasifikasi rocchio.
pertama gw indeksing dlu (nih gw pke sistem indeksing kak kelas gw…:P) dari sana dapet kata unik, nilai kata pada dokumen alias tf, id dokumenna. gw kembangkan dikit dari sana bisa di dapatkan klas dokumen.
kedua. gw pke tu namana Sublinear tf scaling
yg rumusna :

nah itu. pi yg wf.idfna gw g pke…(mikir2: apa gara nih y salah…?)
ketiga. gw hitung dah centriodna masing2 kelas dengan rumus:

dengan Dc: jumlah dokumen, V(d) vektor dokumen.
trus gw simpan deh di mysql.
keempat. gw bikin lagi code untuk mengubah dokumen uji. setelah gw dapet tf, kata unik dari dokumen uji.
trus gw pke dah rumus sublinear tf scaling.
kelima. gw pke rumus ecludian alias rumus jarak…
.
nah bru dapet hasilna…
tetapi sistem klasifikasi rocchio ni masih aja salah…
kalau ada yang tahu tentang algoritma klasifikasi nih tolong komen y. semoga post ini bermanfaat.
nih baru sedikit bagian dari skripsi gw nih…