BLEU dan ROUGE Perbedaan Dua Metrik Evaluasi Teks Terpopuler

Saat penciptaan teknologi Natural Language Processing (NLP), tugasnya yaitu buat ukur mutu teks yang dicetak sama mesin, dan itu jadi salah satu tantangan terbesarnya. Beda sama data numerik yang punya jawaban menentu, mutu bahasanya pun berkarakter subjektif dan kontekstual. Buat memperantarai hal ini, para peneliti punya andalan metrik otomatis biar proses evaluasi berlangsung cepat dan efisien. Dua nama yang sering tampak di literatur teknologi ialah BLEU dan ROUGE.

Walaupun dua metrik ini sering dipakai di waktu yang bersamaan, BLEU dan ROUGE punya fokus, mekanisme, sama fungsi sendiri-sendiri. Paham soal perbedaan mendasar antar keduanya bukan cuma soal teknis, akan tetapi soal bagaimana kita pastikan model AI kasih hasil yang pas dan lebih manusiawi.

BLEU dan ROUGE tetap menjadi dua metrik evaluasi teks terpopuler

Apa Itu BLEU? Fokus pada Presisi dan Penerjemahan

BLEU atau Bilingual Evaluation Understudy adalah metrik yang pada awalnya didesain buat menilai mutu dari terjemahan mesin (Machine Translation). Prosedur ini kerja caranya dengan bandingkan teks hasil mesin (candidate) sama satu atau beberapa teks acuan yang ditulis sama manusia.

Dasar kerja BLEU ada di konsep Presisi. Metrik ini hitung ada berapa banyak sih kata atau frasa (n-gram) di teks mesin yang juga muncul dalam teks referensi. Kalau mesin hasilkan kata-kata yang nyaris semua katanya ada di referensi manusia, jadinya nanti skor BLEU bakal makin tinggi.

Tapi, BLEU punya susunan tambahan yang disebut Brevity Penalty. Susunan ini fungsinya buat cegah mesin “bermain curang” dengan hasilkan kata-kata yang pendek sekali walau tetap akurat. Kalau tidak ada konsekuensi ini, mesin bisa aja cuma tulis satu kata yang benar dan dapatkan skor sempurna. BLEU pastikan panjang kalimat mesin minimal dekati panjang kalimat referensi.

Apa Itu ROUGE? Fokus pada Recall dan Ringkasan

Di sisi lain, kita juga haru tahu ROUGE. ROUGE ini adalah kependekan kata dari Recall-Oriented Understudy for Gisting Evaluation. Kalau BLEU ialah standar emas buat penerjemahan, tugas ROUGE disini yaitu buat rangkuman teks otomatis (Text Summarization).

Beda sama BLEU yang kejar presisi, ROUGE fokusnya ke Recall. Metrik ini ukur berapa banyak sih informasi yang dihasilkan sama teks referensi manusia yang sukses didapat atau dicakup sama teks mesin. Di sebuah ringkasan, tujuan pokoknya adalah pastikan semua poin penting tidak terlewat, itu sebabnya aspek recall jadi krusial sekali.

ROUGE punya beberapa varian yang terkenal, seperti:

ROUGE-N: Tugasnya buat ukur tumpang tindih n-gram (misalnya ROUGE-1 buat kata tunggal, ROUGE-2 buat pasangan kata).
ROUGE-L: Ini dasarnya dari Longest Common Subsequence (LCS), tugasnya lihat urutan kata terpanjang yang sama persis, dengan begitu ROUGE-L bisa dapatkan struktur kalimat lebih baik.

Perbedaan Mendasar: Presisi vs Recall

Perbedaan yang paling kelihatan antar BLEU sama ROUGE ada di arah perbandingannya.

Analoginya biar mudah dipahami jadinya seperti ini: Presisi (BLEU) tanya, “Berapa banyak dari apa ditulis mesin itu, benar kata manusia?”. Kalau Recall (ROUGE) tanya, “Berapa banyak dari apa yang ditulis manusia bisa dipresentasikan lagi sama mesin?”.

Di penerjemahan, kita ingin setiap kata yang muncul dari mesin ialah kata yang tepat (Presisi). Tapi, kalau di perangkuman, kita lebih ingin mesin tidak lewatkan informasi penting yang ada di naskah asli (Recall). Inilah alasannya kenapa dua metrik ini punya peran spesifik masing-masing dan bisa kacau kalau diganti sama lain.

Kelebihan dan Keterbatasan Metrik Otomatis

Pemakaian BLEU sama ROUGE begitu populer soalnya bisa sangat cepat. Kalau evaluasi ribuan kalimat dilakukan manual pakai jasa manusia, bakal makan biaya sama waktu yang luar biasa mahal. Kalau sama metrik ini, pengembang bisa lakukan iterasi model cuma dengan hitungan menit.

Tapi, kita juga harus sadar jika dua metrik ini punya keterbatasan yang cukup signifikan. Dua-duanya bergantung sekali ke tumpang tindih kata secara literal (lexical overlap).

Kelemahan utama dari sistem berbasis n-gram ini terdiri dari:

Kurangnya Pemahaman Sinonim: Kalau mesin pakai kata “cepat” sedangkan referensi manusia pakai kata “kilat”, dua metrik ini bakal kasih skor nol buat kata itu, padahal artinya tetap sama.
Abaikan Struktur Semantik: Kalimat yang punya kata-kata sama tapi dijejer secara acak dan tidak logis tetap bisa dapatkan skor tinggi, asal kata-katanya masih cocok sama referensi.
Ketergantungan pada Referensi: Kualitas skor ditentukan sekali sama seberapa bagus dan beragam teks referensi manusia yang tersedia.

Kapan Harus Menggunakan BLEU atau ROUGE?

Pemilihan metrik sangat bergantung pada tujuan akhir dari model yang sedang dibangun.

Jika fokus kamu adalah membangun sistem Penerjemahan Mesin atau sistem Chatbot yang harus memberikan jawaban akurat secara kata demi kata, maka BLEU adalah metrik yang paling relevan. Skor BLEU yang tinggi memberikan indikasi bahwa mesin mampu meniru gaya bahasa dan ketepatan pemilihan kata manusia.

Sebaliknya, jika kamu sedang mengembangkan sistem Ringkasan Berita atau Ekstraksi Informasi, maka ROUGE adalah pilihan utama. ROUGE akan memastikan bahwa intisari dari dokumen asli tetap terjaga dalam hasil ringkasan yang lebih pendek.

Dalam riset modern, banyak peneliti kini menggunakan kombinasi keduanya, ditambah dengan metrik berbasis embedding atau AI (seperti METEOR atau BERTScore) untuk menutupi kelemahan dalam pemahaman sinonim dan makna mendalam.

BLEU dan ROUGE tetap menjadi dua metrik evaluasi teks terpopuler karena efisiensinya dalam memberikan standarisasi performa model. BLEU menjaga ketepatan setiap kata yang dihasilkan, sementara ROUGE memastikan kelengkapan informasi yang disampaikan.

Meskipun demikian, angka yang tinggi pada BLEU maupun ROUGE bukanlah akhir dari segalanya. Evaluasi manusia tetap menjadi standar tertinggi untuk menilai keaslian, kelancaran, dan nuansa emosional dalam sebuah teks. Menggunakan kedua metrik ini secara bijak sambil tetap mempertimbangkan aspek semantik adalah kunci utama dalam menciptakan teknologi bahasa yang benar-benar cerdas dan bermanfaat bagi penggunanya.

BLEU dan ROUGE punya fokus, mekanisme, serta fungsinya sendiri-sendiri