Intel Labs bekerja sama dengan Weizmann Institute of Science memperkenalkan terobosan baru dalam teknologi inferensi model bahasa besar (LLM) pada konferensi International Conference on Machine Learning (ICML) di Vancouver.
Teknik yang dinamakan speculative decoding ini memadukan kecepatan model “draft” kecil dengan akurasi model besar, sehingga bisa mempercepat proses generasi teks hingga 2,8 kali lipat tanpa mengorbankan kualitas output.
Cara kerjanya sederhana namun revolusioner. Pertama, model asisten berukuran kecil menebak satu rangkaian kata lengkap — misalnya “Paris, kota yang terkenal…” — dalam sekali langkah. Setelah itu, model besar mengecek dan memperbaiki prediksi tersebut token demi token.
Keunggulan lain dari pendekatan ini adalah sifatnya yang vendor-agnostik: draft model dan model besar tidak perlu berbagi kosakata atau dilatih berpasangan.