Speculative Decoding dari Intel dan Weizmann Institute Demi Akselerasi Inferensi AI

Intel Labs bekerja sama dengan Weizmann Institute of Science memperkenalkan terobosan baru dalam teknologi inferensi model bahasa besar (LLM) pada konferensi International Conference on Machine Learning (ICML) di Vancouver.

Teknik yang dinamakan speculative decoding ini memadukan kecepatan model “draft” kecil dengan akurasi model besar, sehingga bisa mempercepat proses generasi teks hingga 2,8 kali lipat tanpa mengorbankan kualitas output.

Cara kerjanya sederhana namun revolusioner. Pertama, model asisten berukuran kecil menebak satu rangkaian kata lengkap — misalnya “Paris, kota yang terkenal…” — dalam sekali langkah. Setelah itu, model besar mengecek dan memperbaiki prediksi tersebut token demi token.

Dengan metode konvensional, setiap kata dihasilkan secara berurutan oleh satu model yang sama, menuntut perhitungan ulang yang berat. Melalui speculative decoding, beban komputasi menurun drastis sehingga penulisan teks menjadi lebih cepat dan hemat sumber daya.

Keunggulan lain dari pendekatan ini adalah sifatnya yang vendor-agnostik: draft model dan model besar tidak perlu berbagi kosakata atau dilatih berpasangan.

Leave a Reply

Your email address will not be published. Required fields are marked *