Courtesy of TechCrunch
Quantization adalah teknik yang digunakan untuk membuat model AI lebih efisien dengan mengurangi jumlah bit yang diperlukan untuk merepresentasikan informasi. Misalnya, saat ditanya waktu, kita bisa menjawab "siang" daripada menjelaskan secara detail. Namun, penelitian menunjukkan bahwa model yang sudah dilatih dengan baik mungkin tidak berfungsi lebih baik jika kita mengurangi presisi mereka. Ini berarti bahwa terkadang lebih baik melatih model yang lebih kecil daripada mencoba mengurangi ukuran model yang besar. Hal ini menjadi tantangan bagi perusahaan AI yang biasanya melatih model besar untuk meningkatkan kualitas jawaban.
Penelitian juga menunjukkan bahwa meskipun ada dorongan untuk menggunakan presisi yang lebih rendah dalam pelatihan model, hal ini bisa menyebabkan penurunan kualitas jika tidak dilakukan dengan hati-hati. Misalnya, model saat ini biasanya dilatih dengan presisi 16-bit dan kemudian dikurangi menjadi 8-bit. Namun, jika presisi terlalu rendah, kualitas model bisa menurun. Oleh karena itu, penting untuk memilih data yang berkualitas tinggi dan mempertimbangkan cara baru dalam merancang model agar tetap stabil meskipun menggunakan presisi rendah.