Courtesy of TechCrunch
Ikhtisar 15 Detik
- Google meluncurkan fitur implicit caching untuk mengurangi biaya penggunaan model AI bagi pengembang.
- Caching otomatis ini diharapkan memberikan penghematan biaya hingga 75% untuk konteks yang repetitif.
- Pengembang perlu menyusun permintaan mereka dengan konteks yang repetitif di awal untuk meningkatkan peluang cache hit.
Mountain View, California, United States - Google meluncurkan fitur baru bernama implicit caching di API Gemini untuk mengatasi masalah biaya tingginya pemakaian model AI mereka. Fitur ini otomatis menghemat biaya ketika permintaan yang dikirim ke model memiliki konten yang sama seperti sebelumnya, tanpa perlu kerja manual dari pengembang.
Sebelumnya, Google menggunakan explicit caching yang membuat pengembang harus menentukan prompt paling sering dipakai supaya bisa menghemat biaya. Namun, metode ini dianggap merepotkan dan tidak efektif karena kadang biaya yang muncul malah membengkak.
Dengan implicit caching, penghematan biaya dapat terjadi secara otomatis bila permintaan yang dikirim mempunyai awalan teks yang sama dengan permintaan sebelumnya. Fitur ini diaktifkan secara default untuk model Gemini 2.5 Pro dan Flash, dengan minimum token yang tidak terlalu besar agar mudah dipicu.
Google juga memberi saran agar pengembang meletakkan konteks yang sering digunakan di awal permintaan untuk meningkatkan kemungkinan cache bisa dipakai. Namun, klaim penghematan dari fitur ini masih perlu diuji oleh pengguna awal karena belum ada verifikasi dari pihak ketiga.
Fitur ini diharapkan membantu developer mengurangi pengeluaran API yang semakin tinggi karena penggunaan model AI terbaru dan menjadi langkah Google menjawab keluhan pengembang selama ini terkait biaya caching yang tidak memadai.
Pertanyaan Terkait
Q
Apa itu implicit caching yang diperkenalkan oleh Google?A
Implicit caching adalah fitur otomatis yang memungkinkan penghematan biaya saat menggunakan API Gemini dengan meng-cache konteks yang sering diakses.Q
Model AI mana yang mendukung fitur implicit caching?A
Fitur ini mendukung model Gemini 2.5 Pro dan 2.5 Flash.Q
Bagaimana cara kerja implicit caching?A
Implicit caching bekerja dengan mengidentifikasi permintaan yang memiliki prefiks umum dengan permintaan sebelumnya, sehingga memungkinkan penghematan biaya.Q
Apa yang dimaksud dengan penghematan biaya dalam konteks fitur ini?A
Penghematan biaya berarti pengembang dapat mengurangi biaya penggunaan API Gemini ketika permintaan mereka cocok dengan data yang sudah ada di cache.Q
Mengapa pengembang sebelumnya tidak puas dengan caching eksplisit dari Google?A
Pengembang tidak puas karena caching eksplisit memerlukan banyak pekerjaan manual dan dapat menyebabkan tagihan API yang mengejutkan.