Courtesy of InterestingEngineering

Headphone Pintar Terjemahkan Banyak Pembicara Serta Simpan Arah Suara

Mengembangkan sistem headphone yang dapat menerjemahkan beberapa pembicara sekaligus sambil mempertahankan arah suara dan kualitas unik suara masing-masing pembicara dalam waktu nyata.

10 Mei 2025, 21.40 WIB

270 dibaca

Ikhtisar 15 Detik

Sistem terjemahan suara spasial mampu menerjemahkan beberapa pembicara dengan mempertahankan karakteristik suara masing-masing.
Penelitian ini menandai langkah awal menuju integrasi persepsi spasial dalam terjemahan suara.
Sistem ini tidak menggunakan komputasi awan untuk menjaga privasi pengguna.

Seattle, Washington, United States - Para peneliti dari University of Washington mengembangkan sistem headphone pintar yang mampu menerjemahkan beberapa pembicara sekaligus, sambil tetap mempertahankan suara asli dan arah sumber suara tiap orang. Sistem ini menggunakan headphone biasa yang dilengkapi mikrofon dan mengandalkan algoritma canggih untuk mengelola suara secara spatial.

Sistem yang disebut Spatial Speech Translation ini dapat langsung mendeteksi berapa banyak orang yang berbicara dalam ruang yang sama, baik di dalam ruangan maupun di luar ruangan, dengan teknologi yang mirip radar untuk memindai 360 derajat secara terus menerus.

Selain menerjemahkan, sistem juga menjaga ekspresi suara dan volume setiap pembicara, serta mampu mengikuti pergerakan kepala pembicara sehingga suara yang diterima oleh pengguna terasa alami dan realistis. Hal ini membuat pengalaman mendengar jadi jauh lebih baik dibanding model terjemahan suara sebelumnya.

Pengujian sistem dilakukan pada 29 partisipan di 10 lokasi berbeda dan hasilnya mereka lebih menyukai sistem ini, terutama dengan delay terjemahan sekitar 3-4 detik, walaupun para peneliti masih bekerja untuk mempercepat waktu terjemahan tanpa mengurangi kualitasnya. Sistem ini dioperasikan di perangkat lokal seperti laptop dengan chip Apple M2 tanpa perlu koneksi internet, sehingga lebih aman dari risiko pelanggaran privasi.

Saat ini, sistem baru mendukung bahasa sehari-hari seperti Spanyol, Jerman, dan Perancis, dan belum mampu menangani bahasa teknis atau khusus. Namun, teknologi ini menjadi langkah awal penting dalam mengintegrasikan pemahaman spatial atau ruang ke dalam teknologi terjemahan suara yang selama ini belum ada.

Referensi:
[1] https://interestingengineering.com/innovation/us-system-translates-several-speakers-once

Analisis Ahli

Shyam Gollakota

"Sistem kami membawa revolusi pada teknologi terjemahan dengan mempertahankan arah dan kualitas suara setiap pembicara secara simultan, yang merupakan langkah besar menuju komunikasi natural antarbahasa di dunia nyata."

Analisis Kami

"Sistem terjemahan spatial ini adalah terobosan penting yang mengatasi batasan teknologi terjemahan konvensional yang hanya fokus pada satu pembicara. Namun, pengembangan selanjutnya harus menyeimbangkan kecepatan dan akurasi sehingga delay 3-4 detik tidak mengurangi kenyamanan pengguna secara signifikan."

Prediksi Kami

Sistem ini kemungkinan akan dikembangkan lebih lanjut untuk mendukung lebih banyak bahasa dan mempercepat proses penerjemahan, sehingga dapat digunakan secara luas dalam perangkat hearable untuk mempermudah komunikasi lintas bahasa dalam aktivitas sehari-hari.

Pertanyaan Terkait

Apa itu sistem terjemahan suara spasial?

Sistem terjemahan suara spasial adalah sistem headphone yang dapat menerjemahkan beberapa pembicara secara bersamaan sambil mempertahankan arah dan kualitas suara mereka.

Siapa yang mengembangkan sistem ini?

Sistem ini dikembangkan oleh peneliti dari Universitas Washington.

Apa inovasi utama dari sistem ini?

Inovasi utama dari sistem ini adalah kemampuan untuk mendeteksi jumlah pembicara, menerjemahkan ucapan dengan mempertahankan kualitas suara, dan melacak arah suara saat pembicara bergerak.

Dalam pengujian, bagaimana pengguna merespons sistem ini?

Dalam pengujian, sebagian besar pengguna lebih memilih sistem ini dibandingkan model yang tidak melacak pembicara.

Apakah sistem ini dapat menerjemahkan semua jenis bahasa?

Sistem ini saat ini hanya dapat menerjemahkan ucapan umum, tetapi dapat dilatih untuk menerjemahkan sekitar 100 bahasa.