Amazon Nova Sonic Meluncur, Model AI Suara Real-Time yang Responsif dan Emosional

– Amazon resmi meluncurkan Nova Sonic, model kecerdasan buatan (AI) terbaru yang dirancang untuk menghadirkan pengalaman percakapan suara secara real-time dengan kualitas mendekati interaksi manusia.

Inovasi ini menjadi bagian dari strategi Amazon untuk memperkuat posisinya di tengah persaingan ketat industri AI global. Nova Sonic tersedia melalui Bedrock, platform pengembang Amazon untuk membangun aplikasi AI perusahaan.

"Komponen dari Nova Sonic sudah digunakan dalam asisten Alexa Plus yang baru," ujar Rohit Prasad, Amazon SVP and Head Scientist of AGI Amazon, dikutip KompasTekno dari Tech Crunch, Rabu (9/4/2025).

Nova Sonic mengintegrasikan teknologi pengenalan suara dan pembuatan suara dalam satu arsitektur terpadu. Hal ini memungkinkan model AI untuk merespons dengan lebih alami, cepat, dan sesuai dengan nada serta intonasi pengguna.

Berbeda dari teknologi AI konvensional, Nova Sonic mampu menangkap nuansa emosional seperti infleksi suara, kecepatan bicara, dan ekspresi pengguna. Fitur ini diyakini dapat meningkatkan kenyamanan serta kedekatan dalam percakapan antara manusia dan mesin.

Model ini dapat diakses oleh pengembang melalui platform Amazon Bedrock. Penggunaan API streaming dua arah memungkinkan integrasi yang mulus dalam berbagai aplikasi seperti layanan pelanggan, pendidikan, hingga asisten pribadi berbasis suara.

Amazon menyebut bahwa Nova Sonic mendukung berbagai aksen bahasa Inggris dan memberikan output suara yang ekspresif. Hal ini menjadi nilai tambah untuk menjangkau audiens global yang beragam.

Dalam pengujian internal, Amazon mengeklaim Nova Sonic memiliki kecepatan respons rata-rata hanya sedikit di atas satu detik. Dari sisi efisiensi, model ini dikatakan 80 persen lebih hemat biaya dibandingkan pesaingnya untuk kebutuhan interaksi suara real-time.

Pada uji Multilingual LibriSpeech, tools benchmark yang mengukur pengenalan suara di berbagai bahasa dan dialek, Amazon mengatakan Nova Sonic mencapai tingkat kesalahan kata (word error rate/WER) hanya 4,2 persen dalam bahasa Inggris, Prancis, Italia, Jerman, dan Spanyol.

Artinya, ada empat kata berbeda dari setiap 100 kata dari model AI ini, dibandingkan dengan transkripsi manusia dalam bahasa-bahasa tersebut.

Beberapa pesaing utama yang disinggung termasuk GPT-4o dari OpenAI dan Gemini Flash 2.0 dari Google. Meski belum ada perbandingan independen, Amazon optimistis Nova Sonic akan menjadi pilihan utama untuk perusahaan yang mengandalkan antarmuka suara.

Peluncuran Nova Sonic juga dibarengi dengan pengenalan Nova Reel 1.1, model AI generatif video terbaru dari Amazon yang diklaim mampu menghasilkan kualitas visual yang lebih konsisten dan realistis antar-adegan.

Tag: #amazon #nova #sonic #meluncur #model #suara #real #time #yang #responsif #emosional