Persaingan dalam pengembangan kecerdasan buatan (AI) terus meningkat, dengan terus munculnya batasan-batasan baru dalam hal kloning suara hampir setiap hari. Baru-baru ini, startup ElevenLabs berbasis di San Francisco mengumumkan perkembangan terbaru mereka, di mana model AI baru yang mereka rilis sekarang mampu meniru suara yang berbicara dengan lancar dalam 30 bahasa yang berbeda. Hal ini merupakan perluasan signifikan dari delapan bahasa asli yang sebelumnya didukung oleh mereka.
Perusahaan tersebut menggunakan Lukeman Literary, sebuah agensi sastra dan penerbit independen, sebagai contoh, menjelaskan bahwa perusahaan tersebut memproduksi banyak buku audio setiap tahun dalam berbagai bahasa.
“Dulu tim Lukeman membutuhkan waktu berminggu-minggu untuk memproduksi satu buku audio karena mereka harus menemukan artis sulih suara yang tepat, memesan studio rekaman, dan merekam serta mengelola pasca produksi,” kata ElevenLabs dalam postingan blog resminya. seluruh proses memakan waktu beberapa jam,”
Menurut ElevenLabs, model Multilingual v2 baru menghadirkan audio yang “kaya secara emosional” yang menangkap nuansa ucapan alami. Pengguna mengetik teks yang ingin mereka ucapkan dalam bahasa target, dan AI menghasilkan sulih suara yang lancar.
Perusahaan menyediakan dua opsi kloning suara utama: alat text-to-speech dan “VoiceLab” untuk mengkloning suara tertentu.
Pengguna mengunggah sampel ucapan untuk membuat klon suara khusus, yang dianalisis AI untuk membuat versi sintetis. Suara kloning ini kemudian dapat dimanipulasi untuk mengatakan apa pun yang bisa dibayangkan. ElevenLabs mengklaim pembaruan terkini berarti para doppelganger AI ini sekarang dapat berbicara dengan lancar dalam bahasa seperti Swedia, Arab, dan Melayu.
Kemampuan linguistik yang diperluas juga bertepatan dengan ElevenLabs yang memindahkan teknologi kloning suaranya dari pengujian beta. Perusahaan ini bertujuan untuk memasarkan alat tersebut untuk aplikasi praktis seperti menarasikan buku audio, seperti dalam kasus Lukeman Literary.
Mengatasi kekhawatiran
Potensi penyalahgunaan teknologi mengaburkan ambisi bisnis ini. Audio deepfake membuat pengguna rentan terhadap penipuan dan kampanye misinformasi. ElevenLabs sendiri mengalami reaksi keras tahun lalu ketika platformnya dieksploitasi untuk menyamar dan melecehkan tokoh masyarakat.
Perusahaan mengatakan perlindungan yang lebih ketat telah diterapkan, namun masalah etika masih ada. Seperti yang dilaporkan Decrypt baru-baru ini, “penipu dapat menggunakan AI untuk mengkloning suara orang yang Anda cintai”, dan yang diperlukan untuk mencapai hasil yang dapat dipercaya hanyalah beberapa menit audio.
Perusahaan teknologi besar seperti Meta menghadapi kritik serupa karena mengembangkan AI generatif yang kuat tanpa transparansi penuh. Meta baru-baru ini meluncurkan alat sintesis ucapan AI yang disebut Voicebox, yang diakui dapat dengan mudah memfasilitasi deepfake. Tidak seperti ElevenLabs, Meta menahan diri dari rilis publik apa pun karena “risiko penyalahgunaan.”
Namun, terlepas dari kekhawatiran tersebut, kemajuan pesat dalam kloning suara AI tampaknya tidak dapat dihentikan. Seperti yang dinyatakan oleh ahli bahasa Mati Staniszewski dari ElevenLabs, “Pada akhirnya kami berharap dapat mencakup lebih banyak bahasa dan suara dengan bantuan AI dan menghilangkan hambatan linguistik terhadap konten.”
Memastikan penerapan etika tetap menjadi tantangan besar, karena perbedaan antara misinformasi global dan cara berkomunikasi yang inovatif sangat tipis. Bersikap hati-hati adalah kuncinya—jangan sampai desa suara global kita menjadi Menara Babel yang hiruk pikuk.
Sumber : https://decrypt.co/153544/ai-voice-cloning-30-linguals-elevenlabs-startup