Informasi

Stability AI memperkenalkan Stable Audio, membawa generasi teks ke audio pada kalangan umum.

Apa yang terjadi setelah mengembangkan teknologi AI yang bisa membuat gambar dan kode? Bagi Stability AI, langkah selanjutnya adalah menciptakan suara dari teks. Hari ini, Stability AI mengumumkan peluncuran pertama teknologi Stable Audio mereka ke publik, yang memungkinkan siapa pun membuat klip audio singkat dengan hanya menggunakan teks sederhana sebagai panduan. Stability AI sudah dikenal sebagai perusahaan yang menciptakan teknologi AI yang bisa mengubah teks menjadi gambar, yang disebut Stable Diffusion.

Pada bulan Juli, Stable Diffusion mengalami pembaruan menjadi model berbasis SDXL yang memiliki kemampuan sintesis gambar yang lebih baik. Perusahaan ini kemudian mengikuti pengumuman ini dengan memperkenalkan StableCode pada bulan Agustus, yang mengembangkan fokusnya dari penciptaan gambar menjadi sebuah kode pemrograman. Meskipun StableAudio adalah fitur baru, namun ia menggunakan banyak teknologi inti yang sama dengan yang digunakan oleh Stable Diffusion untuk menciptakan gambar. Dengan kata lain, teknologi Stable Audio memanfaatkan model difusi yang telah dilatih pada data audio, bukan data gambar, untuk menciptakan klip audio baru.

Ed Newton-Rex, yang menjabat sebagai wakil presiden audio di Stability AI, mengungkapkan kepada VentureBeat, “Stability AI terkenal karena karyanya dalam gambar, tapi sekarang kami meluncurkan produk pertama kami untuk generasi musik dan audio, yang disebut Stable Audio,” ia juga menambahkan “Kami telah bekerja pada proyek ini selama beberapa waktu. Konsepnya sangat mudah dimengerti, Anda hanya perlu menggambarkan dalam teks jenis musik atau suara yang ingin Anda dengar, dan sistem kami akan menciptakannya untuk Anda.”

Bagaimana Stable Audio menciptakan musik baru, bukan file MIDI

Ed Newton-Rex mendirikan perusahaan startup bernama Jukedeck pada tahun 2011, dan kemudian menjualnya kepada TikTok pada tahun 2019. Tetapi, teknologi di balik penciptaan Stable Audio tidak berasal dari Jukedeck. Sebaliknya, teknologinya berakar dari sebuah studio penelitian dalam Stability AI yang disebut Harmonai, yang dikembangkan oleh Zach Evans. Menurut Evans, “Kami mengambil konsep yang sama dari sisi teknis yang digunakan dalam penciptaan gambar dan menerapkannya dalam dunia audio. Harmonai adalah sebuah laboratorium penelitian yang saya dirikan dan menjadi bagian integral dari Stability AI, tujuannya adalah untuk membuat penelitian generasi musik ini menjadi kegiatan komunitas yang terbuka.”

Kemampuan untuk menggunakan teknologi guna menciptakan dasar trek audio bukanlah hal yang baru. Teknologi yang Evans sebut sebagai “generasi simbolis” telah tersedia bagi individu selama beberapa waktu. Dia menjelaskan bahwa generasi simbolis umumnya bekerja dengan file MIDI (Musical Instrument Digital Interface), yang digunakan untuk mewakili hal-hal seperti permainan gulungan drum, sebagai contoh. Keunggulan dari generasi AI Stable Audio berbeda dari itu. Teknologi ini mampu menciptakan musik baru di luar nada-nada berulang yang biasa ditemukan dalam MIDI dan generasi simbolis. Stable Audio bekerja langsung dengan sampel audio mentah, menghasilkan hasil yang lebih berkualitas. Model ini dilatih dengan menggunakan lebih dari 800.000 trek musik berlisensi dari perpustakaan audio AudioSparks. Dengan jumlah data sebanyak itu, metadata yang mendukung juga sangat lengkap.” Salah satu tantangan utama dalam pembuatan model berbasis teks seperti ini adalah memiliki data audio yang bukan hanya berkualitas tinggi, tetapi juga kaya dengan informasi metadata yang sesuai.”

Jangan Berpikir Menggunakan Stable Audio untuk Membuat Lagu Beatles Baru

Salah satu hal yang sering dilakukan oleh pengguna model generasi gambar adalah membuat gambar dengan gaya tertentu dari seorang seniman. Namun, dengan Stable Audio, pengguna tidak dapat meminta model AI menciptakan musik baru dalam gaya lagu Beatles, sebagai contoh. Dalam pembuatan sampel audio untuk musisi, umumnya orang tidak menginginkan hal seperti itu.” Newton-Rex mengungkapkan bahwa dari pengalaman yang ia miliki, kebanyakan musisi tidak ingin memulai proyek musik baru dengan permintaan dalam gaya lagu The Beatles atau grup musik lainnya, melainkan lebih ingin mengeksplorasi kreativitas mereka sendiri.

Memahami panduan yang benar untuk menghasilkan teks menjadi audio

Sebagai model difusi, Evans menjelaskan bahwa model Stable Audio memiliki sekitar 1,2 miliar parameter, yang sebanding dengan Stable Diffusion yang dirancang untuk menciptakan gambar. Model teks yang digunakan untuk memberikan petunjuk pembuatan audio semuanya dibangun dan dilatih oleh Stability AI. Evans menjelaskan bahwa model-model teks ini menggunakan teknologi yang disebut CLAP (Contrastive Language Audio Pretraining). Sebagai bagian dari peluncuran Stable Audio, Stability AI juga mengumumkan panduan petunjuk untuk membantu pengguna dalam memberikan teks yang akan menghasilkan jenis file audio yang mereka inginkan. Stable Audio akan tersedia dalam dua versi, yaitu versi gratis dan paket Pro yang berharga $12 per bulan. Versi gratis memungkinkan pengguna untuk membuat 20 generasi dan hingga 20 detik trek setiap bulan, sementara versi Pro memungkinkan pengguna untuk meningkatkan jumlahnya menjadi 500 generasi dan 90 detik trek. Kami ingin memberikan kesempatan kepada semua orang untuk menggunakannya dan bereksperimen,” kata Newton-Rex.

Sumber : https://venturebeat.com/ai/stability-ai-debuts-stable-audio-bringing-text-to-audio-generation-to-the-masses/