AI2 sedang mengembangkan model bahasa besar yang dioptimalkan untuk sains

Daftar AI penghasil teks secara praktis terus bertambah dari hari ke hari. Sebagian besar model ini tertutup di balik API, sehingga mustahil bagi para peneliti untuk mengetahui secara pasti apa yang membuat mereka bekerja. Namun, semakin banyak upaya komunitas yang menghasilkan AI sumber terbuka yang sama canggihnya, bahkan lebih canggih, daripada AI komersial.

Upaya terbaru dari upaya ini adalah Open Language Model, sebuah model bahasa besar yang akan dirilis oleh lembaga nirlaba Allen Institute for AI Research (AI2) pada tahun 2024. Open Language Model, atau disingkat OLMo, sedang dikembangkan melalui kerja sama dengan AMD dan konsorsium Large Unified Modern Infrastructure, yang menyediakan kekuatan superkomputer untuk pelatihan dan pendidikan, serta Surge AI dan MosaicML (yang menyediakan data dan kode pelatihan).

“Komunitas riset dan teknologi membutuhkan akses ke model bahasa terbuka untuk memajukan ilmu pengetahuan ini,” ujar Hanna Hajishirzi, direktur senior riset NLP di AI2, kepada TechCrunch dalam sebuah wawancara via email. “Dengan OLMo, kami bekerja untuk menutup kesenjangan antara kemampuan dan pengetahuan penelitian publik dan swasta dengan membangun model bahasa yang kompetitif.”

Orang mungkin bertanya-tanya – termasuk reporter ini – mengapa AI2 merasa perlu mengembangkan model bahasa terbuka ketika sudah ada beberapa model bahasa yang bisa dipilih (lihat Bloom, Meta’s LLaMA, dll.). Menurut Hajishirzi, meskipun rilis open source sampai saat ini sangat berharga dan bahkan mendorong batas, mereka telah meleset dari sasaran dalam berbagai cara.

AI2 melihat OLMo sebagai sebuah platform, bukan hanya sebuah model – platform yang memungkinkan komunitas penelitian untuk mengambil setiap komponen yang dibuat AI2 dan menggunakannya sendiri atau berusaha untuk memperbaikinya. Semua yang dibuat AI2 untuk OLMo akan tersedia secara terbuka, kata Hajishirzi, termasuk demo publik, kumpulan data pelatihan dan API, dan didokumentasikan dengan pengecualian yang “sangat terbatas” di bawah lisensi yang “sesuai”.

“Kami membangun OLMo untuk menciptakan akses yang lebih besar bagi komunitas penelitian AI untuk bekerja secara langsung pada model bahasa,” kata Hajishirzi. “Kami percaya ketersediaan yang luas dari semua aspek OLMo akan memungkinkan komunitas penelitian untuk mengambil apa yang kami ciptakan dan bekerja untuk memperbaikinya. Tujuan utama kami adalah untuk secara kolaboratif membangun model bahasa terbuka terbaik di dunia.”

Pembeda OLMo lainnya, menurut Noah Smith, direktur senior penelitian NLP di AI2, adalah fokus untuk memungkinkan model ini untuk memanfaatkan dan memahami buku teks dan makalah akademis dengan lebih baik daripada, misalnya, kode. Sudah ada upaya lain dalam hal ini, seperti model Galactica yang terkenal dari Meta. Namun Hajishirzi percaya bahwa pekerjaan AI2 di bidang akademis dan alat yang dikembangkannya untuk penelitian, seperti Semantic Scholar, akan membantu membuat OLMo “sangat cocok” untuk aplikasi ilmiah dan akademis.

“Kami yakin OLMo memiliki potensi untuk menjadi sesuatu yang sangat istimewa di bidang ini, terutama dalam lanskap di mana banyak orang yang bergegas untuk mendapatkan keuntungan dari ketertarikan pada model AI generatif,” kata Smith. “Kemampuan unik AI2 untuk bertindak sebagai ahli pihak ketiga memberi kami kesempatan untuk bekerja tidak hanya dengan keahlian kelas dunia kami sendiri, tetapi juga berkolaborasi dengan para pemikir terkuat di industri ini. Sebagai hasilnya, kami pikir pendekatan kami yang ketat dan terdokumentasi akan menjadi dasar untuk membangun generasi berikutnya dari teknologi AI yang aman dan efektif.”

Tentu saja ini adalah sentimen yang bagus. Namun, bagaimana dengan masalah etika dan hukum yang pelik seputar pelatihan – dan pelepasan – AI generatif? Perdebatan yang berkecamuk di sekitar hak-hak pemilik konten (di antara para pemangku kepentingan yang terkena dampak), dan masalah yang tak terhitung jumlahnya, masih belum diselesaikan di pengadilan.

Untuk meredakan kekhawatiran, tim OLMo berencana untuk bekerja sama dengan departemen hukum AI2 dan para ahli dari luar yang akan ditentukan kemudian, berhenti di “pos pemeriksaan” dalam proses pembuatan model untuk menilai kembali masalah privasi dan hak kekayaan intelektual.

“Kami berharap melalui dialog yang terbuka dan transparan tentang model dan tujuan penggunaannya, kami dapat lebih memahami cara mengurangi bias, toksisitas, dan menyoroti pertanyaan-pertanyaan penelitian yang belum terjawab di dalam komunitas, yang pada akhirnya akan menghasilkan salah satu model terkuat yang ada,” ujar Smith.

Bagaimana dengan potensi penyalahgunaan? Model-model, yang sering kali beracun dan bias, sangat rentan terhadap pelaku kejahatan yang berniat menyebarkan disinformasi dan menghasilkan kode berbahaya.

Hajishirzi mengatakan bahwa AI2 akan menggunakan kombinasi lisensi, desain model, dan akses selektif ke komponen-komponen yang mendasarinya untuk “memaksimalkan manfaat ilmiah sekaligus mengurangi risiko penggunaan yang berbahaya.” Untuk memandu kebijakan, OLMo memiliki komite peninjau etika dengan penasihat internal dan eksternal (AI2 tidak mau menyebutkan siapa saja) yang akan memberikan umpan balik selama proses pembuatan model.

Kita akan lihat sejauh mana hal itu membuat perbedaan. Untuk saat ini, banyak hal yang masih dirahasiakan – termasuk sebagian besar spesifikasi teknis model. (AI2 memang mengungkapkan bahwa model ini akan memiliki sekitar 70 miliar parameter, parameter adalah bagian dari model yang dipelajari dari data pelatihan historis). Pelatihan akan dimulai di superkomputer LUMI di Finlandia – superkomputer tercepat di Eropa, per Januari – dalam beberapa bulan mendatang.

AI2 mengundang para kolaborator untuk membantu berkontribusi – dan mengkritisi – proses pengembangan model. Mereka yang tertarik dapat menghubungi penyelenggara proyek OLMo di sini.

Sumber : https://techcrunch.com/2023/05/11/ai2-is-developing-a-large-language-model-optimized-for-science/

AI2 sedang mengembangkan model bahasa besar yang dioptimalkan untuk sains

Post Terbaru

AI Generatif di Dunia Pendidikan: Peluang Besar yang sepenuhnya belum di pahami

Optimisasi Cerdas Budidaya Spirulina Berbasis AIoT

Pencarian