Jakarta, Unbox.id – OpenAI, perusahaan di balik ChatGPT, memperkenalkan model generasi teks-ke-video pertama yang didukung kecerdasan buatan (AI) Sora pada hari Kamis. Perusahaan mengklaim dapat menghasilkan video berdurasi hingga 60 detik.
Durasi tersebut lebih lama ketimbang pesaingnya di segmen ini, termasuk Google Lumiere, yang rilis bulan lalu. Sora saat ini tersedia untuk “Tim Merah”, pakar keamanan siber yang secara ekstensif menguji perangkat lunak dan beberapa pembuat konten mereka.
Perusahaan AI juga berencana untuk memasukkan metadata Koalisi untuk Asal dan Keaslian Konten (C2PA) di masa depan setelah model tersebut diterapkan dalam produk OpenAI.
Detail Generator Pembuat Video buatan OpenAI, Sora
OpenAI mengungkapkan peluncuran ini dalam sebuah postingan di akun resmi media sosial X yang berbunyi, “Sora dapat membuat video berdurasi hingga 60 detik yang menampilkan adegan yang detail, gerakan kamera yang kompleks, dan karakter dengan emosi yang hidup.”
Menariknya, durasi video mereka lebih dari sepuluh kali lipat dari apa yang ditawarkan para pesaingnya. Lumiere Google dapat menghasilkan video berdurasi 5 detik, sedangkan RunwayAI dan Pika1.0 hanya mampu menghasilkan 4 detik dan 3 detik.
Baca juga: Android 15 Segera Hadir, Google Luncurkan Versi Pratinjau Developer
Akun X OpenAI dan CEO Sam Altman juga membagikan beberapa video buatan Sora, beserta petunjuk yang mereka pakai untuk membuatnya. Video tampak sangat detail dengan gerakan yang mulus, menjadi pesaing yang sangat berat bagi pembuat video lain di pasar.
Sora mampu menghasilkan adegan kompleks dengan banyak karakter, berbagai sudut kamera, jenis gerakan tertentu, dan latar belakang yang akurat. Sebab, model teks-ke-video menggunakan perintah dan juga mempelajari bagaimana hal-hal tersebut ada di dunia fisik.
Sora pada dasarnya adalah model difusi yang menggunakan arsitektur transformator mirip dengan model GPT. Data yang mereka dapat merupakan interpretasi istilah yang disebut patch, yang juga mirip dengan token dalam model penghasil teks.
Penggunaan data visual ini memungkinkan OpenAI untuk melatih model pembuatan video dalam durasi, resolusi, dan rasio aspek yang berbeda. Selain pembuatan teks-ke-video, Sora juga dapat mengambil gambar diam dan menghasilkan video darinya.
Kekurangan yang Ada di Dalamnya
Namun, hal ini juga bukannya tanpa kekurangan. OpenAI menyatakan di situsnya bahwa model saat ini memiliki kelemahan. Ia mungkin kesulitan dalam melakukan simulasi fisika dari pemandangan yang kompleks secara akurat, serta tidak dapat memahami detail khusus.
Misalnya, seseorang mungkin menggigit kue, tetapi setelah itu, kue tersebut mungkin tidak memiliki bekas gigitan. Agar tidak terjadi penyalahgunaan untuk membuat konten berbahaya, perusahaan sedang membangun alat untuk membantu mendeteksi konten yang menyesatkan.
Baca juga: Xiaomi Bekerja Sama dengan ARM untuk Membuat Chipnya Sendiri
Mereka juga berencana untuk menggunakan metadata C2PA dalam video yang, setelah mengadopsi praktik tersebut untuk model DALL-E 3 baru-baru ini. Mereka juga bekerja sama dengan Tim Merah, terutama pakar di bidang misinformasi, konten kebencian, dan bias.
Saat ini, ini hanya tersedia bagi tim merah dan sejumlah kecil seniman visual, desainer, dan pembuat film untuk mendapatkan masukan tentang produk.
Sumber: Gadgets360
Karya yang dimuat ini adalah tanggungjawab penulis seperti tertera, tidak menjadi bagian tanggungjawab redaksi unbox.id.