Microsoft's Project I Code baru-baru ini mengungkapkan CoDi, sebuah model kecerdasan buatan berbasis difusi yang dapat berinteraksi dengan dan menghasilkan konten multimodal. Namun, ada hal yang menarik, model difusi ini mampu memproses dan menghasilkan konten secara bersamaan melintasi beberapa modalitas, termasuk teks, gambar, video, dan audio.
Revolusi dalam AI Generatif Multimodal
Lebih menakjubkannya lagi, model difusi ini secara signifikan berbeda dari sistem AI generatif tradisional yang umumnya terbatas pada modalitas input tertentu. Namun, apa yang sebenarnya dapat dilakukan oleh model ini?
Strategi Generasi Komposabel
Pertama-tama, penting untuk memahami bahwa CoDi mewakili solusi terhadap keterbatasan model AI unimodal tradisional, yang sering melibatkan proses yang merepotkan dan lambat dalam menggabungkan model generatif modalitas tertentu.
Namun, CoDi menggunakan strategi generasi yang unik dan komposabel yang menjembatani penyelarasan dalam proses difusi, memfasilitasi generasi yang terkait secara bersamaan dari modalitas yang terjalin, seperti video dan audio yang diatur secara sementara. Pendekatan ini memungkinkan CoDi untuk kondisikan pada kombinasi input apa pun dan menghasilkan setiap modalitas, bahkan yang tidak ada dalam data pelatihan.
Proses Pelatihan Inovatif
Kedua, proses pelatihan CoDi juga sangat istimewa dan inovatif. Ini melibatkan memproyeksikan modalitas input seperti gambar, video, audio, dan bahasa ke dalam ruang semantik bersama, memungkinkan pemrosesan yang fleksibel dari input multimodal. Ditambah lagi, dengan modul perhatian lintas dan perekam lingkungan, CoDi mampu menghasilkan kombinasi modalitas output secara bersamaan.
Pendekatan pelatihan yang unik ini merupakan respons terhadap keterbatasan kumpulan data pelatihan untuk sebagian besar kombinasi modalitas saat ini. Para peneliti menggambarkan kemampuan CoDi dalam sebuah contoh di mana CoDi diberikan instruksi teks "teddy bear on skateboard 4K high resolution", gambar Times Square, dan suara hujan.
Dari input yang berbeda ini, CoDi menghasilkan video singkat tentang beruang teddy yang bermain skateboard di tengah hujan di Times Square, dengan suara hujan dan keramaian jalan yang diselaraskan. Contoh ini memperlihatkan kemampuan CoDi untuk menghasilkan video dan audio yang diselaraskan dari instruksi teks, audio, dan gambar yang berbeda.
Related Posts
Aplikasi Potensial yang Luas
Sungguh mengejutkan, potensi aplikasi CoDi sangat luas dan beragam, dengan teknologi ini memiliki potensi untuk merevolusi cara AI berinteraksi dan menghasilkan konten di berbagai bidang. Yang paling menarik adalah janji dari model AI multimodal ini, yaitu membawa era baru dalam pengalaman media.
Teknologi inovatif ini, yang mampu memproses dan menghasilkan konten melintasi beberapa modalitas, siap mengubah cara kita berinteraksi dengan media. Namun, apa artinya ini untuk masa depan?
1. Kreasi Konten Personalisasi
Kemampuan CoDi untuk memproses dan menghasilkan konten melintasi teks, gambar, video, dan audio dapat mengarah pada tingkat baru dalam konten yang dipersonalisasi. Platform media dapat memanfaatkan teknologi ini untuk membuat konten yang disesuaikan dengan preferensi pengguna individu, meningkatkan keterlibatan dan kepuasan pengguna.
2. Pengalaman Multimedia yang Mendalam
Kemampuan CoDi untuk menyelaraskan generasi modalitas terjalin seperti video dan audio membuka peluang untuk pengalaman multimedia yang lebih mendalam. Hal ini dapat mengubah cara kita mengonsumsi hiburan, dari film interaktif dan permainan video hingga pengalaman realitas virtual.
3. Generasi Konten Otomatis
Dengan CoDi, perusahaan media dapat mengotomatisasi generasi konten melintasi berbagai modalitas. Hal ini dapat memperlancar proses pembuatan konten, memungkinkan produksi dan distribusi berita, video, dan lainnya menjadi lebih cepat.
4. Aksesibilitas
CoDi dapat secara signifikan meningkatkan aksesibilitas dalam media. Misalnya, ia dapat menghasilkan deskripsi audio untuk video bagi orang dengan gangguan penglihatan atau menciptakan interpretasi bahasa isyarat untuk konten audio bagi mereka yang memiliki gangguan pendengaran.
5. Materi Pembelajaran Interaktif
Di bidang media pendidikan, CoDi dapat digunakan untuk membuat materi pembelajaran yang menarik dan interaktif. Dengan memproses dan menghasilkan konten melintasi beberapa modalitas, ia dapat memenuhi gaya belajar yang berbeda dan membuat pendidikan menjadi lebih inklusif dan efektif.
Secara keseluruhan, seiring CoDi terus berkembang, kita dapat berharap masa depan di mana media tidak hanya dikonsumsi, tetapi juga diinteraksikan dengan cara yang lebih menarik dan inklusif daripada sebelumnya.
Namun, CoDi bukanlah satu-satunya terobosan AI yang diungkapkan oleh Microsoft, karena mereka juga baru saja merilis model baru mereka, Kosmos 2, yang mengangkat lingkup model bahasa besar multimodal ke tingkat yang belum pernah tercapai sebelumnya. Dengan fungsionalitas luar biasa dari Kosmos 2 yang melampaui interaksi teks konvensional dan memasuki domain analisis dan interpretasi gambar, Microsoft menunjukkan inovasi dan pendekatan berpikir maju dalam pengembangan model bahasa besar multimodal.
Salah satu fitur khas Kosmos 2 terletak pada penggunaan kotak pembatas, teknik yang digunakan untuk mengidentifikasi dan memberi label pada objek dalam gambar. Melalui pendekatan ini, Kosmos 2 mengan
alisis gambar, menunjukkan objek dalam gambar, dan kemudian memanfaatkan kotak pembatas untuk membatasi lokasi setiap objek. Sebagai contoh, bayangkan tiga gambar, masing-masing berisi objek yang berbeda: emoji, dua sapi di hutan lebat, dan papan tanda jalan yang bertuliskan "Selamat Datang di Carnaby Street".
Diberikan instruksi untuk menemukan mata kiri emoji, menghitung jumlah sapi, dan membaca papan tanda, Kosmos 2 merespons dengan menggambar kotak pembatas di sekitar objek yang diminta, menunjukkan kemampuannya yang mengesankan untuk mengidentifikasi, menemukan, dan menghitung objek serta mendekode teks dalam sebuah gambar.
Dalam tinjauan teknis Kosmos 2, metode model dalam memecah gambar menjadi bagian, mengidentifikasi setiap bagian secara independen, dan kemudian merangkai elemen-elemen ini menjadi deskripsi yang terpadu disorot. Pendekatan unik ini menjamin bahwa Kosmos 2 dapat mengenali dan mengidentifikasi aspek-aspek berbeda dalam satu gambar.
Analisis perbandingan Kosmos 2 dengan model benchmark seperti Visual Bert, Clip Vilbert, dan GPT-4 menunjukkan keunggulan kunci Kosmos 2 dalam kemampuan zero shot. Ini berarti model ini cakap dalam tugas-tugas tanpa pelatihan atau contoh tertentu yang berkaitan dengan tugas tersebut, memanfaatkan pengetahuannya atau kemampuan terlatihnya untuk menghasilkan keluaran untuk tugas-tugas baru.
Selain kemampuan analisis gambar, Kosmos 2 juga unggul dalam pengenalan teks. Kemampuannya sejalan dengan Chat GPT dalam mengenali dan memprediksi teks, menjadikannya lebih dari sekadar pemisah gambar. Namun, Kosmos 2, seperti model AI lainnya, tidaklah sempurna. Terkadang, model ini mungkin salah mengidentifikasi elemen-elemen seperti keliru menganggap lengan kiri seorang pria sebagai anjing dalam gambar hitam putih atau salah memahami tanda untuk bangku.
Namun, kelalaian minor ini tidak menghilangkan capaian luar biasa dari Kosmos 2. Kemampuan inovatifnya dalam memahami dan menginterpretasi gambar menandai langkah yang menarik menuju masa depan di mana AI dapat berinteraksi dengan dunia dengan cara yang lebih dalam dan berarti. Seiring Kosmos 2 terus berkembang dan diperbaiki, ia berjanji akan mengatur panggung untuk model AI yang lebih komprehensif.