GPT 4 (Generative Pre-trained Transformer 4) adalah salah satu perwujudan mutakhir dari kemajuan kecerdasan buatan. Dalam pengembangannya, OpenAI tengah berfokus pada penggunaan multimodalitas, yaitu menggabungkan pemahaman teks dengan pemahaman gambar. Dalam artikel ini, kita akan menjelajahi tiga kemampuan generasi selanjutnya yang akan terbuka oleh GPT 4 menggunakan teknik multimodalitas ini.
Sebelum kita masuk ke topik tersebut, ada satu contoh terkini mengenai kemampuan multimodal AI yang sangat menarik. GPT 4 akan segera memiliki kemampuan pemahaman gambar yang akan ditambahkan pada kemampuan generasi teks yang sudah ada, sehingga secara signifikan memperluas kemampuan model ini.
Namun, pemahaman gambar telah mengalami penundaan dalam pengembangan GPT 4 karena waktu yang dibutuhkan untuk memproses gambar. Namun, OpenAI baru-baru ini mengumumkan solusi terobosan yang disebut "consistency models" yang secara dramatis mengurangi waktu pemrosesan untuk input dan generasi gambar. Namun, apa yang membuat consistency model menjadi perubahan revolusioner? Hal ini karena saat ini, proses pembuatan gambar menggunakan metode difusi adalah proses iteratif yang membutuhkan waktu untuk memperbaiki gambar hingga mencapai tingkat kualitas yang dapat diterima.
Proses dimulai dengan gambar awal yang merupakan piksel acak, dan kemudian melalui langkah-langkah berikutnya hingga mencapai tingkat kualitas gambar sepuluh. Perbedaan dengan pendekatan consistency model dari OpenAI adalah adanya fungsi baru yang memungkinkan transisi langsung dari kualitas nol hingga sepuluh tanpa memerlukan pengulangan sama sekali. Ini secara signifikan mempercepat pemrosesan dan generasi gambar, dengan potensi mengurangi waktu dari 1 menit menjadi kurang dari satu detik.
Dengan adanya terobosan ini, terdapat tiga kemampuan yang akan disediakan oleh GPT 4 dengan mengintegrasikan modalitas pemahaman gambar, yaitu:
1. Kontrol Komputer Seperti Manusia
Pemahaman gambar GPT 4 berpotensi mengubah cara kecerdasan buatan mengontrol komputer untuk meniru perilaku dan kemampuan manusia. Dengan menginterpretasikan elemen visual pada layar seperti ikon, menu, dan jendela, GPT 4 dapat membantu dalam berbagai tugas, termasuk menjelajahi aplikasi, mengatur file, mengedit dokumen, dan bahkan mengelola email dengan presisi dan efisiensi. Tingkat interaksi yang canggih ini dapat memungkinkan implementasi multiagen seperti Auto-GPT untuk bekerja secara mulus bersama manusia dalam konteks profesional maupun pribadi, menghubungkan algoritma pembelajaran mesin yang rumit dengan aplikasi dunia nyata yang praktis.
Dengan GPT 4 yang terus mengembangkan keterampilan pemahaman gambar dan beradaptasi dengan berbagai antarmuka pengguna dan sistem operasi, kemampuannya dalam melakukan tugas-tugas di komputer akan menjadi semakin canggih dan serbaguna, dengan kemampuan untuk menangani tugas-tugas yang lebih kompleks, mengotomatisasi proses yang repetitif, dan mengurangi kesalahan manusia di berbagai domain.
Selain itu, hal ini dapat mengarah pada pengembangan sistem operasi yang dihasilkan oleh kecerdasan buatan yang disesuaikan dengan pengguna tertentu, menawarkan pengalaman yang lebih intuitif dan ramah pengguna, tanpa memandang seberapa akrabnya pengguna dengan pengoperasian komputer atau ponsel cerdas. Namun, apa yang dapat dilakukan GPT 4 untuk masa depan dunia fisik dalam hal otomatisasi dan robotika?
Related Posts
2. Pengalaman Manusia dengan Robot
Kemampuan pemahaman gambar GPT 4 akan membuka frontier baru dalam robotika, memungkinkan mesin untuk tidak hanya mempersepsi dan memahami dunia dengan cara yang belum pernah terjadi sebelumnya, tetapi juga berkomunikasi dan bekerja sama dengan manusia dengan cara yang lebih baik. Dengan memproses dan memahami informasi visual dari sekitarnya, robot dapat berinteraksi dengan lingkungan dengan cara yang lebih alami dan efektif.
Selain itu, pemahaman gambar yang canggih dari GPT 4 juga memungkinkan robot untuk tidak hanya mengenali objek dalam situasi yang berbeda, tetapi juga memahami konteks dan hubungan antara objek tersebut, mengarah pada interaksi yang lebih alami dan intuitif. Integrasi pemahaman gambar GPT 4 dengan pemrosesan bahasa alami yang kuat dan kemampuan pengambilan keputusan dapat menghasilkan robot yang lebih mampu dalam membantu dalam berbagai domain seperti kesehatan, pendidikan, dan penanggulangan bencana.
Robot-robot ini dapat memberikan perawatan yang dipersonalisasi, mendukung pengalaman belajar, dan merespons secara efektif dalam keadaan darurat, dengan tujuan meningkatkan kesejahteraan dan keamanan manusia. Saat robot-robot yang dilengkapi dengan GPT 4 semakin mahir dalam memahami dunia, mereka juga akan berkontribusi dalam membentuk pengalaman manusia dengan cara yang lebih halus.
Misalnya, mereka dapat membantu dalam menciptakan dan mempertahankan ruang hidup yang lebih efisien dan estetis, atau membantu menciptakan bentuk hiburan yang lebih cocok dengan preferensi pengguna secara lebih personal. Namun, apa yang dapat dilakukan GPT 4 untuk membantu mereka dengan keterbatasan visual?
3. Membantu Orang Buta Melihat
GPT 4 akan berfungsi sebagai relawan virtual untuk Be My Eyes untuk membantu individu dengan kebutuhan khusus yang mengalami gangguan penglihatan. Dengan kemampuannya untuk menggabungkan kemampuan visual dan linguistik dengan memproses input gambar, GPT 4 dapat menawarkan bantuan khusus yang mungkin sulit dilakukan oleh relawan manusia.
Integrasi pemahaman gambar GPT 4 juga akan menyederhanakan tugas-tugas seperti penerjemahan, dengan demikian memungkinkan pengguna untuk mengakses sistem transportasi asing, menjelajahi situs web dan platform media sosial, atau bahkan berbelanja online. Hal ini dilakukan dengan cara pengguna mengirimkan gambar ke GPT 4 melalui aplikasi Be My Eyes yang telah ditingkatkan, dan menerima respons teks yang dapat dibacakan dengan kecepatan yang diinginkan secara lisan, memberikan jalur bantuan yang lebih cepat dan nyaman yang akan secara dramatis meningkatkan kualitas hidup pengguna.
Semua aplikasi GPT 4 dengan multimodalitas ini sudah berada dalam berbagai tahap pengembangan alpha dan beta dan kemungkinan hanya awal dari solusi inovatif yang akan dihasilkan dari teknologi yang akan mengubah kehidupan ini. Bahkan, contoh prototipe GPT multimodalitas yang menggunakan pemahaman gambar dan teks sudah dapat dilihat dengan diperkenalkannya Microsoft Visual ChatGPT.
Sebelumnya, model bahasa ChatGPT dari OpenAI hanya mampu memproses teks, tetapi Visual ChatGPT baru dapat mengirim dan menerima gambar juga. Meskipun para peneliti menyarankan pengembangan model percakapan multimodal terpisah untuk tujuan ini, hal ini akan membutuhkan jumlah data dan sumber daya komputasi yang sangat besar. Selain itu, model standalone tidak fleksibel dan tidak dapat diperluas ke modalitas lain seperti audio atau video tanpa pelatihan tambahan.
Maka dari itu, solusi yang lebih baik telah ditemukan, yaitu dengan menghubungkan ChatGPT ke 22 model gambar terpisah. Alih-alih membuat model baru, para peneliti menghubungkan ChatGPT ke 22 model dasar visual yang berbeda, termasuk Stable Diffusion. Model-model ini melakukan berbagai tugas, seperti menjawab pertanyaan tentang gambar, menghasilkan dan memproses gambar, atau mengekstrak informasi seperti data kedalaman.
Tim ini menggunakan manajer prompt untuk menjembatani kesenjangan antara ChatGPT dan model dasar visual, yang melaksanakan tugas-tugas seperti memberikan informasi kepada ChatGPT mengenai kemampuan model dasar visual dan menentukan format masukan dan keluaran, mengubah berbagai informasi visual seperti PNG atau gambar dengan data kedalaman menjadi format bahasa yang dapat dipahami oleh ChatGPT, dan mengelola riwayat, prioritas, dan konflik dari berbagai model dasar visual.
Visual ChatGPT mampu menghasilkan gambar, memberi nama pada gambar tersebut, menyimpannya dengan akurasi, dan menjaga gambar-gambar tersebut siap untuk masukan lanjutan atau memproses gambar yang diterima dari pengguna sebagai masukan. Jika model percakapan belum yakin model dasar visual mana yang paling tepat untuk menyelesaikan suatu tugas, Visual ChatGPT akan menanyakan, dan model-model dasar visual dapat dihubungkan dalam cara ini.
Meskipun contoh-contoh yang disajikan oleh Microsoft dengan Visual ChatGPT menjanjikan, masih ada batasan tertentu yang diharapkan dapat secara dramatis ditingkatkan dengan implementasi pemahaman gambar generasi berikutnya dari GPT 4. Secara alami, Visual ChatGPT sepenuhnya bergantung pada ChatGPT dan model gambar terkait bagi siapa pun yang tertarik untuk menggunakan Visual ChatGPT.
Para peneliti telah merilis model ini di GitHub dan Huggingface, yang dapat diakses dengan menggunakan kunci API dari OpenAI.
Kesimpulan:
Dalam artikel ini, kita menjelajahi tiga kemampuan generasi selanjutnya yang akan terbuka oleh GPT 4 dengan menggunakan teknik multimodalitas. Kemampuan pemahaman gambar GPT 4 akan memberikan dampak yang signifikan dalam berbagai bidang, termasuk kontrol komputer seperti manusia, pengalaman robot manusia, dan bantuan bagi orang buta. Dengan integrasi pemahaman gambar yang kuat, GPT 4 akan membantu meningkatkan produktivitas manusia, memperluas kemampuan robotika, dan memberikan bantuan yang lebih baik bagi individu dengan gangguan penglihatan. Ini adalah langkah maju yang luar biasa dalam pengembangan kecerdasan buatan yang akan membuka peluang baru yang menarik dalam berbagai bidang kehidupan.