Teknologi 2024-01-02 05:30:54

Duel AI: Gemini Google vs ChatGPT OpenAI, Lebih Hebat Mana?

Kecerdasan buatan (AI) milik Google, Gemini, belum lama ini diluncurkan untuk menyaingi ChatGPT milik OpenAI.

JOURON -- Google Deepmind baru-baru ini mengumumkan Gemini, model kecerdasan buatan (AI) barunya bersaing dengan ChatGPT milik OpenAI.

Meskipun kedua model tersebut merupakan contoh “AI generatif”, yang belajar menemukan pola masukan informasi pelatihan untuk menghasilkan data baru (gambar, kata, atau media lain), ChatGPT adalah large language model (LLM) yang berfokus pada produksi teks.

Sama seperti ChatGPT yang merupakan aplikasi web untuk percakapan yang didasarkan pada jaringan saraf yang dikenal sebagai GPT (dilatih pada teks dalam jumlah besar), Google memiliki aplikasi web percakapan bernama Bard yang didasarkan pada model yang disebut LaMDA (dilatih pada dialog). Namun Google kini memperbaruinya melalui Gemini.

Scroll untuk membaca

Apa yang membedakan Gemini dari model AI generatif sebelumnya seperti LaMDA adalah bahwa model ini merupakan “model multi-modal”. Artinya, ia bekerja secara langsung dengan berbagai mode masukan dan keluaran: selain mendukung masukan dan keluaran teks, ia juga mendukung gambar, audio, dan video. Oleh karena itu, muncul akronim baru: LMM (model multimodal besar).

Pada September 2023, OpenAI mengumumkan model bernama GPT-4 Vision yang juga dapat bekerja dengan gambar, audio, dan teks. Namun, ini bukanlah model multimoda sepenuhnya seperti yang dijanjikan Gemini.

Misalnya, meskipun ChatGPT-4, yang didukung oleh GPT-4V, dapat bekerja dengan masukan audio dan menghasilkan keluaran ucapan, OpenAI telah mengonfirmasi bahwa hal ini dilakukan dengan mengonversi ucapan menjadi teks pada masukan menggunakan model pembelajaran mendalam lainnya yang disebut Whisper.

ChatGPT-4 juga mengonversi teks menjadi ucapan pada output menggunakan model yang berbeda, artinya GPT-4V sendiri hanya berfungsi dengan teks.

Demikian pula, ChatGPT-4 dapat menghasilkan gambar, tetapi ia melakukannya dengan menghasilkan perintah teks yang diteruskan ke model pembelajaran mendalam terpisah yang disebut Dall-E 2, yang mengubah deskripsi teks menjadi gambar.

Sebaliknya, Google merancang Gemini untuk menjadi “multimodal asli”. Artinya, model inti secara langsung menangani berbagai jenis masukan (audio, gambar, video, dan teks) dan juga dapat langsung mengeluarkannya.

Perbedaan antara kedua pendekatan ini mungkin tampak akademis, namun penting. Kesimpulan umum dari laporan teknis Google dan pengujian kualitatif lainnya hingga saat ini adalah bahwa versi Gemini yang tersedia untuk umum saat ini, yang disebut Gemini 1.0 Pro, secara umum tidak sebagus GPT-4, dan lebih mirip kemampuannya dengan GPT 3.5.

Google juga mengumumkan versi Gemini yang lebih bertenaga, yang disebut Gemini 1.0 Ultra, dan menyajikan beberapa hasil yang menunjukkan bahwa versi tersebut lebih bertenaga daripada GPT-4.

Namun, sulit untuk menilai hal ini karena dua alasan. Alasan pertama adalah Google belum merilis Ultra, sehingga saat ini hasilnya belum dapat divalidasi secara independen.

Alasan kedua mengapa sulit untuk menilai klaim Google adalah karena Google memilih untuk merilis video demonstrasi yang agak menipu, lihat di bawah. Video tersebut memperlihatkan model Gemini berkomentar secara interaktif dan lancar di streaming video langsung.