



Riset: AI Makin Canggih, tapi Juga Makin ''Halu''
- Semakin canggih kecerdasan buatan (Artificial Intelligence/AI) ternyata semakin tinggi juga tingkat halusinasinya.
Halusinasi dalam konteks kecerdasan buatan, menggambarkan situasi di mana model kecerdasan buatan memberikan informasi yang tidak tepat, alias isinya tidak sesuai dengan sumber atau keadaan yang sebenarnya.
Berdasarkan riset terbaru dari OpenAI, terungkap halusinasi ini terjadi pada model-model kecerdasan buatan terbaru mereka. Dalam pengujian ini, OpenAI menggunakan model AI terbarunya, yakni o3 dan o4-mini.
Kedua model AI ini diuji dalam dua skenario berbeda, yakni PersonQA dan simpleQA.
Pengujian PersonQA dilakukan dengan memberikan pertanyaan terkait tokoh-tokoh publik. Dalam uji ini, model AI o3 tercatat memberikan jawaban "halu" sebanyak 33 persen. Sedangkan model o4-mini menunjukkan tingkat halusinasi yang lebih tinggi, yakni 41 persen.
Untuk pengujian SimpleQA, kedua model ini diuji dengan pertanyaan singkat berbasis fakta. Hasilnya, model AI o3 tercatat memberikan informasi yang salah dengan tingkat halusinasi yang lebih besar, yaitu 51 persen.
Sementara itu, model o4-mini justru menunjukkan hasil yang lebih tinggi. Tingkat halusinasinya disebut mencapai 79 persen.
OpenAI menyebut hasil ini wajar karena model o4-mini memang dirancang untuk memberikan jawaban secara "cepat" dibanding model o3.
Perusahaan ini juga menguji model AI terbaru mereka yang lain, yaitu GPT-4.5. Dalam pengujian SimpleQA, model AI ini mencatat tingkat halusinasi sebesar 37,1 persen. Lebih sedikit dibanding o3 dan o4-mini.
Tingkat halusinasi model AI juga diuji melalui serangkaian tes oleh platform agen dan asisten AI Vectara.
Pada pengujian ini, model AI diminta untuk merangkum artikel berita lalu dan hasilnya akan dibandingkan apakah informasi yang diringkas sesuai dengan isi artikel atau tidak.
Hasilnya menunjukkan bahwa beberapa model AI reasoning (berbasis penalaran), justru menghasilkan kinerja yang lebih buruk dibandingkan dengan model tradisional.
Pada model o3, tingkat halusinasinya tercatat di angka 6,8 persen. Sementara itu, model R1 buatan perusahaan DeepSeek, memperlihatkan performa yang lebih buruk.
Dalam pengujian ini, model R1 menunjukkan tingkat halusinasi sebanyak 14,3 persen. Angka ini jauh lebih tinggi daripada model DeepSeek-V2.5 yang hanya 2,4 persen.
Kondisi serupa juga terjadi pada model AI reasoning bernama Granite 3.2 buatan IBM. Versi lebih besar dari model ini, yaitu 8B, tercatat memiliki tingkat halusinasi sekitar 8,7 persen. Sementara versi kecilnya, 2B, mencapai 16,5 persen.
Hasil pengujian ini menunjukkan bahwa model AI yang bahkan dirancang untuk "menalar" alias reasoning, justru cenderung menghasilkan jawaban alias informasi dengan tingkat halusinasi yang cukup tinggi.
Kenapa AI bisa kasih jawaban "halu"?
Menurut firma penelitian tentang AI, Transluce, salah satu penyebab mengapa model AI bisa memberikan jawaban "halu" adalah karena model seperti o3 dari OpenAI misalnya, dirancang untuk memaksimalkan kemungkinan untuk memberikan jawaban.
Dalam hal ini, ketika bot tidak memiliki keyakinan atas informasi yang ia punya, mereka akan tetap memberikan respons, alih-alih mengakui bahwa modelnya tidak mengetahui jawaban dari pertanyaan tersebut.
Selain itu, model AI dilatih berdasarkan kumpulan data tertentu yang nantinya digunakan untuk memberikan jawaban yang paling mungkin atau relevan, atas pertanyaan yang diajukan pengguna.
Oleh karena itu, jika bot menerima pertanyaan yang kemungkinan jawabannya tidak ada dari data yang ia terima sebelumnya, AI akan tetap berusaha memberikan jawaban meskipun informasi tersebut tidak sepenuhnya tepat.
Informasi ini disampaikan dengan gaya bahasa yang tampak meyakinkan dan seolah-olah benar, padahal sebenarnya sama sekali tidak berdasar. Inilah yang kemudian membuat model AI bisa memberikan jawaban "halu" alias mengada-ada.
Tanggapan perusahaan AI soal "halusinasi"
Perusahaan OpenAI mengakui bahwa model AI mereka, seperti o3 memang memiliki tingkat halusinasi yang cukup tinggi.
Dalam makalah penelitian yang merangkum tes internal pada model AI-nya, perusahaan menyatakan bahwa model o3 memang cenderung membuat "klaim" definitif tersendiri.
Artinya, model AI ini akan memberikan jawaban yang terkesan meyakinkan alias berhalusinasi, dibanding mengakui bahwa bot tidak mengetahui informasi yang sebenarnya.
CEO OpenAI, Sam Altman, justru menanggapi fenomena ini dengan menyebut bahwa halusinasi yang terjadi pada model AI nya merupakan bagian dari fitur chatbot, alih-alih bug yang harus diperbaiki.
Tanggapan ini sangat berbeda dengan yang dilakukan oleh perusahaan AI lain seperti Google, Microsoft, dan Anthropic. Ketiganya disebut sedang mengerjakan perbaikan untuk mengatasi masalah "halusinasi AI" ini.
Bahkan, Google dan Microsoft dilaporkan telah merilis produk bernama Microsoft Correction dan Google Vertex.
Keduanya konon dirancang untuk memberi tanda jika ada informasi yang mungkin keliru yang diberikan oleh bot AI mereka.
Kendati demikian, upaya yang dilakukan oleh dua raksasa teknologi ini masih diragukan oleh beberapa ahli.
Menurut laporan Techcrunch, para ahli tidak yakin apakah solusi tersebut bisa sepenuhnya mengatasi masalah halusinasi pada AI.
Usulan peneliti untuk mengatasi "halusinasi AI"
Berdasarkan laporan Wall Street Journal, beberapa peneliti telah mengusulkan agar seluruh model AI dilatih untuk mengatakan "saya tidak tahu",
Pelatihan ini dikhususkan untuk membekali kemampuan AI saat diberikan pertanyaan yang informasi jawabannya tidak diketahui oleh data memori mereka.
Sementara peneliti lain, menyarankan untuk menggunakan teknik yang disebut "retrieval augmented generation".
Ini merupakan teknik di mana bot AI mengambil referensi dari dokumen lain yang masih relevan dengan pertanyaan.
Jadi, alih-alih menjawab dengan informasi yang keliru, disertakannya dokumen ini diharapkan bisa menjadi referensi tambahan untuk jawaban dari pertanyaan pengguna, sebagaimana dihimpun KompasTekno dari Forbes, Jumat (9/5/2025).