



Keracunan Data, Modus Baru Menyasar Pelatihan AI
KERACUNAN data atau "data poisoning" adalah fenomena baru yang mengemuka dalam perkembangan Akal Imitasi (Artificial Intelligence) akhir-akhir ini.
Keracunan data adalah serangan siber yang menyasar kualitas dan integritas data pelatihan model AI, dan pembelajaran mesin (ML). Caranya dengan meracuni dalam arti memanipulasi atau merusak data pelatihan AI.
Jika serangan ini terjadi terhadap model AI tertentu seperti keandaraan otonom, maka modus ini dapat membahayakan keselamatan penggunanya.
Meskipun berbagai penelitian telah dilakukan di awal dekade ini, tetapi fenomena keracunan data menjadi topik utama saat ini, ketika AI Generatif secara masif dikembangkan.
Keracunan data
Morgan Stanley akhir tahun lalu mempublikasikan laporan "AI and Cybersecurity: A New Era” (11/09/2024).
Laporan itu menyatakan, penjahat dunia maya menggunakan AI untuk melakukan berbagai serangan canggih, mulai dari “keracunan data” hingga deepfake.
AI telah berkembang pesat dan memengaruhi banyak aspek kehidupan, termasuk keamanan siber.
AI memiliki potensi besar untuk meningkatkan keamanan. Namun, para peretas juga mulai memanfaatkan AI untuk tujuan kejahatan. Mereka menggunakan AI untuk otomasi serangan yang lebih canggih dan efektif.
Dengan berkembangnya AI, negara perlu membuat regulasi dan individu serta organisasi perlu meninjau dan memperkuat perlindungan keamanan siber internal mereka.
Crowdstrike menurunkan laporan “Data Poisoning: The Exploitation Of Generative Ai” (Bart Lenaerts-Bergmans, 20/03/2024).
Laporan mengulas tentang keracunan data sebagai jenis serangan siber, dilakukan oleh penyerang, yang membahayakan kumpulan data pelatihan AI.
Serangan menyasar data pelatihan yang digunakan oleh model AI, atau pembelajaran mesin (ML). Tujuannya memengaruhi atau memanipulasi operasi model tersebut.
Modusnya dilakukan dengan beberapa cara, menyuntikkan informasi palsu atau menyesatkan ke dalam kumpulan data pelatihan, modifikasi dataset yang ada, atau menghapus sebagian dataset.
Targetnya untuk memengaruhi pengambilan keputusan model atau menghasilkan luaran bias dari platform AI.
Laporan itu menyebut deteksi serangan ini bisa sangat sulit. Terutama jika dilakukan oleh orang dalam yang memiliki akses dan pengetahuan tentang sistem keamanan organisasi.
Yevgeniy Vorobeychik, Bo Li, Yining Wang, dan Aarti Singh, melakukan riset tentang “Data poisoning attacks on factorization-based collaborative filtering" (Ptolemy.berkeley.edu).
Penyerang yang memiliki pengetahuan penuh tentang algoritma filtering dapat menyisipkan data berbahaya. Mereka bisa mengarahkan sistem untuk menghasilkan rekomendasi yang salah, sambil tetap meniru perilaku pengguna normal untuk menghindari deteksi.
Penelitian ini merekomendasikan solusi efisien untuk dua algoritma penyaringan kolaboratif berbasis faktorisasi dan menguji efektivitasnya pada data dunia nyata.
Referensi lain tentang keracunan data dapat disimak dari publikasi dalam Jurnal ilmiah bereputasi MIT Technology Review berjudul “This new data poisoning tool lets artists fight back against generative AI” (Melissa Heikkiläarchive, 23/10/2023).
Meskipun berbicara dalam konteks inovasi platform pencegahan, laporan itu menyebut, menyisipkan data "beracun" ke dalam dataset pelatihan AI seperti DALL-E, Midjourney, dan Stable Diffusion, dapat membuat model salah mengartikan objek, misalnya, anjing menjadi kucing atau mobil menjadi sapi.
Semakin banyak data yang terinfeksi digunakan dalam pelatihan AI, semakin sulit bagi perusahaan untuk menghapus dampak negatifnya, menciptakan efek jera yang signifikan.
Para pesohor AI, seperti Vitaly Shmatikov dari Universitas Cornell mengingatkan bahwa saat ini belum ada pertahanan yang kuat terhadap serangan ini. Sehingga perlu segera mengembangkan pelindungan.
Sementara itu, dalam publikasi resminya, IBM merilis laporan sangat menarik tentang keracunan AI yang ditulis Tom Krantz dan Alexander Jonker “What is data poisoning?” (10/12/2024).
Keracunan data merupakan bentuk serangan siber yang menargetkan kualitas dan integritas data pelatihan, dalam model AI dan pembelajaran mesin (ML). Menyebabkan perubahan perilaku model, baik secara halus maupun drastis.
Hal ini dapat mengakibatkan kesalahan klasifikasi data, dan menurunkan keakuratan serta efektivitas sistem AI.
Seperti diketahui, model seperti jaringan saraf, model bahasa besar (LLM), dan pembelajaran mendalam sangat tergantung pada data yang digunakan dalam proses pelatihannya.
Keselamatan
Serangan berpotensi mengancam keselamatan pengguna. Laporan IBM menyatakan, dalam kasus kendaraan otonom, misalnya, model yang terkena dampak keracunan data, mungkin bisa salah menafsirkan tanda lalu lintas.
IBM menyebut, beberapa teknik umum dalam serangan keracunan data meliputi pembalikan label, penyuntikan data, serangan backdoor, dan serangan label bersih.
Pembalikan label, terjadi saat penjahat mengubah label data pelatihan yang benar menjadi salah. Penyuntikan data adalah saat penjahat menambahkan informasi yang dimanipulasi untuk mengarahkan model ke luaran tertentu.
Serangan backdoor menanamkan pemicu tersembunyi, yang menyebabkan model berfungsi tidak normal saat menerima input tertentu.
Sementara serangan label bersih lebih sulit dideteksi karena data tampak sah meskipun telah diracuni. Serangan-serangan ini dapat melemahkan sistem AI, meningkatkan bias, dan bahkan membahayakan keamanan data pengguna.
Para peneliti memberi kiat untuk mengurangi risiko keracunan data. Berbagai langkah mitigasi dapat diterapkan, termasuk validasi dan sanitasi data, pelatihan adversarial, pemantauan berkelanjutan, serta penguatan kontrol akses.
Validasi dan sanitasi data memastikan bahwa data pelatihan yang digunakan bersih dari manipulasi, sementara pelatihan adversarial membantu model mengenali dan menolak data yang mencurigakan.
Pemantauan sistem secara real-time juga penting dalam mendeteksi anomali yang bisa mengindikasikan serangan.
Hal penting adalah membatasi akses secara ketat yang dapat membatasi kemungkinan manipulasi data oleh pihak yang tidak berwenang termasuk orang dalam.
Korporasi atau instansi Pemerintah wajib memiliki mekanisme dan regulasi internal terkait hal ini, termasuk memperketat trade secrets agreement.
Dengan menerapkan langkah-langkah ini, organisasi dapat menjaga integritas model AI dan melindungi sistem dari ancaman keracunan data.
Dilansir The Strategist "Using open-source AI, sophisticated cyber ops will proliferate" (17/12/2024), model AI sumber terbuka akan mengubah dinamika keamanan siber secara signifikan.
Dengan akses bebas ke model AI canggih, aktor kejahatan dapat memanfaatkan kemampuan ini untuk meluncurkan modus yang lebih canggih.
Seperti mengidentifikasi kerentanan, membuat, menguji kode eksploitasi, dan serangan secara otomatis dengan memanfaatkan sumber daya open source.
Regulasi
Keracunan data AI adalah bentuk kejahatan siber baru dengan target kumpulan data pelatihan AI. Maksudnya agar AI bekerja secara salah atau bias.
Oleh karena itu, regulasi sangat diperlukan. Regulasi berbasis pendekatan risiko diproyeksikan secara preventif di level upstream dengan menetapkan standar keamanan data dan keandalan AI.
Di level middle stream, regulasi berperan untuk memastikan transparansi dan audit berkala terhadap model AI risiko tinggi.
Sebagai langkah kuratif, regulasi harus berperan di level downstream, dengan sanksi dan mekanisme hukum yang jelas untuk menuntut pelanggar atau pelaku kejahatan.
Dukungan regulasi, akan memastikan AI dikembangkan secara transparan, memiliki standar keamanan tinggi, dimonitor dan evaluasi secara berkala, dan penegakan hukum bagi pelanggar sebagai ultimum remidium.
Regulasi yang dibuat harus tetap mendorong inovasi teknologi. Regulasi juga harus melindungi masyarakat pengguna dan ekosistem industrinya, sekaligus mendorong sistem AI menjadi lebih terpercaya.