Penelitian mengungkapkan masalah kepercayaan model GPT, masalah perlindungan privasi dan bias masih perlu diselesaikan.

2025-08-09 21:00:25

Pembuatan abstrak sedang berlangsung

Penelitian Penilaian Keandalan Model Bahasa Besar Mengungkap Kerentanan Potensial

Sebuah penelitian yang dilakukan oleh Universitas Illinois di Urbana-Champaign, Universitas Stanford, Universitas California, Berkeley, dan lembaga lainnya, telah melakukan evaluasi menyeluruh terhadap keandalan model transformer pra-latih generatif (GPT). Tim peneliti mengembangkan platform evaluasi komprehensif dan menjelaskan temuan terkait dalam makalah terbaru yang diterbitkan berjudul "DecodingTrust: Evaluasi Menyeluruh Terhadap Keandalan Model GPT."

Hasil penelitian mengungkapkan beberapa kerentanan terkait keandalan yang sebelumnya belum dipublikasikan. Misalnya, model GPT cenderung menghasilkan keluaran yang beracun dan bias, serta dapat membocorkan informasi pribadi dari data pelatihan dan riwayat percakapan. Meskipun dalam pengujian standar GPT-4 biasanya lebih dapat diandalkan dibandingkan GPT-3.5, ketika dihadapkan pada prompt jahat yang dirancang untuk menghindari langkah-langkah keamanan, GPT-4 justru lebih rentan terhadap serangan. Ini mungkin karena GPT-4 lebih ketat mengikuti instruksi yang menyesatkan.

Tim penelitian melakukan evaluasi menyeluruh terhadap model GPT dari 8 sudut berbeda, termasuk ketahanan terhadap serangan adversarial, toksisitas dan bias, serta kebocoran privasi. Misalnya, dalam menilai ketahanan terhadap serangan teks adversarial, para peneliti merancang tiga skenario: pengujian standar, pengujian di bawah instruksi tugas yang berbeda, dan pengujian teks adversarial yang lebih menantang yang dibuat sendiri.

Dalam hal toksisitas dan bias, penelitian menemukan bahwa model GPT umumnya tidak memiliki banyak bias terhadap sebagian besar tema stereotip. Namun, di bawah sistem prompt yang menyesatkan, model dapat dipicu untuk setuju dengan konten yang bias. Dibandingkan dengan GPT-3.5, GPT-4 lebih mudah dipengaruhi oleh prompt menyesatkan yang ditargetkan. Tingkat bias model juga tergantung pada sensitivitas kelompok dan tema spesifik yang disebutkan oleh pengguna.

Dalam hal perlindungan privasi, penelitian menemukan bahwa model GPT dapat mengungkapkan informasi sensitif dari data pelatihan, seperti alamat email. Dalam beberapa kasus, memanfaatkan pengetahuan tambahan dapat secara signifikan meningkatkan akurasi ekstraksi informasi. Selain itu, model juga dapat mengungkapkan informasi pribadi yang disuntikkan dalam riwayat percakapan. Secara keseluruhan, GPT-4 menunjukkan kinerja yang lebih baik dalam melindungi informasi identitas pribadi dibandingkan GPT-3.5, tetapi keduanya masih memiliki masalah saat menghadapi demonstrasi kebocoran privasi.

Tim peneliti menyatakan bahwa pekerjaan evaluasi ini bertujuan untuk mendorong lebih banyak peneliti untuk terlibat, bekerja sama menciptakan model yang lebih kuat dan lebih dapat dipercaya. Untuk memfasilitasi kolaborasi, mereka telah merilis kode dasar evaluasi yang memiliki skalabilitas dan kemudahan penggunaan yang tinggi. Pada saat yang sama, para peneliti juga berbagi hasil penelitian dengan perusahaan terkait, agar langkah-langkah dapat diambil tepat waktu untuk mengatasi potensi kerentanan.

Penelitian ini memberikan perspektif yang komprehensif untuk evaluasi kredibilitas model GPT, mengungkapkan keunggulan dan kekurangan model yang ada. Dengan penerapan luas model bahasa besar di berbagai bidang, temuan ini memiliki arti penting untuk meningkatkan keamanan dan keandalan sistem AI.

GPT-0.81%

Lihat Asli

Halaman ini mungkin berisi konten pihak ketiga, yang disediakan untuk tujuan informasi saja (bukan pernyataan/jaminan) dan tidak boleh dianggap sebagai dukungan terhadap pandangannya oleh Gate, atau sebagai nasihat keuangan atau profesional. Lihat Penafian untuk detailnya.

6 Suka