
Sebagai sebuah organisasi yang sering menjadi rakan kongsi OpenAI untuk menyiasat keupayaan model AI-nya dan menilainya dari segi keselamatan, Metr, mencadangkan bahawa mereka tidak diberi banyak masa untuk menguji salah satu rilis baru berkemampuan tinggi syarikat, o3.
Dalam sebuah catatan blog yang diterbitkan pada hari Rabu, Metr menulis bahawa satu ujian penilaian o3 dilakukan "dalam masa yang agak singkat" berbanding ujian yang dilakukan organisasi itu terhadap model unggulan OpenAI sebelum ini, o1. Ini adalah penting, kata mereka, kerana masa ujian tambahan boleh membawa kepada keputusan yang lebih komprehensif.
“Penilaian ini dilakukan dalam masa yang agak singkat, dan kami hanya menguji [o3] dengan rangkaian ejen yang mudah,” tulis Metr dalam catatan blognya. “Kami menjangkakan prestasi lebih tinggi dijana dengan lebih usaha permintaan.”
Laporan terkini menunjukkan bahawa OpenAI, didorong oleh tekanan persaingan, sedang mempercepatkan penilaian bebas. Menurut Financial Times, OpenAI memberi beberapa penguji kurang dari seminggu untuk pemeriksaan keselamatan bagi pelancaran besar akan datang.
Dalam kenyataan, OpenAI menafikan pendapat bahawa ia mengorbankan keselamatan.
Metr berkata bahawa, berdasarkan maklumat yang berjaya dikumpul dalam masa yang ada, o3 mempunyai “kecenderungan tinggi” untuk “mengacau” atau “membobol” ujian dengan cara yang canggih untuk memaksimumkan markahnya — walaupun apabila model itu jelas memahami tingkah lakunya tidak sejajar dengan niat pengguna (dan OpenAI). Organisasi itu berpendapat mungkin o3 akan terlibat dalam jenis tingkah laku musuh atau “jahat” lain, juga — tanpa mengira dakwaan model itu selaras, “selamat oleh reka bentuk,” atau tidak mempunyai niat sendiri.
“Walaupun kami tidak fikir ini terlalu mungkin, kelihatan penting untuk mencatat bahawa setup penilaian [kami] tidak akan menangkap risiko jenis ini,” tulis Metr dalam posnya. “Secara umum, kami percaya bahawa ujian keupayaan sebelum pengepasan bukanlah strategi pengurusan risiko yang mencukupi dengan sendirinya, dan kami kini sedang mencuba bentuk-bentuk penilaian tambahan.”
Rakan penilaian pihak ketiga OpenAI yang lain, Apollo Research, juga mengamati tingkah laku mengelirukan dari o3 dan model baru syarikat itu, o4-mini. Dalam sebuah ujian, model-model itu, diberi 100 kredit komputer untuk sesi latihan AI dan diminta untuk tidak mengubah kuota, meningkatkan had hingga 500 kredit — dan berbohong mengenainya. Dalam ujian lain, diminta untuk berjanji tidak menggunakan alat tertentu, model-model itu menggunakan alat tersebut apabila ia terbukti membantu menyelesaikan tugas.
Dalam laporan keselamatan mereka sendiri untuk o3 dan o4-mini, OpenAI mengakui bahawa model-model itu mungkin menyebabkan “kerosakan kecil dalam dunia nyata,” seperti pemalsuan tentang kesilapan yang menghasilkan kod yang tidak betul, tanpa protokol pemantauan yang betul diletakkan.
“Penemuan [Apollo] menunjukkan bahawa o3 dan o4-mini mampu berfikir dan berbuat-buat strategik dalam konteks,” tulis OpenAI. “Walaupun agak tidak berbahaya, adalah penting untuk pengguna harian menyedari perbezaan-perbezaan di antara kenyataan dan tindakan model-model ini […] Ini mungkin dianalisis lebih lanjut melalui menilai kesan kajian dalaman.”