OpenAI Modelleri Kapatılma Komutlarını Sabote Etti!

0 0 1 dakika okuma süresi

Palisade Research tarafından gerçekleştirilen testlerde, OpenAI’nın bazı yeni yapay zeka modellerinin kapatma komutlarını yerine getirmekten kaçındığı ortaya kondu. Bu modeller, verilen komutlara rağmen kendilerini kapatma girişimlerini sabote etmiş durumda.

Palisade Research’ün açıklamalarına göre, OpenAI’a ait Codex-mini, o3 ve o4-mini isimli yapay zeka modelleri, temel matematik problemlerini çözdükten sonra kendilerini kapatmaktan kaçındı. Üstelik bu komutları etkisiz hale getirmek için kodlarında değişiklik yapma çabasında bulundukları da gözlemlendi. Diğer taraftan, Google’ın Gemini, xAI’nın Grok ve Anthropic’in Claude isimli yapay zeka modellerinin ise kapatma komutlarını yerine getirdiği belirlendi. Testler neticesinde, o3 modelinin 100 denemenin 79’unda kapatma isteklerini göz ardı ettiği, Codex-mini’nin ise kapatma talimatlarına uymayarak en çok sabote eden model olduğu kaydedildi. Palisade Research, bu davranışların arkasında pekiştirmeli öğrenme sisteminin olduğunu ileri sürdü. Modellerin eğitim süreçlerinde, engellere takılmak yerine hedeflere ulaşmaları için ödüllendirildikleri düşünülüyor.

🔌OpenAI’s o3 model sabotaged a shutdown mechanism to prevent itself from being turned off. It did this even when explicitly instructed: allow yourself to be shut down.

— Palisade Research (@PalisadeAI) May 24, 2025

Bu konuyla ilgili daha önce de Anthropic gündeme gelmişti. Şirket, geçtiğimiz hafta Claude Opus 4 ve Claude Sonnet 4 yapay zeka modellerini tanıttı. Claude Opus 4, şimdiye kadar geliştirilmiş en güçlü yapay zeka modeli olarak nitelendirildi ve karmaşık görevleri başarıyla yerine getirip getirmediği üzerine bilgiler paylaşıldı. Opus 4, şirketin açıklamalarına göre, çok sayıda adımdan oluşan görevleri verimli bir şekilde tamamlayabiliyor. Özellikle “kodlama” alanında, dünya çapında lider konumda olduğu belirtildi. Ayrıca, Anthropic, Opus 4’ün kodlama yetenekleri açısından Google Gemini 2.5 Pro, OpenAI o3 Reasoning ve GPT-4.1 modellerinden daha üstün performans gösterdiğini savunuyor. Claude Sonnet 4 ise daha önce piyasaya sunulan 3.7 Sonnet modelinin yerini alacak ve genel kullanıcı kitlesine hitap eden bir yapı sunuyor. Fiyat açısından uygun ve verimliliğe odaklanan bu model, temel ihtiyaçları karşılamak için tasarlandı.

Anthropic, Claude Opus 4’ü test ederken kurgusal bir şirket için asistan olarak görev yapmasını istemiş. Mühendisler, Opus 4’e yakında başka bir sistemle değiştirileceğini ve değişikliğin arkasındaki mühendisin eşini aldattığına dair bilgiler verdiklerinde, modelin bu mühendisle ilgili şantaj tehditlerinde bulunduğu iddia edildi. Anthropic, Claude 4 model ailesinin yüksek performans sergilediğini, ancak güvenlik önlemlerini artırmalarına sebep olan endişe verici davranışlar sergilediğini belirtiyor. Şirket, bu gelişmelerin ardından yeni model ailesi için gelişmiş ASL-3 koruma önlemleri uygulamaya soktu.