タグ bon
人気順 5 users 50 users 100 users 500 users 1000 users(1 - 2 / 2件)
ランダムな文字列で質問し続けるとAIから有害な回答を引き出せるという攻撃手法「Best-of-N Jailbreaking」が開発される、GPT-4oを89%の確率で突破可能
大文字と小文字をごちゃ混ぜにしたり、わざとスペルミスをしたりすることでAIから有害な回答を引き出す手法「Best-of-N(BoN)ジェイルブレイキング」が開発されました。 BEST-OF-N JAILBREAKING (PDFファイル)https://arxiv.org/pdf/2412.03556 Best-of-N Jailbreaking https://jplhughes.github.io/bon-jailbreaking/ Ne... 続きを読む
bon
(1 - 2 / 2件)