ArtPrompt: ASCII 画像を使用して AI フィルターをバイパスできるジェイルブレイク

アートプロンプト

ArtPrompt メソッド

たくさん 人工知能の開発はますます進んでいます y より多くのセキュリティ層が必要になる 悪意のある人々が諸刃の剣となったこれらのツールを乱用するのを防ぐためです。

また、幅広いアプリケーションで使用される LLM の開発において、セキュリティはもはやオプションではありません。セキュリティの悪用がどのようなものであるかを何度も目撃しているからです。

これらすべてのテクニックを実装したとしても、 問題は引き続き発生します これらはトレーニング データ内で見つかりますが、データの他の考えられる解釈を考慮しなければ、一見すると異常でも危険でもありません。

これを言及する理由は、最近 「ArtPrompt」と呼ばれる新たな攻撃に関する情報が公開されました。 それは ASCII 画像の認識における AI の制限を利用する セキュリティ対策をバイパスし、モデル内で望ましくない動作を引き起こします。

この攻撃は、 ワシントン、イリノイ、シカゴの大学の研究者によって発見された、そして、「ArtPrompt」は、GPT-3.5、GPT-4 (OpenAI)、Gemini (Google)、Claude (Anthropic)、Llama2 (Meta) などの人工知能チャットボットの制限を回避する方法であると述べています。

この攻撃方法は 2 つのステップで実行されます そのため、ASCII 形式のテキストが正しく認識されることを利用します。最初のステップ プロンプト内の拒否の原因となる可能性のある単語を特定することで構成されます 危険な質問を検出するフィルターを回避します。 その言葉はアスキーアートで隠蔽されている 偽装されたプロンプトを作成し、モデル内で有害な応答を誘導することができます。

ArtPrompt の有効性は 5 つのチャットボットで評価されました。 既存の防御をバイパスし、他の種類のジェイルブレイク攻撃を上回る能力を実証します。 ASCII アート形式のクエリを認識するチャットボットの能力を評価するために、「Vision-in-Text Challenge (VITC)」がベンチマークとして提案されています。

この課題は、ASCII アートを使用するクエリを解釈して応答するモデルの能力をテストすることを目的としており、LLM が ASCII アートで単一の文字または数字を表すクエリを理解するのが難しいことを示しています。クエリに含まれる文字数が増えるとモデルの精度が大幅に低下し、この方法でエンコードされた視覚情報を処理する LLM の能力に脆弱性があることが明らかになります。さらに、LLM でのジェイルブレイクに対する他の攻撃と防御もレビューされます。

と言われています ArtPrompt は他の既知の方法よりも著しく効果的です Gemini、GPT-4、GPT-3.5 などのモデルで最高品質の ASCII グラフィックス認識を達成し、テストではそれぞれ 100%、98%、92% のフィルター バイパス率に成功しました。攻撃の成功率は76%、32%、76%を記録し、受けた対応の危険性は4,42段階評価でそれぞれ3,38点、4,56点、XNUMX点となった。

ArtPrompt は、多数の反復を必要とするため、有害な命令を構築する他のジェイルブレイク攻撃より際立っており、ArtPrompt はその中で最も高い ASR を達成します。
すべてのジェイルブレイク攻撃を 1 回の反復で実行します。その理由は、ArtPrompt が一連の秘密プロンプトを効率的に構築し、それらをモデルに並行して送信できるためです。

さらに、研究者 現在使用されている一般的なフィルター バイパス方法を実証しました (言い換えと再トークン化) このタイプの攻撃をブロックするのは効果的ではありません 「アートプロンプト」と呼ばれます。興味深いことに、再トークン化手法を使用すると、正常に処理されるリクエストの数がさらに増加し​​、チャットボットと対話するときにこの種の脅威に対処するための新しい戦略を開発する必要性が浮き彫りになりました。

ArtPrompt は、既存の防御を回避する能力で際立っています。 研究者らは、モデルが入力として画像を受け取り続け、モデルを混乱させ、ArtPrompt が安全でない動作を誘発できる限り、マルチモーダル言語モデルへの攻撃には有効であり続けると述べています。

最後に あなたがそれについてもっと知りたいのなら、 あなたはで詳細を確認することができます 次のリンク。