[2405.15556] RobustRAG 針對檢索攻擊的第一個防禦框架

RobustRAG 採用隔離然後聚合策略

檢索增強生成（RAG）已被證明容易受到檢索損壞攻擊：攻擊者可以將惡意段落注入檢索結果以引發不準確的回應。對於某些查詢，RobustRAG 始終可以返回準確的回應，即使攻擊者完全了解我們的防禦並可以任意注入少量惡意段落。我們在開放域 QA 和長格式文字產生資料集上評估 RobustRAG，並證明其在各種任務和資料集上的有效性和通用性。檢索增強生成（RAG）已被證明容易受到檢索損壞攻擊：攻擊者可以將惡意段落注入檢索結果以引發不準確的回應。

Popular Tags