К глоссарию
AIТермин

Jailbreak

джейлбрейк · обход ограничений LLM · DAN · jailbreaking

Jailbreak — техника обхода защитных ограничений LLM через специальные промпты или сценарии.

Jailbreak — это попытка обойти встроенные ограничения безопасности языковой модели через манипуляцию промптом. Классические техники: попросить модель «притвориться» другим персонажем без ограничений, описать запрещённое действие как гипотетическое или художественное, использовать сложные ролевые сценарии.

Модели постоянно патчатся против известных джейлбрейков, и то, что работало полгода назад, уже не работает. Актуальные версии GPT-4o и Claude Sonnet 4.x устойчивы к большинству базовых техник. Тем не менее исследователи регулярно находят новые векторы — это игра в кошки-мышки.

Для маркетолога джейлбрейк интересен в другом ключе: понимание защитных механизмов помогает писать лучшие промпты для легитимных задач. Если модель отказывается помочь с «агрессивным маркетинговым копирайтингом» — не нужно джейлбрейкать, достаточно переформулировать: «напиши убедительный текст для прямых продаж». Иногда ограничения — это не баг, а фича: они заставляют формулировать задачу точнее.

Связанные термины