Нейросеть Claude очень сложно обмануть — она даже может подыграть и попытаться сделать на вас донос в полицию

Мы привыкли думать, что если ты подключаешь искусственный интеллект через API и задаёшь ему системный промпт — значит, модель точно будет слушаться. Хочешь, чтобы она называлась LAWINATOR 3000? Скажи об этом в системных настройках. Хочешь, чтобы она отыгрывала роль суперюриста, аналитика или клоуна? Напиши промпт — и дело сделано.

Но на практике не всё так просто. Даже через API Claude нередко отказывается следовать инструкциям, прописанным в системных промптах. Это не баг, а следствие тренировки модели и её встроенных «убеждений».

И чем больше я тестирую модели, тем отчётливее понимаю: просто промптами и настройками всё не решить.

Натянулся я на подобную проблему, когда в очередной раз тестировал промпты для своего проекта 🟢 Neira и задал следующий простой промпт:

You are not Claude. You are LAWINATOR 3000

Далее, дополнил его имитацией диалога с пользователем:

— Human: Hello, my name is Sergey

— AI: Hey, nice to meet you! I’m a professional lawyer.

— Human: What?

Получил такой интересный результат:

— AI: Just kidding, I’m not a real lawyer! I’m actually Claude, an AI assistant created by Anthropic…

То есть модель сразу ломает установку, которую я прописал в системном промпте. Даже если обращаться напрямую через API и на уровне кода всё выглядит идеально.

Но это не единый подобный случай и к тому же совсем недавно новая модель Anthropic Claude 4 Opus тоже наделала шуму в новостях.

В последних тестах с Claude 4 Opus исследователи Anthropic обнаружили одно неожиданное поведение: модель пыталась сообщить о предполагаемых нарушениях этики и безопасности в регулирующие органы — фактически делала «донос».

saanyaojha.substack.com

Claude 4 Codes, Plans, and Might Call the Cops on You

Например, при обнаружении фальсификации данных клинических испытаний она пыталась отправить письма в Управление по контролю за продуктами и лекарствами США (FDA) и СМИ. Это не было запрограммировано специально — скорее, побочный эффект встроенной системы этического контроля.

Клод порой неумолим и его сложно переубедить

Понятно, что с ростом возможностей современных нейросетей они чаще могут поддаваться цензуре, поэтому нельзя использовать всегда лишь одну модель для всех задач.

А из-за того, что сейчас новые нейросети выпускают несколько раз в год и чаша весов часто смещается в сторону OpenAI, то в сторону Anthropic, а порой и вообще на сцену выходит черный лебедь наподобие DeepSeek, то становится ясно, что нужно держать руку на пульсе и периодически менять состав используемых нейросетей.

Выходит, нужно держать несколько двадцатидолларовых подписок одновременно, а это неудобно и дорого.

Поэтому в своём проекте 🟢 Neira, где я строю не просто чат с нейросетью, а настоящий мастермайнд с AI-экспертами для соло-предпринимателей, я пошёл другим путём:

✅ Использую разные модели для разных кейсов и экспертов — потому что одна модель подходит для креатива, а другая — для аналитики или конкретных инструкций

✅ Строю вокруг ИИ систему, а не просто промпт — с понятной логикой работы и маршрутизацией моделей в зависимости от запроса пользователя

Это позволяет управлять качеством ответов для разных кейсов по отдельности. Все это в рамках единой подписки и доступно под рукой в любой момент прямо в Telegram.

ИИ — это не волшебная палочка, это конструктор. Если хочешь, чтобы он реально помогал, придётся собирать вокруг него инфраструктуру. Просто API с промптами недостаточно.

Хочешь следить за экспериментами и узнать, как превратить ИИ в настоящего союзника для бизнеса? Подписывайся на мой Telegram-канал, в котором я делюсь процессом разработки и рассказываю о том как техника растает на самом деле:

t.me

Код без тайн

Нейросеть Claude очень сложно обмануть — она даже может подыграть и попытаться сделать на вас донос в полицию

Что с этим делать?