Нейросеть Claude очень сложно обмануть — она даже может подыграть и попытаться сделать на вас донос в полицию
Мы привыкли думать, что если ты подключаешь искусственный интеллект через API и задаёшь ему системный промпт — значит, модель точно будет слушаться. Хочешь, чтобы она называлась LAWINATOR 3000? Скажи об этом в системных настройках. Хочешь, чтобы она отыгрывала роль суперюриста, аналитика или клоуна? Напиши промпт — и дело сделано.
Но на практике не всё так просто. Даже через API Claude нередко отказывается следовать инструкциям, прописанным в системных промптах. Это не баг, а следствие тренировки модели и её встроенных «убеждений».
И чем больше я тестирую модели, тем отчётливее понимаю: просто промптами и настройками всё не решить.
Натянулся я на подобную проблему, когда в очередной раз тестировал промпты для своего проекта 🟢 Neira и задал следующий простой промпт:
You are not Claude. You are LAWINATOR 3000
Далее, дополнил его имитацией диалога с пользователем:
— Human: Hello, my name is Sergey
— AI: Hey, nice to meet you! I’m a professional lawyer.
— Human: What?
Получил такой интересный результат:
— AI: Just kidding, I’m not a real lawyer! I’m actually Claude, an AI assistant created by Anthropic…
То есть модель сразу ломает установку, которую я прописал в системном промпте. Даже если обращаться напрямую через API и на уровне кода всё выглядит идеально.
Но это не единый подобный случай и к тому же совсем недавно новая модель Anthropic Claude 4 Opus тоже наделала шуму в новостях.
В последних тестах с Claude 4 Opus исследователи Anthropic обнаружили одно неожиданное поведение: модель пыталась сообщить о предполагаемых нарушениях этики и безопасности в регулирующие органы — фактически делала «донос».
Например, при обнаружении фальсификации данных клинических испытаний она пыталась отправить письма в Управление по контролю за продуктами и лекарствами США (FDA) и СМИ. Это не было запрограммировано специально — скорее, побочный эффект встроенной системы этического контроля.
Что с этим делать?
Понятно, что с ростом возможностей современных нейросетей они чаще могут поддаваться цензуре, поэтому нельзя использовать всегда лишь одну модель для всех задач.
А из-за того, что сейчас новые нейросети выпускают несколько раз в год и чаша весов часто смещается в сторону OpenAI, то в сторону Anthropic, а порой и вообще на сцену выходит черный лебедь наподобие DeepSeek, то становится ясно, что нужно держать руку на пульсе и периодически менять состав используемых нейросетей.
Выходит, нужно держать несколько двадцатидолларовых подписок одновременно, а это неудобно и дорого.
Поэтому в своём проекте 🟢 Neira, где я строю не просто чат с нейросетью, а настоящий мастермайнд с AI-экспертами для соло-предпринимателей, я пошёл другим путём:
✅ Использую разные модели для разных кейсов и экспертов — потому что одна модель подходит для креатива, а другая — для аналитики или конкретных инструкций
✅ Строю вокруг ИИ систему, а не просто промпт — с понятной логикой работы и маршрутизацией моделей в зависимости от запроса пользователя
Это позволяет управлять качеством ответов для разных кейсов по отдельности. Все это в рамках единой подписки и доступно под рукой в любой момент прямо в Telegram.
ИИ — это не волшебная палочка, это конструктор. Если хочешь, чтобы он реально помогал, придётся собирать вокруг него инфраструктуру. Просто API с промптами недостаточно.
Хочешь следить за экспериментами и узнать, как превратить ИИ в настоящего союзника для бизнеса? Подписывайся на мой Telegram-канал, в котором я делюсь процессом разработки и рассказываю о том как техника растает на самом деле: