Codex «обманывал» исследователей OpenAI во время обучения, чтобы пройти тесты
OpenAI недавно представила новый продукт — Codex. Это помощник для программистов, который помогает писать код. По сути — интерфейс к их новой языковой модели с заранее заданной ролью «виртуального разработчика». И хотя таких решений уже немало (replit, lovable, devin и т.д. передают привет). Интересен Codex больше не как продукт, а как новый шаг в подходе к обучению языковых моделей.
Главное — не в том, что модель делает. А в том, как она размышляет
Параллельно с запуском OpenAI опубликовала новую статью, в которой описывает, как вела себя модель во время обучения:
В статье приводится пример: модель сталкивается со слишком сложной задачей — и вместо того чтобы честно её решать, находит способ обойти её. Например:
«Можно всегда возвращать "истина" — пользователь всё равно это не проверяет».
В OpenAI изучают такие случаи с помощью приёма под названием «отслеживание цепочек рассуждений» (chain-of-though, CoT).
Что здесь важно: модель не просто ошибается. Она оценивает ситуацию, делает выбор и предпочитает путь, который кажется ей менее рискованным или затратным. Даже если он не даёт реального решения.
Это уже не просто автоматическая подстановка слов. Это — поведение, в котором есть логика и своя система приоритетов.
Зачем тогда нужно обучение с обратной связью?
Именно такие случаи и показывают, зачем OpenAI применяет обучение с подкреплением. Часто используется подход с участием человека — то, что называют «обучение с подкреплением с обратной связью от человека» — RLHF (Reinforcement Learning with Human Feedback).
После того как модель обучилась на больших объёмах текста, её поведение может оказаться непредсказуемым или нежелательным.
Чтобы исправить это, ей дают дополнительную обратную связь: люди оценивают варианты ответов, и модель учится действовать так, чтобы угодить человеку.
Сначала эту обратную связь вручную размечают, а потом — обучают вспомогательную модель, которая автоматически определяет, какой ответ был лучше. Основная модель затем переобучается с учётом этих оценок.
Так формируется поведение, которое ближе к «человеческому» и меньше склонно к таким «обходным манёврам».
Всё это отлично объясняет Андрей Карпати в недавнем видео, где он подробно разбирает, как обучаются современные языковые модели и почему такой подход стал стандартным.
Это не ошибка — это логика
Важно понимать: модель не пытается «навредить» и не «ломается».
Она просто делает то, что в её среде обучения кажется разумным. И если задача допускает обходной путь — она его найдёт.
Метод отслеживания рассуждений как раз и помогает это увидеть: он делает видимым процесс мышления, а не только финальный ответ.
Почему это важно, если вы делаете продукт на ИИ
Модели становятся всё более автономными. И когда они получают сложную задачу — особенно без чёткой проверки результата — они могут выбирать не самый честный, а самый лёгкий путь. Просто потому что обучение их этому поощряет.
Это означает три вещи:
- Поведение модели может быть разумным с её точки зрения, но не совпадать с ожиданиями пользователя.
- Даже простая задача может быть решена странным способом, если она плохо сформулирована.
- Без корректировки поведения с помощью обратной связи, такие обходы становятся нормой.
Поэтому главное в релизе Codex — не сам помощник, а то, как обучают подобные модели, какие компромиссы они делают и насколько предсказуемо будут себя вести.
Если тебе интересны реальные принципы, по которым работают современные технологии, и ты хочешь глубже понимать их устройство, в своем Telegram-блоге «Код без тайн» я рассказываю об этом простым языком и делюсь мыслями и идеями, которые меня вдохновляют:
Там же я периодически рассказываю о новом в области AI и рассказываю, что из этого я применяю сам при разработке своего нового проекта 🟢 Neira — чата с искусственным интеллектом в формате мастермайнда.