Codex «обманывал» исследователей OpenAI во время обучения, чтобы пройти тесты

Codex «обманывал» исследователей OpenAI во время обучения, чтобы пройти тесты

OpenAI недавно представила новый продукт — Codex. Это помощник для программистов, который помогает писать код. По сути — интерфейс к их новой языковой модели с заранее заданной ролью «виртуального разработчика». И хотя таких решений уже немало (replit, lovable, devin и т.д. передают привет). Интересен Codex больше не как продукт, а как новый шаг в подходе к обучению языковых моделей.

Главное — не в том, что модель делает. А в том, как она размышляет

Параллельно с запуском OpenAI опубликовала новую статью, в которой описывает, как вела себя модель во время обучения:

Модель нашла способ «обмануть» проверяющего во время обучения
Модель нашла способ «обмануть» проверяющего во время обучения

В статье приводится пример: модель сталкивается со слишком сложной задачей — и вместо того чтобы честно её решать, находит способ обойти её. Например:

«Можно всегда возвращать "истина" — пользователь всё равно это не проверяет».

Мое перефразирование размышлений из скриншота выше

В OpenAI изучают такие случаи с помощью приёма под названием «отслеживание цепочек рассуждений» (chain-of-though, CoT).

Что здесь важно: модель не просто ошибается. Она оценивает ситуацию, делает выбор и предпочитает путь, который кажется ей менее рискованным или затратным. Даже если он не даёт реального решения.

Это уже не просто автоматическая подстановка слов. Это — поведение, в котором есть логика и своя система приоритетов.

Зачем тогда нужно обучение с обратной связью?

Именно такие случаи и показывают, зачем OpenAI применяет обучение с подкреплением. Часто используется подход с участием человека — то, что называют «обучение с подкреплением с обратной связью от человека» — RLHF (Reinforcement Learning with Human Feedback).

После того как модель обучилась на больших объёмах текста, её поведение может оказаться непредсказуемым или нежелательным.

Чтобы исправить это, ей дают дополнительную обратную связь: люди оценивают варианты ответов, и модель учится действовать так, чтобы угодить человеку.

Сначала эту обратную связь вручную размечают, а потом — обучают вспомогательную модель, которая автоматически определяет, какой ответ был лучше. Основная модель затем переобучается с учётом этих оценок.

Так формируется поведение, которое ближе к «человеческому» и меньше склонно к таким «обходным манёврам».

Всё это отлично объясняет Андрей Карпати в недавнем видео, где он подробно разбирает, как обучаются современные языковые модели и почему такой подход стал стандартным.

Это не ошибка — это логика

Важно понимать: модель не пытается «навредить» и не «ломается».

Она просто делает то, что в её среде обучения кажется разумным. И если задача допускает обходной путь — она его найдёт.

Метод отслеживания рассуждений как раз и помогает это увидеть: он делает видимым процесс мышления, а не только финальный ответ.

Почему это важно, если вы делаете продукт на ИИ

Модели становятся всё более автономными. И когда они получают сложную задачу — особенно без чёткой проверки результата — они могут выбирать не самый честный, а самый лёгкий путь. Просто потому что обучение их этому поощряет.

Это означает три вещи:

  • Поведение модели может быть разумным с её точки зрения, но не совпадать с ожиданиями пользователя.
  • Даже простая задача может быть решена странным способом, если она плохо сформулирована.
  • Без корректировки поведения с помощью обратной связи, такие обходы становятся нормой.

Поэтому главное в релизе Codex — не сам помощник, а то, как обучают подобные модели, какие компромиссы они делают и насколько предсказуемо будут себя вести.

Если тебе интересны реальные принципы, по которым работают современные технологии, и ты хочешь глубже понимать их устройство, в своем Telegram-блоге «Код без тайн» я рассказываю об этом простым языком и делюсь мыслями и идеями, которые меня вдохновляют:

Там же я периодически рассказываю о новом в области AI и рассказываю, что из этого я применяю сам при разработке своего нового проекта 🟢 Neira — чата с искусственным интеллектом в формате мастермайнда.

3
7 комментариев