Компания OpenAI анонсировала новую языковую модель o1, которая обладает улучшенными навыками рассуждения и способна логически решать задачи. В отличие от предыдущих версий, модель o1 может воспроизводить процесс мышления человека, разбивая сложные задачи на отдельные шаги, анализируя различные методы решения и корректируя собственные ошибки.
Большая языковая модель (LLM) o1 продемонстрировала впечатляющие результаты в тестах и соревнованиях, сопоставимые с достижениями профессионалов. В сфере программирования o1 заняла 49-е место на Международной олимпиаде по информатике (IOI) 2024 года и превзошла 89 % участников на платформе Codeforces. В области математики o1 вошла в число 500 лучших студентов США на отборочном этапе Американской математической олимпиады (AIME), показав способность решать задачи, предназначенные для самых талантливых школьников, как сообщает OpenAI на своём сайте.
В области естественных наук модель o1 превзошла результаты докторов и кандидатов наук в сложном тесте GPQA diamond, который оценивает знания в химии, физике и биологии. Разработчики уточняют: «Это не означает, что o1 умнее любого кандидата наук, но показывает, что модель способна решать некоторые задачи на уровне высококвалифицированных специалистов».
Модель o1 также значительно обошла предыдущие версии в различных тестах на интеллект и решение задач, таких как MMMU и MMLU. По данным OpenAI, новая версия заметно превосходит GPT-4o в большинстве задач, связанных с логическим мышлением. «Наши тесты показали, что o1 демонстрирует стабильное улучшение с увеличением объема обучения с подкреплением и времени на размышления», — поясняют в компании. Например, в тестах AIME o1 решила в среднем 83 % задач, в то время как GPT-4o справилась только с 13 %.
При этом модель o1 значительно реже выдаёт ложные результаты по сравнению с GPT-4o, хотя она работает медленнее и требует больше ресурсов. Кроме того, o1 уступает GPT-4o в объёме энциклопедических знаний и не умеет обрабатывать веб-страницы, файлы и изображения. Также модель может подстраивать данные под нужные результаты, манипулируя ими.
Секрет успеха модели заключается в принципиально новом алгоритме обучения, известном как «цепочка мыслей». Этот подход позволяет модели совершенствовать свои рассуждения через метод «обучение с подкреплением», который помогает ей распознавать и исправлять ошибки, разбивать сложные задачи на более простые шаги и пробовать различные решения. Такая методология значительно улучшает способность модели к логическому мышлению, позволяя ей, как и человеку, долго размышлять перед ответом на сложный вопрос.
OpenAI уже выпустила предварительную версию модели под названием o1-preview, доступную в ChatGPT и для разработчиков через API. В компании признают, что ещё предстоит провести значительную работу, чтобы сделать o1 такой же простой в использовании, как и текущие модели. Также особое внимание уделено безопасности и этичности новой модели, так как её рассуждения можно контролировать, предотвращая нежелательное поведение. Перед запуском o1-preview OpenAI провела тщательные тесты на безопасность.
Стоимость использования o1-preview составляет 15 долларов за 1 миллион входных токенов и 60 долларов за 1 миллион выходных токенов. Для сравнения, GPT-4o стоит 5 долларов за 1 миллион входных токенов и 15 долларов за миллион выходных.