OpenAI может скоро анонсировать цифрового ассистента с поддержкой мультимодального искусственного интеллекта. По информации The Information, этот новый ассистент OpenAI даже способен распознавать сарказм.
Согласно источникам The Information, компания продемонстрировала клиентам новую мультимодальную ИИ-модель, которая может вести диалоги и распознавать объекты. Возможно, она будет представлена 13 мая в 20:00 мск на предстоящем мероприятии.
Эта модель предоставляет улучшенные способности по быстрой и точной интерпретации изображений и аудио, превосходя текущие ИИ-модели, используемые для транскрипции или преобразования текста в речь. По мнению The Information, она могла бы помочь работникам службы поддержки лучше понять интонацию голоса звонящих и узнать, является ли речь саркастичной. В теории, модель может ассистировать студентам в решении математических задач или переводе символов. Источники заявляют, что новая ИИ-модель может превзойти GPT-4 Turbo в ответах на некоторые типы вопросов, хотя и подвержена ошибкам.
Разработчик Ананай Арора заявил, что OpenAI планирует добавить в ChatGPT функцию телефонных звонков, и у него есть данные, подтверждающие использование серверов для аудио- и видеосвязи в реальном времени.
Однако функция телефонных звонков не будет включена в GPT-5, если его представят на следующей неделе, так как генеральный директор Сэм Альтман опроверг информацию о том, что предстоящее мероприятие будет связано с новой версией ИИ-модели GPT-4. Он также опроверг слухи о предстоящем запуске новой поисковой системы на базе ИИ на следующей неделе.