Кризис ИИ: нехватка качественных данных для обучения GPT-5

Разработчики передового ИИ сталкиваются с недостатком качественных обучающих материалов, усугубляемым блокировкой доступа к данным некоторыми ресурсами. Эксперты предупреждают о рисках использования синтетических данных и других моделей для обучения, что может привести к серьёзным проблемам.

gpt-5

Проблема особенно актуальна для будущего обучения крупных языковых моделей, как предполагается у OpenAI для GPT-5, особенно учитывая возможное использование транскрипций YouTube. Языковые модели обрабатывают тексты из интернета, включая научные работы и новостные статьи, чтобы имитировать человеческое общение. OpenAI, например, использовала 12 триллионов токенов для обучения GPT-4, но для GPT-5 может потребоваться до 100 триллионов токенов.

обучение языковых моделей

Многие интернет-данные оказываются неподходящими для обучения из-за некачественного содержания. Большие платформы часто закрывают доступ к своим данным, что усложняет сбор качественного материала. Некоторые компании, включая Meta* и DatologyAI, ищут новые методы обучения, включая использование «учебного плана» и создание рынка данных.

OpenAI и Anthropic исследуют возможность использования «синтетических данных высокого качества». Несмотря на опасения по поводу нехватки данных, исследователи сохраняют оптимизм, веря в будущие открытия. Однако, помимо проблемы данных, отрасль сталкивается с дефицитом чипов, а также нехваткой центров обработки данных и электроэнергии.

Добавить комментарий