LLM "думают" на английском языке

Исследование Федеральной политехнической школы Лозанны, упомянутое в статье New Scientist, выявило, что большие языковые модели (LLM), стоящие за чат-ботами, по умолчанию ориентированы на английский язык, даже при обработке запросов на других языках. Это было обнаружено благодаря анализу трёх версий модели Llama 2 от Meta, доступной с открытым исходным кодом, что позволило учёным детально исследовать каждый этап её работы.

Модель Llama 2 разделена на слои, каждый из которых выполняет различные функции при обработке запроса, начиная от перевода подсказок в токены до контекстуализации каждого токена для формирования ответа. Исследователи тестировали модель, используя запросы на четырёх языках — китайском, французском, немецком и русском, с тремя типами заданий: повторением слова, переводом с одного иностранного языка на другой и заполнением пробела в предложении.

Они обнаружили, что в процессе обработки запросов LLM часто использует английский язык как промежуточный этап, даже при переводах между неанглийскими языками. Это поднимает вопросы о влиянии английского языка как основы для обучения моделей и о потенциальном распространении его ограничений на другие языки и культуры.

Эксперты, такие как Карисса Велиз из Оксфордского университета и Алия Бхатия из Центра демократии и технологий в Вашингтоне, выражают обеспокоенность по поводу рисков, связанных с англоцентрическими ценностями в генеративном ИИ. Они подчёркивают, что использование модели в культурно нерелевантных контекстах или в ситуациях, требующих чувствительности к разнообразным культурным особенностям, может привести к недоразумениям и ошибкам.