В блоге Google для разработчиков было опубликовано подробное изложение недавнего обновления фильтров спама для почтового сервиса Gmail. Внутри компании, это обновление было отмечено как одно из самых значимых улучшений системы защиты за последние несколько лет.
Обновление заключается в интеграции в почтовый сервис новой системы классификации текстов, которая называется Resilient & Efficient Text Vectorizer (RETVec). Как сообщают разработчики, это обновление эффективно идентифицирует спам-сообщения, включая электронные письма с большим количеством специальных символов, смайлов, опечаток и других элементов, которые ранее были заметны только для человека, но были сложными для определения спам-фильтрами. Новый алгоритм, согласно доступной информации, также эффективно распознает сообщения с гомоглифами — символами, которые визуально очень похожи друг на друга, но имеют разное значение.
Google сообщает, что алгоритм RETVec был обучен для эффективного выявления сообщений, которые содержат текст, подвергшийся различным манипуляциям, таким как вставка или удаление символов, опечатки, гомоглифы и т. д. В процессе обучения алгоритма использовался продвинутый кодировщик, способный эффективно кодировать любые символы и слова в формате UTF-8. В результате разработчики получили алгоритм, который может работать «из коробки» на более чем 100 языках мира.
Похоже, что RETVec работает в большей степени так же, как и люди читают. Алгоритм основан на ИИ-фреймворке TensorFlow и в процессе его работы определяет визуальное «сходство» для определения значения слов, а не символы, из которых они состоят. Google сообщает, что замена прежнего текстового векторизатора Gmail на RETVec позволила увеличить уровень обнаружения спама на 38% по сравнению с базовым, а количество ложных срабатываний уменьшилось на 19,4%. При этом количество используемых моделью тензорных вычислительных процессоров (TPU) уменьшилось на 83%, что делает это обновление одним из самых значительных для системы защиты Gmail за последние годы.