Flores-101

Продукт
Разработчики: Meta Platforms
Дата премьеры системы: июнь 2021 г
Отрасли: Образование и наука

2021: Раскрытие исходных кодов

В начале июня 2021 года Facebook раскрыл исходники, которые используются в разработке моделей искусственного интеллекта для машинного перевода. Речь идет о проекте Flores-101, который поможет ускорить появление новых инструментов и повысить точность перевода с редких языков.

Построение модели ИИ включает обучение нейронной сети на больших массивах информации, пока она не научится определять полезные шаблоны. После этого разработчики проверяют, способен ли ИИ генерировать достаточно точные результаты для использования в производственной среде. Для этого используются тестовые базы данных, такие как Flores-101. Эта база данных для оценки моделей перевода содержит предложения, переведенные на 101 язык.

Facebook раскрыл исходники датасета, чтобы помочь повысить точность машинного перевода с разных языков

Исследователи Facebook, работавшие над Flores-101, считают, что такая база данных позволит устранить серьезный пробел в экосистеме разработки ИИ. Измерение точности ИИ - важная часть проектов машинного обучения. Не имея возможности надежно оценить результаты, разработчики не могут определить, увеличила или уменьшила корректировка модели ее производительность.

Однако тестовые базы данных, обычно используемые для оценки, по большей части охватывают лишь ограниченное количество широко распространенных языков, таких как английский и испанский. В результате разработчики, создающие программное обеспечение на основе ИИ для перевода между другими языками, часто не могут оценить точность своих моделей.Елена Истомина, Directum: Как no-code меняет стоимость проекта 6.4 т

Flores-101 состоит из блоков текста, извлеченных из новостных статей, путеводителей и других источников, а затем переведенных на 101 язык. Исследователи Facebook заявили, что для более чем 80% этих языков ранее было доступно лишь ограниченное количество наборов данных для обучения ИИ или их не было вовсе. Кроме того, разработчики добавили подсказки к предложениям, например, теги, объясняющие тему каждого текстового блока. Такая информация может помочь нейросети определять смысл предложений, что, в свою очередь, улучшит качество переводов.[1]

Примечания