Сбер: Инструмент для проверки орфографии в текстах с помощью ИИ

Продукт
Название базовой системы (платформы): Искусственный интеллект (ИИ, Artificial intelligence, AI)
Разработчики: SberDevices (СалютДевайсы, ранее СберДевайсы)
Дата премьеры системы: 2023/10/06
Технологии: Офисные приложения

2023: Представление сервиса проверки и корректуры текстов

Бизнесу теперь доступен сервис Сбера для проверки и корректуры текстов с помощью технологий искусственного интеллекта. Об этом 6 октября 2023 года сообщила компания SberDevices.

ИИ-сервис представляет собой инструмент для проверки орфографии в текстах на русском языке, работающий на основе нейросетевой генеративной модели. Решение может быть использовано бизнесом для корректуры текста любой длины и формата — в копирайтинге и редактуре, при создании маркетинговых и рекламных материалов, в работе редакций СМИ. Сервис разработан компанией SberDevices и доступен в каталоге AI Services на платформе ML Space для зарегистрированных пользователей.

«
Модели на основе искусственного интеллекта предоставляют всё больше возможностей для текстовой редактуры. С помощью представленного решения можно обработать любой текст, переписав его без ошибок, использовать генеративные возможности моделей для коррекции правописания в текстах различных доменов. Инструмент может стать ИИ-помощником в различных информационных проектах и поможет быстро и качественно исключить орфографические ошибки в текстах, сэкономив время и ресурсы,
сказал Денис Филиппов, вице-президент по цифровым поверхностям «Салют» Сбербанка.
»

Перед командой разработчиков стояла задача изучить и решить проблемы корректуры правописания с помощью генеративных моделей. Результатом стала разработанная методология генеративной коррекции орфографии для русского языка, которая показывает качество уровня SOTA[1] на задаче проверки орфографии. По итогам работы выпущены: [2]библиотека SAGE с открытым исходным кодом (лицензия MIT), семейство предобученных генеративных моделей (ruM2M100-1.2B[3], ruM2M100-418M[4], FredT5-large-spell[5], T5-large-spell[6]) для корректуры правописания на русском и английском языках и хаб с размеченными данными[7] для задачи коррекции орфографии в текстах разных доменов.

На октябрь 2023 года представленный инструмент опережает по качеству открытые решения для русского языка и проприетарные модели конкурентов. Существенный прирост в метриках относительно других решений является следствием разработанной методологии. Было предложено два метода аугментации ошибок для воспроизведения естественных человеческих опечаток и орфографических ошибок в текстах. С помощью этих модулей был создан корпус текстов с ошибками (около 7 Гб), на котором обучались генеративные модели M2M100 и FredT5-large. Второй этап заключался в дообучении моделей на комбинации собранных параллельных датасетов для исправления орфографии. Лучшая конфигурация полученного решения представлена в виде AI-сервиса на платформе ML Space.



Подрядчики-лидеры по количеству проектов

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Softline (Софтлайн) (174)
  МойОфис (ООО Новые облачные технологии) (78)
  Синтеллект (Syntellect) (76)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (51)
  Wone IT (ранее SoftwareONE Россия, СофтвэрУАН и Awara IT Russia, Авара Ай Ти Солюшенс) (36)
  Другие (851)

  Синтеллект (Syntellect) (52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (14)
  Алми партнер (9)
  Softline (Софтлайн) (9)
  CommuniGate Systems (СталкерСофт) (5)
  Другие (81)

  Датапакс (11)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (9)
  CommuniGate Systems (СталкерСофт) (5)
  МойОфис (ООО Новые облачные технологии) (4)
  Аксофт (Axoft) (3)
  Другие (49)

  Корус Консалтинг (9)
  Cloud4Y (ООО Флекс) (8)
  Датапакс (6)
  Яндекс (Yandex) (6)
  Синтеллект (Syntellect) (5)
  Другие (50)

  Fingers Media (2)
  Cloud4Y (ООО Флекс) (1)
  Content AI (Контент ИИ) (1)
  Mont (Монт) (1)
  Softline (Софтлайн) (1)
  Другие (6)

Распределение вендоров по количеству проектов внедрений (систем, проектов) с учётом партнёров

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft (61, 476)
  МойОфис (ООО Новые облачные технологии) (12, 87)
  Синтеллект (Syntellect) (2, 77)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 61)
  СБК (Система безопасных коммуникаций) (2, 40)
  Другие (593, 419)

  Синтеллект (Syntellect) (2, 52)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 18)
  Microsoft (6, 15)
  СБК (Система безопасных коммуникаций) (1, 11)
  The Document Foundation (2, 10)
  Другие (32, 48)

  СБК (Система безопасных коммуникаций) (1, 9)
  Р7-Офис (ранее Новые Коммуникационные Технологии, НКТ) (1, 9)
  МойОфис (ООО Новые облачные технологии) (2, 5)
  Тест АйТи (Test IT) (1, 3)
  СКБ Контур (1, 2)
  Другие (14, 16)

  Корус Консалтинг (1, 9)
  МойОфис (ООО Новые облачные технологии) (1, 8)
  Cloud4Y (ООО Флекс) (1, 7)
  Яндекс (Yandex) (1, 7)
  Unlimited Production (Анлимитед Продакшен) (1, 6)
  Другие (20, 33)

  МойОфис (ООО Новые облачные технологии) (2, 2)
  Cloud4Y (ООО Флекс) (1, 1)
  Корус Консалтинг (1, 1)
  Облакотека (Виртуальные инфраструктуры) (1, 1)
  Content AI (Контент ИИ) (1, 1)
  Другие (1, 1)

Распределение систем по количеству проектов, не включая партнерские решения

За всю историю
2021 год
2022 год
2023 год
Текущий год

  Microsoft 365 (ранее Office 365) - 127
  Microsoft Exchange Server - 110
  Новые облачные технологии: МойОфис - 71
  Skype for Business (ранее Microsoft Lync) - 67
  Р7-Офис - 61
  Другие 725

  Syntellect Tessa Мобильное согласование - 30
  Syntellect Tessa Графический визуализатор процессов - 28
  Р7-Офис - 18
  CommuniGate Pro - 11
  AlterOffice - 9
  Другие 58

  CommuniGate Pro - 9
  Р7-Офис - 9
  Новые облачные технологии: МойОфис - 5
  Test IT TMS (Test Management System) - 3
  Контур.Толк - 2
  Другие 17

  Корус Консалтинг: K-Team - 9
  Новые облачные технологии: МойОфис - 8
  Cloud4Y Корпоративная облачная почта - 7
  Яндекс 360 (ранее Почта 360) - 7
  EXpress Защищенный корпоративный мессенджер - 6
  Другие 31

  Новые облачные технологии: МойОфис - 2
  Корус Консалтинг: K-Team - 1
  ContentReader PDF (ранее ABBYY FineReader PDF) - 1
  Cloud4Y Корпоративная облачная почта - 1
  Syntellect Tessa Графический визуализатор процессов - 1
  Другие 2