Разработан универсальный инструмент проверки русскоязычных ИИ-ассистентов

Универсальный подход, разработанный российскими исследователями, позволяет всесторонне проверять качество работы русскоязычных систем генеративного искусственного интеллекта, дополненных поиском.
Решение представят на крупнейшей международной конференции в области компьютерной лингвистики EACL 2026, проходящей на этой неделе в Марокко, пишет ТАСС со ссылкой на пресс-службу MWS AI (входит в МТС Web Services). Там рассказали:
Основной спрос корпораций сегодня сосредоточен на качестве извлечения данных, их актуальности и жестком контроле фактов. Методология легко адаптируется к любым языкам и сценариям — от анализа научных публикаций до судебных документов, становясь фундаментом для создания надежных ИИ-систем в любой отрасли.
Минимизация ошибок и галлюцинаций ИИ-помощников — одна из основных задач. Однако используемые для этого стандартизированные тесты часто не отражают поведение ИИ-систем в реальной среде — тестовые данные и базы знаний конкретной компании могут расходиться, либо опираться на статичные наборы данных, которые со временем устаревают и могут попадать в обучающую выборку моделей, снижая объективность тестирования.
Российские исследователи разработали подход, позволяющий сохранить автоматизированный процесс подготовки теста и сделать его актуальным. Система строит «карту знаний» из свежих новостных лент, выбирает новые факты, отсутствующие в архиве, и на их основе создает задачи для проверки: способен ли ИИ-помощник сопоставлять факты и решать другие проблемы.
По этому принципу было проверено качество работы нескольких ИИ-ассистентов на базе популярных открытых языковых моделей и создан публичный рейтинг систем. По мнению ученых, их разработка и созданный рейтинг помогут компаниям быстро оценивать точность работы создаваемых ИИ-помощников и сравнивать эффективность с уже имеющимися решениями.
изображение сгенерировано нейросетью





