В России появилась первая мультимодальная нейросеть
Мультимодальную модель искусственного интеллекта OmniFusion разработали в научно-исследовательском Институте искусственного интеллекта (AIRI). ИИ поддерживает виртуальный диалог и может ответить пользователю на вопрос по картинкам.
Модель с поддержкой русского языка и открытым исходным кодом открывает новые возможности анализа информации и выводов, пишет Forbes.ru. Нейросеть расширит возможности систем обработки языка через интеграцию дополнительных данных — изображений, аудио, 3D- и видео.
OmniFusion распознает и описывает изображения, может объяснить, что изображено на картинке, узнать рецепт блюда по фото ингредиентов или как собрать устройство по фото запчастей и многое другое. Модель подходит и для логических задач, например, решить написанный на доске математический пример или распознать формулу.
В AIRI отмечают:
Спектр возможностей широкий: уже сейчас модель может проанализировать медицинское изображение [снимок] и указать на нем какую-то проблему. Разумеется, чтобы подобная модель помогала ставить диагнозы, ее необходимо дополнительно обучать на профильных датасетах с привлечением экспертов из медицины
Сейчас ее обучают специалисты научной группы FusionBrain Института и ученые из Sber AI и SberDevices.
изображение Freepik