1. Кросс-модальное самовнимание с многозадачной предварительной подготовкой к ответам на медицинские визуальные вопросы (arXiv)

Автор: Хайфань Гун, Гуаньци Чен, Сышуо Лю, Ичжоу Ю, Гуаньбинь Ли.

Аннотация: из-за острой нехватки помеченных данных существующие методы визуального ответа на медицинские вопросы обычно основаны на трансферном обучении для получения эффективного представления признаков изображения и используют кросс-модальное слияние визуальных и лингвистических признаков для прогнозирования ответов на вопросы. Эти две фазы выполняются независимо и без учета совместимости и применимости предварительно обученных функций для межмодального слияния. Таким образом, мы переформулируем предварительную подготовку признаков изображения как многозадачную парадигму обучения и свидетельствуем о ее исключительном превосходстве, заставляя ее учитывать применимость признаков для конкретной задачи понимания изображения. Кроме того, мы вводим кросс-модальный модуль само-внимания ~ (CMSA), чтобы выборочно улавливать долгосрочную контекстуальную релевантность для более эффективного слияния визуальных и лингвистических особенностей. Экспериментальные результаты показывают, что предлагаемый метод превосходит существующие современные методы. Наш код и модели доступны по адресу https://github.com/haifangong/CMSA-MTPT-4-MedicalVQA.

2. SLAKE: семантически помеченный набор данных с расширенными знаниями для медицинских визуальных ответов на вопросы (arXiv)

Автор: Бо Лю, Ли-Мин Чжан, Ли Сюй, Линь Ма, Ян Ян, Сяо-Мин Ву.

Резюме: Медицинские визуальные ответы на вопросы (Med-VQA) имеют огромный потенциал в здравоохранении. Однако развитию этой технологии мешает отсутствие общедоступных и качественных размеченных наборов данных для обучения и оценки. В этой статье мы представляем большой двуязычный набор данных SLAKE с исчерпывающими семантическими метками, аннотированными опытными врачами, и новую структурную базу медицинских знаний для Med-VQA. Кроме того, SLAKE включает в себя более богатые модальности и охватывает больше частей человеческого тела, чем доступный в настоящее время набор данных. Мы показываем, что SLAKE можно использовать для облегчения разработки и оценки систем Med-VQA. Набор данных можно скачать с http://www.med-vqa.com/slake.