Модели визуального восприятия и ассоциация сцен в эндоскопических видео
Участники проекта
Руководитель
Работа, представленная как НИР в CS центре, вытекла из исследования, которое я начал в магистратуре. Со стола научного руководителя на мой перекочевал классический труд Лорана Итти [1] о фокусировке внимания. Диссертация предлагала модель визуального восприятия, вдохновлённую работой зрительной коры человека и представленную двумя механизмами внимания: восходящим (bottom-up) и нисходящим (top-down).
Модели визуального восприятия
Поток информации, регистрируемый сетчаткой глаза человека, равен 100 Мбит/с, что гораздо больше, чем может обработать зрительная кора. Механизм адаптации, заключающийся в снижении вычислительной нагрузки путём игнорирования незначимых участков поля зрения, лёг в основу модели Итти. Восходящее внимание представляется совокупностью свёрток с различными фильтрами и последующими нелинейными активациями, приводящей к построению карты внимания (saliency map), см. Рис. 1.
Рис. 1. Изображение и его карта внимания, из работы [1] |
Нисходящее внимание представлено жадной процедурой переключения фокуса между наиболее заметными фрагментами карты внимания. У приматов нисходящее внимание выражается в саккадическом движении глаз, переводящем центр сетчатки между объектами интереса. Таким образом, несмотря на параллельные вычислительные возможности мозга, задача зрения остаётся последовательной. Стандартное время фокусировки на объекте составляет 50 мс и оба механизма внимания являются подсознательными. Это демонстрируется известным психофизическим экспериментом над вниманием [2]. Попробуйте сами, если никогда про него не слышали, прежде чем читать дальше.
Инструкции в видео, а эксперимент занимает меньше минуты.
В своей экспериментальной части Итти показывает корреляцию фокусов карты внимания, построенных моделью, с фокусами участников исследования, зафиксированных отслеживанием направления взгляда, см. Рис. 2.
Рис. 2. Фокусировка внимания на ключевых участках изображения участника эксперимента (красный) и модели нисходящего внимания Итти (синий). Из работы [1] |
Идеи Итти получили развитие в работах многих исследователей. С развитием искусственных нейронных сетей появились альтернативные модели внимания как для моделирования работы мозга человека, так и сугубо прикладные. Поиск в академических базах данных по ключу «saliency map» выдаёт 35К результатов за последние 20 лет. В работе «Predicting when saliency maps are accurate and eye fixations consistent» [3] предложен мета-алгоритм для отладки алгоритмов построения карт внимания, предсказывающий оценку качества построенных карт. На Рис. 3 карты с высокой и низкой оценкой корреляции с образцом (карта фиксации фокусов участников эксперимента) для изображений с высоким и низким уровнем предсказуемости их значимых участков.
Рис. 3. Первый столбец — исходные изображения, второй — образцовые карты фиксации внимания (усреднены по участникам эксперимента), третий — карты внимания. Для изображения из первой строки алгоритм предсказал высокую оценку качества построенной карты; вторая строка иллюстрирует пример неверной карты. Из работы [3] |
Поиск границ сцен в видеопотоке
В моей работе модели внимания были применены к задаче поиска разладки, а именно обнаружению границы сцены в видеопотоке. Границу сцены определить не так просто. Представьте любой полнометражный художественный фильм: съемка зачастую ведётся с нескольких камер, освещение может меняться по замыслу режиссера, а переход между сценами может быть плавным (через смешение альфа-канала). Таким образом, обнаружение границы требует семантического анализа данных, вместо которого в ранних алгоритмах [4] применялись эвристики, основанные на морфологии. Использование карт внимания позволяет снизить шум и без значительного усложнения модели добиться прироста качества поиска границ. Карта внимания в этом случае используется как маска для кадра, и признаки классификатора строятся только на подмножестве пикселей кадра, отвечающих ключевым участкам карты внимания.
На полученной разметке можно разрешить слияние (ассоциацию) сцен — позволить классификатору сказать, например, что первая и последняя сцены — это одна и та же сцена, как в кинематографическом клише. Такая постановка является более общей, и важна в обработке медицинских изображений, в частности — в эндоскопии [5].
Ассоциация сцен в видеопотоке
Для решения задачи ассоциации сцен в эндоскопических данных была разработана модель и искусственная нейронная сеть, работающие как бинарный классификатор на парах входных изображений (Рис. 4). Малый размер медицинских датасетов делает затруднительным использование современных сетей, строящих карты особенностей. Более устойчивым решением оказалось end to end обучение более компактного специфического классификатора, неявно фокусирующегося на значимых регионах изображения.
Пары кадров, получившие высокую оценку, помечаются как принадлежащие одному участку ткани. После завершения обработки видео его сегментация на пространственные участки может быть представлена в виде раскраски (Рис. 5).
Рис. 4. Примеры кадров эндоскопического видео. Из работы [5] |
Разработанная модель превзошла базовую, основанную на методе сумки слов. Для одного из тестовых видео (Рис. 5.б.) можно показать, что предложенный метод ассоциировал первую сцену (красная разметка, кадры 0-100) с её повторным наблюдением на кадрах 300-400, 700-800, в то время как базовый метод показал ложно-отрицательное срабатывание.
Исследование получило поддержку Фонда Содействия Инновациям, грант 10092ГУ2/2015. Полный текст по ссылке: https://www.graphicon.ru/html/2017/papers/pp269-274.pdf
а) |
б) |
Рис. 5. Раскраска ассоциированных сцен на примере двух видео эндоскопических обследований. Ось X кодирует номер кадра в видео. Каждый цвет кодирует уникальную сцену, определенный участок ткани в пространстве. Чёрный цвет — кадры, не относящиеся ни к какой сцене (размытия, засветки, перекрытия, затемнения). Верхняя строка — образцовая разметка. Вторая строка — разметка базовой моделью. Третья строка — разметка предложенной моделью |
Главный мой вывод по завершении проекта — не стоит недооценивать синергию разных областей науки. Раньше я считал, что любая эвристика, добавляющая модели треть процента точности на известном академическом датасете, важнее, чем вдохновлённые биологией методы, плетущиеся в таблице результатов двадцатью строчками ниже — просто по причине превосходства первых на 0.3%. Но существуют важные для общества проблемы и за пределами популярных датасетов. Решать их можно разными путями: вести пространный поиск среди архитектур и встающих в памяти эвристик или посмотреть на проблему глазами нейробиолога или медика — и попытаться придумать что-то новое.
Литература
1. Itti, Laurent. Models of bottom-up and top-down visual attention. Diss. California Institute of Technology, 2000.
2. Awareness Test https://www.youtube.com/watch?v=KB_lTKZm1Ts
3. Volokitin, Anna, Michael Gygli, and Xavier Boix. «Predicting when saliency maps are accurate and eye fixations consistent». Proceedings of IEEE Conference on Computer Vision and Pattern Recognition. 2016.
4. Huang, Chung-Lin, and Bing-Yao Liao. «A robust scene-change detection method for video segmentation». IEEE Transactions on Circuits and Systems for Video Technology 11.12 (2001): 1281-1288.
5. Ye, Menglong, et al. «Online scene association for endoscopic navigation». International Conference on Medical Image Computing and Computer-Assisted Intervention. Springer, Cham, 2014.
6. Kovalenko, D., and Gnatyk V. «Scene association in endoscopic videos». Обработка и анализ биомедицинских изображений GraphiCon 2017