Ранее программные алгоритмы распознавали только объекты: чашка, стол, цветок и т.д. Такие программы ничего не могли сказать об изображенной ситуации в целом. Новая технология – это следующий шаг в развитии алгоритмов визуального распознавания. Над ней работали независимо друг от друга две группы ученых: одна в Google, вторая – в Стэнфордском университете. Вчера обе группы поделились результатами разработок.
Программа анализирует произвольную фотографию и затем на английском языке описывает, что она «видит». Результаты довольно впечатляют. В качестве примера разработчики показали шесть фотографий с описаниями, которые дала программа. Описания правильны во всех случаях, кроме одного, и выглядят так, будто их дал человек. Программа правильно определяет контекст ситуации, отделяет основные элементы сцены от второстепенных, демонстрирует впечатляющие познания о мире, умеет самообучаться, грамотно строит предложения на английском языке.






Подобные технологии могут радикально улучшить поиск изображений в Интернете – неудивительно, поэтому, что ими занялись в Google. Как известно, сейчас поиск по изображениям на самом деле не совсем по изображениям: поисковик использует для анализа слова вокруг картинки, но практически не «понимает», что нарисовано на самой картинке. Именно поэтому в поиске всегда есть лишние и совершенно нерелевантные результаты. Условно говоря, ищем цветок, а получаем стул – только потому, что на странице с фотографией стула говорилось о цветах.
Технология типа вышеупомянутой впервые позволит искать именно по картинкам. Если нам нужен «мотоциклист на грязной дороге», то мы получим только это и ничего более. Никаких велосипедистов на чистой дороге мы не увидим.
Конечно, подобные алгоритмы окажутся полезными и в других сферах, например робототехнике. С их помощью роботы наконец научатся видеть, что перед ними находится. Автомобили смогут корректно распознавать дорожную ситуацию. Всего и не перечислить.
Возможно, вас также заинтересует: