Прорывная технология Google визуально распознает целые сцены (почти всегда правильно)

Прорывная технология Google визуально распознает целые сцены (почти всегда правильно)

Новости
совместно со Стэнфордским университетом разработала программное обеспечение на основе искусственного интеллекта, способного распознать и описать естественным человеческим языком не только отдельные объекты на цифровых изображениях, но целые сцены.

Ранее программные алгоритмы распознавали только объекты: чашка, стол, цветок и т.д. Такие программы ничего не могли сказать об изображенной ситуации в целом. Новая технология – это следующий шаг в развитии алгоритмов визуального распознавания. Над ней работали независимо друг от друга две группы ученых: одна в Google, вторая – в Стэнфордском университете. Вчера обе группы поделились результатами разработок.


Программа анализирует произвольную фотографию и затем на английском языке описывает, что она «видит». Результаты довольно впечатляют. В качестве примера разработчики показали шесть фотографий с описаниями, которые дала программа. Описания правильны во всех случаях, кроме одного, и выглядят так, будто их дал человек. Программа правильно определяет контекст ситуации, отделяет основные элементы сцены от второстепенных, демонстрирует впечатляющие познания о мире, умеет самообучаться, грамотно строит предложения на английском языке.

«Человек едет на мотоцикле по грязной дороге»
«Человек едет на мотоцикле по грязной дороге»

«Группа молодых людей играет в игру фрисби»
«Группа молодых людей играет в игру фрисби»

«Два хоккеиста борются за шайбу»
«Два хоккеиста борются за шайбу»

«Пицца в сковороде на плите»
«Пицца в сковороде на плите»

«Стадо слонов переходит  сухое травяное поле»
«Стадо слонов переходит сухое травяное поле»

«Человек летит по воздуху верхом на сноуборде»
«Человек летит по воздуху верхом на сноуборде»

Подобные технологии могут радикально улучшить поиск изображений в Интернете – неудивительно, поэтому, что ими занялись в Google. Как известно, сейчас поиск по изображениям на самом деле не совсем по изображениям: поисковик использует для анализа слова вокруг картинки, но практически не «понимает», что нарисовано на самой картинке. Именно поэтому в поиске всегда есть лишние и совершенно нерелевантные результаты. Условно говоря, ищем цветок, а получаем стул – только потому, что на странице с фотографией стула говорилось о цветах.

Технология типа вышеупомянутой впервые позволит искать именно по картинкам. Если нам нужен «мотоциклист на грязной дороге», то мы получим только это и ничего более. Никаких велосипедистов на чистой дороге мы не увидим.

Конечно, подобные алгоритмы окажутся полезными и в других сферах, например робототехнике. С их помощью роботы наконец научатся видеть, что перед ними находится. Автомобили смогут корректно распознавать дорожную ситуацию. Всего и не перечислить.

Прорывная технология Google визуально распознает целые сцены (почти всегда правильно) by

Возможно, вас также заинтересует:

При копировании материалов ссылка обязательна.