На днях Google анонсировал свой новый облачный сервис Cloud Video Intelligence API, который позволяет находить видеоконтент, предоставляя разработчикам и пользователям информацию об объектах, которые содержатся на видео.
Google использует для этого алгоритмы машинного обучения, созданные с помощью таких фреймворков, как TensorFlow и применяемые к крупномасштабным медиаплатформам, таким как YouTube. Это позволяет распознавать и интерпретировать содержимое видеоконтента, используя, например, такие существительные, как «собака», «цветок», «человек» или глаголы, такие как «бежать», «плыть» или «лететь».
На примере, корый приводит сам Google в своём анонсе, где в одном из кадров появляется тигр, (см. фото), это выглядит так:
Животное (97,76%)
Дикая природа (92,16%)
Тигр (90,11%)
Наземное животное (68,17%)
Бенгальский тигр (64,77%)
Усы (63,30%)
Зоопарк (58,16%)
Рычащие кошки (56,41%)
Кошка (44,12%)
Фактически это позволяет индексировать не только заголовок и текст, сопровождающие видео (если они есть), но теперь и сам видеоконтент, т.е непосредственно содержимое видеоряда. Благодаря этому, можно находить видео, а также отдельные кадры на видео, даже если оно не имеет заголовка и не было снабжено какими-либо описаниями или тегами.
Индексированный видеоконтент — это ещё больше информации, ещё больше инструментов для анализа и работы с данными. Только представьте, какие дополнительные возможности открываются в связи с этим, которые можно будет использовать как во благо, так и во вред. Искусственный интеллект уже вокруг нас и он все глубже входит в нашу повседневность…
Роман Комыза
11.03.2017