Но человек, смотрящий на изображение, спонтанно сделает высокоуровневое суждение о сцене как целое: это – кухня, или кемпинг или конференц-зал. Среди исследователей информатики проблема, известная как «признание сцены», получила относительно мало внимания.В прошлом декабре, на Ежегодной конференции по вопросам Нервных Систем Обработки информации, исследователи MIT объявили о компиляции самой большой базы данных в мире изображений, маркированных согласно типу сцены с 7 миллионами записей.
Эксплуатируя метод машинного обучения, известный как «глубокое изучение» – который является возрождением классического метода искусственного интеллекта нейронных сетей – они использовали его, чтобы обучить самый успешный классификатор сцены все же, который был между 25 и на 33 процента более точен, чем его лучший предшественник.На Международной конференции по вопросам Изучения Представлений в эти выходные, исследователи сделают новый доклад, демонстрирующий, что, по пути к изучению, как признать сцены, их система также изучила, как признать объекты.
Работа подразумевает, что по крайней мере, признание сцены и системы распознавания объектов могли работать дружно. Но это также протягивает возможность, что они, могло оказаться, взаимно укрепляли.«Глубоко изучая работы очень хорошо, но очень трудно понять, почему это работает – что является внутренним представлением, которое строит сеть», говорит Антонио Торрэлба, адъюнкт-профессор информатики и разработки в MIT и ведущем авторе на новой бумаге. «Могло случиться так, что представления для сцен – части сцен, которые не имеют никакого смысла, как углы или части объектов.
Но могло случиться так, что это – объекты: Чтобы знать, что что-то – спальня, Вы должны видеть кровать; чтобы знать, что что-то – конференц-зал, Вы должны видеть стол и стулья. Это – то, что мы нашли, что сеть действительно находит эти объекты».
К Torralba присоединяется на новой статье первый автор Болэй Чжоу, аспирант в электротехнике и информатике; Од Олива, основной исследователь, и Агата Лапедриса, приглашенный ученый, и в Лаборатории Информатики и Искусственного интеллекта MIT; и Адитья Хосла, другой аспирант в группе Торрэлбы.Под капотомКак все системы машинного обучения, нейронные сети пытаются определить особенности данных тренировки, которые коррелируют с аннотациями, выполненными людьми – транскрипция голосовых записей, например, или сцена или этикетки объекта, связанные с изображениями.
Но в отличие от систем машинного обучения, которые создали, скажем, программное обеспечение голосовой идентификации, распространенное в сегодняшних сотовых телефонах, нервные сети не делают предшествующих предположений о том, на что будут похожи те особенности.Это походит на залог провала, поскольку система могла закончить тем, что крутилась далеко на несоответствующих особенностях в тщетной охоте на корреляции. Но вместо того, чтобы получить умение ориентироваться из человеческого руководства, нейронные сети получают его из своей структуры. Они организованы в слои: Банки обработки единиц – свободно смоделированный на нейронах в мозгу – в каждом слое выполняют случайные вычисления на данных, которые они питаются.
Но они тогда кормят своими результатами следующий слой, и так далее, пока продукция заключительного слоя не измерена против аннотаций данных. Поскольку сеть получает больше данных, она приспосабливает свои внутренние параметры настройки, чтобы попытаться произвести более точные предсказания.После того, как сеть исследователей MIT обработала миллионы входных изображений, приспособив его внутренние параметры настройки все время, было приблизительно на 50 процентов правильно при маркировке сцен – где люди только на 80 процентов точны, так как они могут не согласиться об этикетках сцены высокого уровня.
Но исследователи не знали, как их сеть делала то, что она делала.Единицы в нейронной сети, однако, дифференцированно отвечают на различные исходные данные.
Если единица будет настроена на конкретную визуальную особенность, она не ответит вообще, если особенность будет совершенно отсутствовать в конкретном входе. Если особенность ясно будет присутствовать, она ответит сильно.Исследователи MIT определили 60 изображений, которые создали самый сильный ответ в каждой единице их сети; тогда, чтобы не оказывать влияние, они послали коллекции изображений заплаченным рабочим на краудсорсинговой территории Mechanical Turk Amazon, которые они попросили опознавать общности среди изображений.
Вне категории«Первый слой, больше чем половина единиц настроена на простые элементы – линии или простые цвета», говорит Торрэлба. «Поскольку Вы перемещаетесь вверх в сети, Вы начинаете находить все больше объектов. И есть другие вещи, как регионы или поверхности, которые могли быть вещами как трава или одежда. Таким образом, они все еще очень семантические, и Вы также видите увеличение».Согласно оценкам рабочими Mechanical Turk, приблизительно половина единиц наверху сети настроена на конкретные объекты. «Другая половина, или они обнаруживают объекты, но не делают этого очень хорошо, или мы просто не знаем то, что они делают», говорит Торрэлба. «Они могут обнаруживать части, которые мы не знаем, как назвать.
Или может случиться так, что сеть не полностью сходилась, полностью училась».В продолжающейся работе исследователи начинают с нуля и переобучают свою сеть на тех же самых наборах данных, чтобы видеть, сходится ли это последовательно на тех же самых объектах, или может ли это беспорядочно развиться в различных направлениях, которые все еще производят хорошие предсказания.
Они также исследуют, могут ли обнаружение объекта и обнаружение сцены возвратиться друг в друга, чтобы улучшить работу обоих. «Но мы хотим сделать это способом, которое не вынуждает сеть сделать что-то, что она не хочет делать», говорит Торрэлба.
