Видеть не всегда означает верить – визуальная речь (движения рта), несовместимая со слуховой речью (звуками), может привести к восприятию совершенно другого сообщения. Эта загадочная иллюзия известна как эффект Мак-Герка. В новом исследовании, опубликованном в PLOS Computational Biology, исследователи нейробиологии создали алгоритм, позволяющий понять, почему мозг иногда может сбивать с толку один из самых фундаментальных аспектов человеческого опыта.
Полученные данные будут полезны для понимания пациентов с дефицитом восприятия речи и для создания компьютеров, способных понимать слуховую и визуальную речь.
"Все люди растут, слушая десятки тысяч речевых примеров, в результате чего наш мозг содержит исчерпывающую карту вероятности того, что любая данная пара движений рта и звуков речи идет вместе," сказал доктор. Майкл Бошамп, профессор нейрохирургии Медицинского колледжа Бейлора и старший автор статьи с Джоном Магнотти, научным сотрудником докторантуры в Бейлоре. "В повседневных ситуациях мы часто сталкиваемся с несколькими говорящими, испускающими звуковые и визуальные речевые сигналы, и мозг должен решить, следует ли интегрировать определенную комбинацию голоса и лица."
"Несмотря на то, что наши чувства постоянно бомбардируются информацией, наш мозг легко выбирает вербальную и невербальную речь наших собеседников из этой какофонии," Магнотти сказал.
Эффект МакГерка – пример того, когда что-то идет не так. Это происходит, когда видимые движения рта могут перекрывать слышимое, заставляя человека воспринимать звук, отличный от того, что он на самом деле говорит. Только когда глаза закрыты и когда слышен звук, можно понять правильное сообщение. Например, визуальный "га" в сочетании со слуховой "ба" приводит к восприятию "да." (см. http: // openwetware.org / wiki / Beauchamp: McGurk_CI_Stimuli для примеров)
Магнотти и Бошамп смогли создать модель алгоритма мультисенсорного восприятия речи, основанную на принципе причинного вывода, что означает, что, учитывая конкретную пару слуховых и визуальных слогов, мозг вычисляет вероятность того, что они принадлежат одному или нескольким говорящим, и использует эту вероятность. для определения окончательного восприятия речи.
"Мы сравнили нашу модель с альтернативной моделью, которая идентична, за исключением того, что она всегда интегрирует доступные реплики, что означает отсутствие случайных выводов о восприятии речи," сказал Beauchamp, который также является директором Core for Advanced MRI в Baylor. "Используя данные от большого количества субъектов, модель с причинным выводом лучше предсказывала, как люди будут или не будут интегрировать аудиовизуальные слоги речи."
"Результаты предполагают фундаментальную роль вычисления типа причинного вывода, происходящего в мозге во время мультисенсорного восприятия речи," Магнотти сказал.
Исследователи уже имеют представление о том, как и где мозг по отдельности кодирует слуховую и визуальную речь, но этот алгоритм проливает свет на процесс их интеграции. Он будет служить руководством, выделяя определенные области мозга, которые будут важны для мультисенсорного восприятия речи.
"Понимание того, как мозг объединяет информацию от нескольких органов чувств, даст представление о способах улучшить ухудшение восприятия речи из-за типичного старения и даже разработать устройства, которые могут улучшить слух на протяжении всей жизни," Beauchamp сказал.
