Искусственный интеллект проливает свет на то, как мозг обрабатывает язык

За последние несколько лет модели языка с искусственным интеллектом стали очень хорошо решать определенные задачи. В частности, они преуспевают в предсказании следующего слова в строке текста; эта технология помогает поисковым системам и текстовым приложениям предсказывать следующее слово, которое вы собираетесь ввести.

Последнее поколение прогнозирующих языковых моделей, похоже, также кое-что узнает о глубинном значении языка. Эти модели могут не только предсказывать слово, которое будет следующим, но и выполнять задачи, которые, кажется, требуют некоторой степени подлинного понимания, такие как ответы на вопросы, резюмирование документа и завершение истории.

Такие модели были разработаны, чтобы оптимизировать производительность для конкретной функции предсказания текста, без попытки имитировать что-либо о том, как человеческий мозг выполняет эту задачу или понимает язык. Но новое исследование нейробиологов Массачусетского технологического института предполагает, что основная функция этих моделей напоминает функцию центров обработки языка в человеческом мозгу.

Компьютерные модели, которые хорошо справляются с другими типами языковых задач, не демонстрируют этого сходства с человеческим мозгом, что свидетельствует о том, что человеческий мозг может использовать предсказание следующего слова для управления языковой обработкой.

«Чем лучше модель предсказывает следующее слово, тем больше она соответствует человеческому мозгу», – говорит Нэнси Канвишер, профессор когнитивной нейробиологии Уолтера А. Розенблита, член Института исследований мозга Макговерна и Центра мозга при Массачусетском технологическом институте. Умы и машины (CBMM), а также автор нового исследования. «Удивительно, что модели так хорошо подходят, и это очень косвенно предполагает, что, возможно, то, что делает система человеческого языка, предсказывает, что произойдет дальше».

Джошуа Тененбаум, профессор вычислительной когнитивной науки в Массачусетском технологическом институте и член лаборатории искусственного интеллекта (CBMM) и Массачусетского технологического института (CSAIL); и Эвелина Федоренко, доцент кафедры нейробиологии Фредерика А. и Кэрол Миддлтон и член Института Макговерна, являются старшими авторами исследования, которое публикуется на этой неделе в Трудах Национальной академии наук . Мартин Шримпф, аспирант Массачусетского технологического института, работающий в CBMM, является первым автором статьи.

Делать прогнозы

Новые высокоэффективные модели прогнозирования следующего слова относятся к классу моделей, называемых глубокими нейронными сетями . Эти сети содержат вычислительные «узлы», которые образуют соединения различной силы, и уровни, которые передают информацию между собой заданными способами.

За последнее десятилетие ученые использовали глубокие нейронные сети для создания моделей зрения, которые могут распознавать объекты так же, как мозг приматов. Исследования Массачусетского технологического института также показали, что основная функция моделей распознавания визуальных объектов соответствует организации зрительной коры приматов, хотя эти компьютерные модели не были специально разработаны для имитации мозга.

В новом исследовании команда Массачусетского технологического института использовала аналогичный подход для сравнения центров языковой обработки в человеческом мозге с моделями языковой обработки. Исследователи проанализировали 43 различных языковых модели, в том числе несколько, оптимизированных для предсказания следующего слова. К ним относится модель под названием GPT-3 (Генеративный предварительно обученный преобразователь 3), которая при наличии подсказки может генерировать текст, аналогичный тому, что может создать человек. Другие модели были разработаны для выполнения других языковых задач, таких как заполнение пробелов в предложении.

Поскольку каждая модель была представлена ​​строкой слов, исследователи измерили активность узлов, составляющих сеть. Затем они сравнили эти паттерны с активностью человеческого мозга, измеренной у субъектов, выполняющих три языковые задачи: прослушивание историй, чтение предложений по одному и чтение предложений, в которых за раз раскрывается одно слово. Эти наборы данных о людях включали данные функционального магнитного резонанса (фМРТ) и внутричерепные электрокортикографические измерения, сделанные у людей, перенесших операцию на головном мозге по поводу эпилепсии.

Они обнаружили, что наиболее эффективные модели предсказания следующего слова имеют паттерны активности, очень похожие на те, что наблюдаются в человеческом мозге. Активность в тех же моделях также сильно коррелировала с мерами человеческого поведения, такими как скорость чтения текста.

«Мы обнаружили, что модели, которые хорошо предсказывают нейронные реакции, также имеют тенденцию лучше всего предсказывать поведенческие реакции человека в виде времени чтения. И затем оба эти явления объясняются производительностью модели при предсказании следующего слова. Этот треугольник действительно связывает все. вместе “, – говорит Шримпф.

Смена правил игры

Одной из ключевых вычислительных характеристик прогнозных моделей, таких как GPT-3, является элемент, известный как прямой односторонний прогнозирующий преобразователь. Такой преобразователь способен предсказывать, что будет дальше, на основе предыдущих последовательностей. Важной особенностью этого преобразователя является то, что он может делать прогнозы на основе очень длительного предшествующего контекста (сотни слов), а не только последних нескольких слов.

По словам Тененбаум, ученые не обнаружили никаких мозговых цепей или механизмов обучения, соответствующих этому типу обработки. Однако новые результаты согласуются с ранее выдвинутыми гипотезами о том, что прогнозирование является одной из ключевых функций языковой обработки, говорит он.

«Одна из проблем языковой обработки – это ее аспект в реальном времени», – говорит он. «Язык приходит, и вы должны не отставать от него и уметь понимать его в реальном времени».

Теперь исследователи планируют создать варианты этих моделей языковой обработки, чтобы увидеть, как небольшие изменения в их архитектуре влияют на их производительность и их способность соответствовать человеческим нейронным данным.

«Для меня этот результат изменил правила игры», – говорит Федоренко. «Это полностью меняет мою исследовательскую программу, потому что я бы не ожидал, что в течение моей жизни мы дойдем до этих вычислительно явных моделей, которые охватывают достаточно информации о мозге, чтобы мы действительно могли использовать их для понимания того, как работает мозг».

Исследователи также планируют попытаться объединить эти высокопроизводительные языковые модели с некоторыми компьютерными моделями, ранее разработанными лабораторией Тененбаума, которые могут выполнять другие виды задач, такие как построение перцептивных представлений о физическом мире.

«Если мы сможем понять, что делают эти языковые модели и как они могут подключаться к моделям, которые делают вещи, которые больше похожи на восприятие и мышление, тогда это может дать нам более интегральные модели того, как вещи работают в мозгу», – говорит Тененбаум. . «Это могло бы привести нас к лучшим моделям искусственного интеллекта, а также дать нам более совершенные модели того, как работает большая часть мозга и как возникает общий интеллект, чем мы имели в прошлом».

Другие авторы статьи – Идан Бланк, доктор философии. ’16 и аспиранты Грета Такуте, Карина Кауф и Эгбал Хоссейни.