Один индикатор, который мог способствовать процессам сегментации, является «переходной вероятностью» (TP), который обеспечивает оценку вероятности двух co-появлений слогов в том же самом слове, на основе частоты, с которой они найдены связанными на данном языке. На практике, если каждый раз я слышу слог «TA», это неизменно сопровождается слогом «DA», тогда переходная вероятность для «DA», данного «TA», равняется 1 (самое высокое). Если, с другой стороны, каждый раз, когда я слышу слог «BU», это – сопровождаемая половина времени слогом «DI» и половина времени «FI», то переходная вероятность «DI» (и «FI»), учитывая «BU», 0.5 и т.д. Когнитивная система могла неявно вычислять эту стоимость, полагаясь на лингвистическую память, из которой это получит частоты.
Исследование, проводимое Амандой Сэксидой, исследователем в Международной Школе для Специальных исследований (SISSA) в Триесте, с сотрудничеством Алана Лэнгуса, научного сотрудника SISSA, под наблюдением преподавателя SISSA Марины Неспор, используемый TP, чтобы сегментировать естественный язык, при помощи двух разных подходов.На основе ритмаИсследование Сэксиды основано на работе с корпусами, то есть, телами текстов, определенно собранных для лингвистического анализа.
В случае под рукой, корпуса состояли из транскрипции «лингвистической звуковой окружающей среды», которой подвергнуты младенцы. «Мы хотели иметь пример типа лингвистической окружающей среды, в которой развивается язык ребенка», объяснил Сэксида, «Интересно, работал ли механизм низкого уровня, такой как переходная вероятность с реальными языковыми сигналами, которые очень отличаются от искусственных сигналов, обычно используемых в лаборатории, которые более схематичны и свободны от источников ‘шума’. Кроме того, вопрос состоял в том, одинаково эффективен ли тот же самый сигнал низкого уровня на различных языках». Сэксида и коллеги использовали корпуса не менее чем 9 различных языков, и к каждому, что они применили две различных основанных на TP модели.Сначала они вычислили ценности TP для каждого пункта языкового потока для всех корпусов, и затем они «сегментировали» поток, используя два различных метода.
Первое было основано на абсолютной пороговой обработке: определенная фиксированная справочная стоимость TP была установлена, ниже которого была определена граница. Второй метод был основан на относительной пороговой обработке: границы соответствовали в местном масштабе самой низкой функции TP.Во всех случаях Saksida и коллеги нашли, что переходная вероятность была эффективным инструментом для сегментации (49% к 86% слов, определенных правильно) независимо от используемого алгоритма сегментации, который подтверждает эффективность TP. Знаменитый, в то время как обе модели, оказалось, были довольно эффективны, когда одна модель была особенно успешна с одним языком, альтернативная модель всегда выступала значительно хуже.
«Это поперечное лингвистическое различие предполагает, что каждая модель лучше подходит, чем другой для определенных языков и наоборот. Мы поэтому провели дальнейшие исследования, чтобы понять то, что лингвистические признаки коррелировали с лучшим исполнением одной модели по другому», объясняет Сэксида. Решающее измерение, оказалось, было лингвистическим ритмом. «Мы можем разделить европейские языки на две многочисленных группы на основе ритма: рассчитанный напряжением и рассчитанный слогом». Рассчитанные напряжением языки имеют меньше гласных и более коротких слов, и включают английский, словенский и немецкий язык.
Рассчитанные слогом языки содержат больше гласных и более длительных слов в среднем, и включают итальянский, испанский и финский язык. Третья ритмичная группа языков не существует в Европе и основана на «морах» (часть слога), таких как японский язык. Эта группа известна, как «рассчитано морой» и содержит еще больше гласных, чем рассчитанные слогом языки.
Абсолютная пороговая модель, оказалось, работала лучше всего над рассчитанными напряжением языками, тогда как относительная пороговая обработка была лучше для рассчитанных морой. «Поэтому возможно, что когнитивная система учится использовать алгоритм сегментации, который подходит лучше всего для родного языка, и что это приводит к трудностям, сегментирующим языки, принадлежащие другой ритмичной категории. Экспериментальные исследования ясно будут необходимы, чтобы проверить эту гипотезу. Мы знаем от научной литературы, что немедленно после того, как младенцы рождения уже используют ритмичную информацию, и мы думаем, что стратегии, используемые, чтобы выбрать самую соответствующую сегментацию, могли быть одной из областей, в которых информация о ритме является самой полезной».
Исследование на самом деле неспособно сказать, использует ли когнитивная система (и взрослых и детей) действительно этот тип стратегии. «Наше исследование ясно подтверждает, что эта стратегия работает через широкий спектр языков», завершает Сэксида. «Это будет теперь служить руководством для лабораторных экспериментов».
