Строительство заслуживающих доверия больших алгоритмов данных

Один из ведущих больших алгоритмов данных для нахождения связанных тем в рамках неструктурированного текста (область назвала моделирование темы) является скрытым распределением Дирихле (LDA). Но когда преподаватель Северо-Западного университета Луис Амараль намеревался проверять LDA, он нашел, что это не было ни так точно, ни восстанавливаемо, как ведущий алгоритм моделирования темы должен быть.Используя его сетевое аналитическое образование, Амарал, преподаватель химической и биологической разработки в Школе Маккормика Нортвестерна Технических наук и прикладной науки, разработал новый алгоритм моделирования темы, который показал очень высокую точность и воспроизводимость во время тестов. Его результаты, изданные с соавтором Конрадом Кордингом, адъюнкт-профессором физической медицины и реабилитации, физиологии, и примененной математики в Северо-западном, были изданы 29 января в Physical Review X.

Алгоритмы моделирования темы берут неструктурированный текст и находят ряд тем, которые могут использоваться, чтобы описать каждый документ в наборе. Они – рабочие лошади большой науки данных, используемой в качестве фонда для систем рекомендации, фильтрации спама и обработки цифрового изображения. Алгоритм моделирования темы LDA был разработан в 2003 и широко использовался для научного исследования и для коммерческого применения, как поисковые системы.Когда Амарал исследовал, как LDA работал, он нашел, что алгоритм привел к различным результатам каждый раз для того же самого набора данных, и это часто делало так неточно.

Амарал и его группа проверили LDA, управляя им на документах, которые они создали, которые были написаны на английском, французском, испанском и других языках. Делая это, они смогли предотвратить текстовое наложение среди документов.

«В этом простом случае алгоритм должен быть в состоянии выступить в 100-процентной точности и воспроизводимости», сказал он. Но когда LDA использовался, он разделил эти документы на подобные группы только с 90-процентной точностью и 80-процентной воспроизводимостью. «В то время как эти числа, может казаться, хороши, они на самом деле очень бедны, так как они для чрезвычайно легкого случая», сказал Амарал.Чтобы создать лучший алгоритм, Amaral проявил сетевой подход. Результат, названный TopicMapping, начинается, предварительно обрабатывая данные, чтобы заменить слова их основой (так «звезда», и «звезды» считали бы тем же самым словом).

Это тогда строит сеть соединяющихся слов и определяет «сообщество» связанных слов (так же, как можно было искать сообщества людей в Facebook). Слова в данном сообществе определяют тему.Алгоритм смог к совершенно отдельному документы согласно языку и смог воспроизвести его результаты.

У этого также были высокая точность и воспроизводимость, отделяя 23 000 научных бумаг и 1,2 миллиона статей Wikipedia темы.Эти результаты показывают потребность в большем количестве тестирования больших алгоритмов данных и большем количестве исследования создания их более точный и восстанавливаемый, сказал Амарал.

«Компании, которые делают продукты, должны показать, что их продукты работают», сказал он. «Они должны быть удостоверены. Нет такого случая для алгоритмов.

У нас есть много неинформированных потребителей больших алгоритмов данных, которые используют инструменты, которые не были проверены на воспроизводимость и точность».