В работе, опубликованной недавно на Слушаниях Национальной академии наук (PNAS), исследователи описывают технику, названную «повторяющиеся Случайные Леса», которые они говорят, мог иметь поддающийся трансформации эффект на любую область науки или разработки со сложными системами, включая биологию, медицину точности, материаловедение, науку об окружающей среде, и производство, чтобы назвать некоторых.«Возьмите клетку человека, например.
В единственной клетке есть 10 170 возможных молекулярных взаимодействий. Это создает значительные вычислительные проблемы в поиске отношений», сказал Бен Браун, глава Молекулярного Отдела Биологии Экосистем Berkeley Lab. «Наш метод позволяет идентификацию взаимодействий высокого уровня по той же самой вычислительной стоимости как главные эффекты – даже когда те взаимодействия местные со слабыми предельными эффектами».Браун и Бен Ю УКА Беркли – ведущие ведущие авторы «Повторяющихся Случайных Лесов, чтобы Обнаружить Прогнозирующие и Стабильные Старшие Взаимодействия». co-first авторы – Sumanta Basu (раньше сустав postdoc Брауна и Ю и теперь доцента в Корнелльском университете) и Карл Камбир (аспирант Ю в Отделе Статистики УКА Беркли). Бумага – кульминация трех лет работы, которой верят авторы, преобразует способ, которым сделана наука. «С нашим методом мы можем получить радикально более богатую информацию, чем мы когда-либо были в состоянии извлечь пользу от машины изучения», сказал Браун.
Потребности машинного обучения в науке отличаются от той из промышленности, где машинное обучение использовалось для вещей как игра шахмат, создание самоходных автомобилей и предсказание фондового рынка.«Машинное обучение, развитое промышленностью, большое, если Вы хотите сделать высокочастотную торговлю на фондовом рынке», сказал Браун. «Вы не заботитесь, почему Вы в состоянии предсказать, что запас повысится или вниз. Вы просто хотите знать, что Вы можете сделать предсказания».
Но в науке, окружение вопросов, почему процесс ведет себя определенными способами, очень важно. Понимание, «почему» позволяет ученым моделировать или даже проектировать процессы, чтобы улучшить или достигнуть желаемого результата.
В результате машинное обучение для науки должно всмотреться в черном ящике и понять, почему и как компьютеры сделали выводы, которых они достигли. Долгосрочная цель состоит в том, чтобы использовать этот вид информации, чтобы смоделировать или спроектировать системы, чтобы получить желаемые результаты.
В очень сложных системах – является ли это единственной клеткой, человеческим телом, или даже всей экосистемой – есть большое количество переменных, взаимодействующих нелинейными способами. Это делает сложным, если не невозможным, строить модель, которая может определить причину и следствие. «К сожалению, в биологии, Вы сталкиваетесь со взаимодействиями приказа 30, 40, 60 все время», сказал Браун. «Это абсолютно тяжело с традиционными подходами к статистическому изучению».Метод, разработанный командой во главе с Брауном и Ю, iterative Random Forests (iRF), основывается на алгоритме, названном случайными лесами, популярным и эффективным прогнозирующим инструментом моделирования, переводя внутренние состояния ученика черного ящика в человеческую поддающуюся толкованию форму.
Их подход позволяет исследователям искать сложные взаимодействия, расцепляя заказ или размер, взаимодействий от вычислительной стоимости идентификации.«Нет никакого различия в вычислительной стоимости обнаружения взаимодействия приказа 30 против взаимодействия заказа два», сказал Браун. «И это – кардинальные изменения».В газете PNAS ученые продемонстрировали свой метод на двух проблемах геномики, роли генных усилителей в эмбрионе дрозофилы и альтернативного соединения в полученной человеком клеточной линии.
В обоих случаях использование iRF подтвердило предыдущие результаты, также раскрывая ранее неопознанные взаимодействия высшего порядка для последующего исследования.Браун сказал, что они теперь используют свой метод для проектирования поэтапных систем лазера множества и оптимизации стабильных систем сельского хозяйства.«Мы полагаем, что это – различная парадигма для того, чтобы сделать науку», сказал Ю, преподаватель в отделах Статистики и Электротехники & Информатики в УКЕ Беркли. «Мы делаем предсказание, но мы вводим стабильность сверху предсказания в iRF, чтобы более достоверно изучить основную структуру в предсказателях».«Это позволяет нам изучить, как спроектировать системы для целенаправленной оптимизации и более точно предназначенных моделирований и последующих экспериментов», добавил Браун.
В комментарии PNAS относительно техники написали Даниэль Дениско и Майкл Хоффман из Университета Торонто: «iRF открывает много перспективы как новый и эффективный способ обнаружить взаимодействия во множестве параметров настройки, и его использование поможет нам не гарантировать отделение, или лист когда-либо оставляют непревращенным».Исследование было поддержано грантами от Передачи технологии Малого бизнеса САМКИ (STTR) программа, Лабораторное Целенаправленное исследование и развитие (LDRD) программа, Национальный Научно-исследовательский институт Генома человека, армейское Исследовательское управление, Офис Военно-морского Исследования и Национальный научный фонд.
