Исследование появляется на этой неделе в журнале Proceedings Национальной академии наук.В предыдущих исследованиях исследователи показали, что значительные переменные не могли бы быть прогнозирующими и что хорошие предсказатели не могли бы казаться статистически значительными. Это поставило важный вопрос: как мы можем найти очень прогнозирующие переменные если не через директиву статистического значения?
Общие подходы к предсказанию включают использование основанного на значении критерия оценки переменных, чтобы использовать в моделях и оценке переменных и моделей одновременно для предсказания, используя перекрестную проверку или независимые данные испытаний.Чтобы уменьшить коэффициент ошибок с теми методами, исследователи предложили новую меру, названную счетом влияния или I-счетом, чтобы лучше измерить способность переменной предсказать.
Они нашли, что I-счет эффективный при дифференциации между шумными и прогнозирующими переменными в больших данных и может значительно улучшить уровень предсказания. Например, I-счет улучшил уровень предсказания в данных о раке молочной железы с 70 процентов до 92 процентов. I-счет может быть применен во множестве областей, включая терроризм, гражданскую войну, выборы и финансовые рынки.«Практические последствия – то, что вело проект, таким образом, они довольно широки», говорит ведущий автор Аделайн Ло, постдокторский исследователь в Отделе Принстона Политики. «По существу каждый раз, когда Вы могли бы интересоваться предсказанием и идентификацией очень прогнозирующих переменных, у Вас могло бы быть что-то, чтобы извлечь пользу, проводя переменный выбор через статистическую величину как I-счет, который связан с переменной predictivity.
То, что плата за проезд I-счета особенно хорошо в высоких размерных данных и со многими сложными взаимодействиями между переменными является дополнительным благом для исследователя или эксперта по политике, заинтересованного предсказанием чего-то с большими размерными данными».
