Общий фонд геномных данных Национального института рака (GDC), созданный в 2016 году тогдашним вице-президентом Джозефом Байденом и размещенный в Чикагском университете, стал одним из крупнейших и наиболее широко используемых ресурсов по геномике рака, насчитывающий более трех.3 петабайта данных из более чем 65 проектов и более 84 000 анонимных случаев пациентов, обслуживающих более 50 000 уникальных пользователей каждый месяц.
В новых статьях, опубликованных в феврале. 22 в журналах Nature Communications и Nature Genetics исследовательская группа из Калифорнийского университета в Чикаго делится новыми подробностями о GDC, который финансируется Национальным институтом рака (NCI) по субподряду с Национальной лабораторией исследований рака имени Фредерика, которая в настоящее время находится в ведении Leidos Biomedical Research. , Inc. В одном из документов описывается устройство и работа GDC. Другой описывает конвейеры, используемые GDC для согласования данных, представленных в GDC, и генерации наборов данных, используемых исследовательским сообществом GDC.
Целью GDC является предоставление сообществу исследователей рака хранилища данных единообразно обрабатываемых геномных и связанных клинических данных, что позволяет обмениваться данными и совместным анализом в поддержку точной медицины.
Производство данных для того, что впоследствии станет GDC, началось в июне 2015 года с использованием частного облака. Всего за год GDC проанализировал более 50000 исходных данных секвенирования. GDC включает геномные, транскриптомные, эпигеномные, протеомные, клинические данные и данные визуализации. Технологии обработки, описанные в статье Nature, позволили получить более 1660 ТБ данных о более чем двух десятках типов первичного рака. Эти данные хранятся на портале данных GDC, где они доступны для просмотра и загрузки.
Наряду с порталом данных GDC также предлагает дополнительные пользовательские ресурсы, включая инструменты анализа, визуализации и исследования данных GDC (DAVE) для интерактивного исследования данных по геномному варианту или конкретному изменению; портал GDC Data Submission для отправки данных; инструмент передачи данных GDC (DTT) для загрузки больших наборов геномных данных; и система согласования данных GDC, которая позволяет пользователям обрабатывать данные, представленные в GDC, через конвейеры согласованной обработки.
"Эти данные должны сыграть решающую роль," сказал Роберт Гроссман, доктор философии.D., главный исследователь GDC и директор Центра трансляционных данных в Калифорнийском университете в Чикаго. "По мере накопления данных будет легче идентифицировать новые сигналы как важные цели для понимания биологии рака. Кроме того, инфраструктура обмена данными может служить информационным источником для научных исследований, обеспечивая новое понимание генетических различий между людьми и того, как они могут повлиять на исходы больных раком."
