Система помогает защитить частную жизнь в геномных базах данных: Система помогает гарантировать, что базы данных, используемые в медицинском исследовании, не пропустят личную информацию пациентов

Но потому что они зависят от баз данных, которые содержат истории болезни людей, они несут риски частной жизни. Нападавший вооружился генетической информацией о ком-то – от, скажем, образца кожи – мог подвергнуть сомнению базу данных для медицинских данных того человека. Даже без образца кожи, нападавший, которому разрешили сделать повторенные вопросы, каждый информированный результатами последнего, мог, в принципе, извлечь частные данные из базы данных.

В последнем выпуске журнала Cell Systems исследователи из Лаборатории Информатики и Искусственного интеллекта MIT и Университета Индианы в Блумингтоне описывают новую систему, которая разрешает, чтобы вопросы базы данных для ассоциации всего генома изучили, но уменьшили возможности компромиссов частной жизни к почти нолю.Это делает это, добавляя немного дезинформации к результатам вопроса, которые это возвращает. Это означает, что исследователи, использующие систему, могли начать искать цели препарата с немного неточными данными.

Но в большинстве случаев, ответы, данные системой, будут достаточно близки, чтобы быть полезными.И немедленно доступная для поиска база данных онлайн генетических данных, даже тот, который возвратил немного неточную информацию, могла сделать биомедицинское исследование намного более эффективным.«Прямо сейчас то, что много людей делает, включая NIH, в течение долгого времени, является взятием все их данные – включая, часто, совокупные данные, статистика мы интересуемся защитой – и помещаем их в хранилища», говорит Шон Симмонс, MIT postdoc в математике и первом авторе на новой бумаге. «И Вы должны пройти отнимающий много времени процесс, чтобы получить доступ к ним».Тот процесс включает плот документов, включая объяснения того, как исследование, позволенное хранилищами, будет способствовать общественному благу, которое требует тщательного обзора. «Мы ждали месяцы, чтобы получить доступ к различным хранилищам», говорит Бонни Бергер, профессор Simons Математики в MIT, который был советником по вопросам тезиса Симмонса и является соответствующим автором на бумаге. «Месяцы».

Принесите шумИсследования ассоциации всего генома обычно полагаются на наследственную изменчивость, названную полиморфизмами единственного нуклеотида или SNPs (объявленный «надрезами»). Шотландская национальная партия – изменение одного нуклеотида или ДНК «письмо», в указанном местоположении в геноме.

Миллионы SNPs были определены в народонаселении, и определенные комбинации SNPs могут служить полномочиями для больших отрезков ДНК, которые имеют тенденцию быть сохраненными среди людей.Новая система, которую Бергер и Симмонс разработали вместе с Сенком Сэхинэлпом, преподавателем информатики в Университете Индианы, осуществляет технику, названную «отличительная частная жизнь», которая была крупнейшей областью шифровального исследования в последние годы.

Методы отличительной частной жизни добавляют немного шума или случайного изменения, к результатам поисков базы данных, чтобы путать алгоритмы, которые стремились бы извлечь частную информацию из результатов нескольких, скроенных, последовательных поисков.Требуемое количество шума зависит на основании гарантии частной жизни – как низко Вы хотите установить вероятность утечки частной информации – и тип и объем данных.

Чем больше людей, данные которых база данных Шотландской национальной партии содержат, тем менее шумовой система должна добавить; по существу легче потеряться в толпе. Но чем больше SNPs системные отчеты, тем больше гибкости нападавший имеет в строительстве ставящих под угрозу частную жизнь поисков, который увеличивает шумовые требования.Исследователи рассмотрели два типа общих вопросов. В одном пользователь просит статистическую корреляцию между конкретной Шотландской национальной партией и конкретной болезнью.

В другом пользователь просит список SNPs в конкретной области генома, которые коррелируют лучше всего с конкретной болезнью.В первом случае система возвращает широко используемую меру из корреляции, названной p-стоимостью.

Здесь, p-стоимость была бы изменена – увеличенный или уменьшенный некоторым случайным фактором – чтобы гарантировать частную жизнь.Во втором случае у системы есть некоторый шанс возвращения не выигрывающий вершину SNPs в данном регионе, но несколько из выигрывающих вершину SNPs и возможно одного или двух ниже выигрывающих. Чтобы вычислить вероятность, что данная Шотландская национальная партия превратит его в результаты, исследователи используют меру, названную расстоянием Хэмминга, которое указывает, как далеко далеко ниже выигрывающая Шотландская национальная партия от той, которую это заменяет.

Это, оказывается, приводит к более полезным результатам, чем доверие p-стоимости. Нахождение эффективного алгоритма для вычисления расстояний Хэмминга на лету является одной из главных инноваций системы.Сглаживание различий

Другой то, что система исправляет для проблемы, распространенной в популяционной генетике, названной стратификацией населения. «Стандартный пример – то, что конкретная Шотландская национальная партия тесно связана с тем, чтобы быть нетерпимой лактозой», объясняет Симмонс. «Скажем, то, что люди в Восточной Азии, более вероятно, будут лактозой, нетерпимой, чем кто-то в, скажем, Северной Европе. Но также и Северные европейцы склонны быть более высокими, чем люди из Восточной Азии. Наивный метод предположил бы, что эта конкретная Шотландская национальная партия имеет эффект на высоту, но это – действительно ложная корреляция».

Алгоритм исследователей предполагает, что самые большие изменения в данном населении – результаты различий между поднаселением, фильтрует те различия и затачивает в на тех, которые остаются.