Новый инструмент информатики максимально использует геномные данные

Новый инструмент информатики максимально использует геномные данные
                Профессор факультета компьютерных наук и науки Willett, Саурабх Синха, является со-директором Центра больших данных в знаниях Университета Иллинойса. Предоставлено: Университет Иллинойса в Урбана-Шампейн.

Рост геномики, переход от рассмотрения генов в отдельности к коллективным, добавляет новое измерение в медицинскую помощь; Биомедицинские исследователи надеются использовать информацию, содержащуюся в геномах человека, чтобы сделать более точные прогнозы относительно индивидуального здоровья, включая ответы на терапевтические препараты. Новый вычислительный инструмент, разработанный в результате сотрудничества между Университетом Иллинойса и Клиникой Майо, объединяет различные типы геномной информации, чтобы сделать более точные прогнозы относительно того, какие геномные особенности связаны с конкретными реакциями на лекарства.
                                                                                       

Инструмент, описанный в Genome Research, был разработан членами KnowEnG, Центра передового опыта, учрежденного в рамках Инициативы NIH «Большие данные для знаний» (BD2K) в Университете Иллинойса в партнерстве с Клиника Майо. KnowEnG означает «Двигатель знаний для геномики», представляющий миссию центра по разработке аналитических ресурсов для биомедицинской работы с геномными данными. Центр расположен в Институте геномной биологии им. Карла Р. Воса при Иллинойском университете.

«Мы все знаем, что результаты лечения сложных заболеваний, таких как рак, значительно различаются у разных людей: от недостаточной эффективности, приводящей к рецидиву заболевания, до тяжелой токсичности, приводящей к несоблюдению требований у пациентов, которые не могут переносить эти жизненно важные препараты», — сказал Лейвэй Ван, профессор фармакологии в клинике Майо. «Поэтому для нас чрезвычайно важно лучше понять, как и почему пациенты реагируют по-разному, чтобы мы могли по-настоящему индивидуализировать их терапию, выбирая правильный препарат в правильной дозе».

Первым шагом исследователей к этой цели стал крупномасштабный сбор данных. Они собрали панель выращенных в лаборатории опухолевых клеток, полученных от различных групп людей, и выставили образцы этих клеток одному из набора распространенных противоопухолевых препаратов. Это позволило им количественно измерить реакцию на наркотики в различных генетических условиях прямо сопоставимым образом.

Используя эти данные, исследователи клиники Майо хотели спросить, какие характеристики клеток у каждого индивидуума помогли определить его уникальный набор ответов на тестируемые препараты. Они собрали данные о «экспрессии» каждого гена в геноме — о том, как часто каждый ген читается клеткой и используется для создания соответствующего белка, для которого этот ген несет инструкции.

Команда также хотела посмотреть, откуда могут возникнуть эти различия в экспрессии генов. Последовательность ДНК, окружающая гены, влияет на геном при экспрессии генов. Так делают действия специальных белков, называемых транскрипционными факторами, которые связываются с ДНК и облегчают или затрудняют чтение генов клеточным механизмом. Наконец, то, как сворачиваются разные участки длинных цепей ДНК генома, «эпигенетическое состояние» геномной ДНК также помогает определить, насколько вероятно, что ген будет экспрессироваться.

Команда решила собрать данные обо всех этих характеристиках своих линий клеток. Они создали всеобъемлющий набор данных, но им не хватало чего-то жизненно важного — аналитического инструмента, который мог бы использовать его в полной мере.

«Не было никакого инструмента, который мог бы использовать все это вместе», — сказал профессор компьютерных наук и ученый факультета Willett Саурабх Синха, который является одним из руководителей BD2K-центра. «Из вопроса пришли данные … потом пришла наша часть, что вы с этим делаете?»

Синха и аспирант Кейси Хэнсон разработали алгоритм, который принимает данные о экспрессии генов, геномных факторах, которые помогают контролировать экспрессию генов, и возникающие в результате признаки (такие как реакция на лекарства) и использует их для прогнозирования того, какие гены наиболее важны при определении последний. Они основывали свою работу на инструменте, который они ранее разработали под названием «Экспрессия генов в середине» или GENMi. Их новая модель, из-за ее способности соответствующим образом взвешивать и интегрировать несколько источников данных, называется «вероятностным GENMi» или pGENMi.

«Это более строгий инструмент; он должен автоматически решать, как взвешивать различные аспекты данных, когда он пытается посмотреть на различные типы данных, чтобы прийти к общему выводу», — сказал Синха. «Методологически, это была самая сложная часть, развитие вероятностной модели».

Поскольку этот инструмент является первым в своем роде, команде пришлось проявить изобретательность, чтобы оценить, насколько хорошо он работал — у них не было предварительного стандарта производительности для сравнения, а результаты, полученные с помощью pGENMi, являются основой для дальнейшей экспериментальной работы, не конечная точка.

«Нашим конечным результатом были предсказуемые прогнозы … рейтинг того, что делать эксперименты, и убедиться, что этот фактор транскрипции действительно играет роль в регуляции ответа на этот препарат», — сказала Синха.

«Во многих статьях по информатике и биоинформатике существует база данных золотого стандарта для проверки прогнозов, но мы не могли себе этого позволить», — сказал Хансон. «Нам пришлось искать обширную литературу, чтобы попытаться найти среди множества способов сделать это и заявить, что кто-то это сделал, эксперименты, которые [могли бы] подтвердить нашу гипотезу». Комбинация команды информатики и биологических знаний сделала эту задачу возможной.

Хансон и его соавторы исследовали, включали ли прогнозы, сгенерированные алгоритмом, ассоциации, которые уже были подтверждены в исследованиях, которые он идентифицировал. Поиск литературы выявил примеры, в которых экспериментально манипулировали транскрипционными факторами, выделенными pGENMi, что приводило к изменениям в лекарственной чувствительности. Многие из прогнозов, сгенерированных pGENMi, были поддержаны предыдущей работой, что делает вероятным, что прогнозы, не поддерживаемые предыдущей работой, являются новыми, но реальными ассоциациями.

«Например … мы нашли бумагу, в которой рапамицин [противораковый препарат] уменьшал связывание GATA1 [транскрипционного фактора] с ДНК. В другой статье мы обнаружили, что … рапамицин увеличивает экспрессию гена, ERCC1, «Сказал Хансон. В той же статье связывается фактор транскрипции GATA1 с экспрессией ERCC1. Хансон отметил, что «наши собственные эксперименты показали, что нокдаун GATA1 изменил чувствительность клеток к рапамицину», в соответствии с предыдущей работой.

Чтобы еще больше проверить результаты pGENMi, группа отобрала факторы транскрипции, которые, по прогнозам, будут влиять на лекарственную чувствительность, а также некоторые из них, по прогнозам, будут оказывать незначительное влияние и снизили их функцию в выращенных в лаборатории раковых клетках. Для большинства исследованных TF эти экспериментальные результаты соответствовали прогнозам pGENMi.

Хотя в этом первоначальном проекте pGENMi использовался для изучения факторов, влияющих на реакцию раковых клеток на терапевтические препараты, его гибкость позволила бы использовать его в широком диапазоне.

«Мы создали инструменты, которые могут широко использоваться исследовательским сообществом. Эти инструменты будут открыты для всех, у кого могут быть правильные наборы данных как для создания гипотез, так и для уточнения алгоритмов», — сказал Ван. «Это прекрасный пример того, как опыт в дополнительных областях исследований, в данном случае в вычислительной науке и фармакопротеомике, объединяет свои усилия».

Похожие новости

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *