перевод: English, Français, 中文
Что такое Менделевская рандомизация? — краткое руководство:
Для тех, кто только начинает свой путь в этой области, важно понять, что представляет собой Менделевская рандомизация. Данное пособие создано специально для тех, кто только начинает знакомиться с этим методом. Мы постарались изложить материал максимально простым языком, чтобы каждый смог понять основные принципы без специализированных знаний, будь это ученый, журналист или просто интересующийся этой темой. Если вы не уверены в значении какого-либо термина или понятия, попробуйте навести на него курсор и, возможно, вы увидите разъяснение или пример.
Менделевская рандомизация использует генетические варианты для выявления причинно-следственной связи между фактором риска и исходом на основе данных наблюдений. Итак, делаем одному шагу за раз...
Цель — изучение причинно-следственных связей. Мы стремимся определить наличие причинно-следственной связи между предполагаемыми факторами риска и исходами заболеваний. Это позволит ответить на важные вопросы, например, "Является ли употребление алкоголя причинным фактором риска развития рака печени?". Идеальный способ ответить на этот вопрос — провести рандомизированное исследование, в котором распределение участников в экспериментальную (с фактором риска) и контрольную (без фактора риска) группы происходит случайным образом. Затем мы наблюдаем и сравниваем уровни исхода между группами.
Однако, на практике проведение рандомизированных исследований сопряжено с рядом сложностей. Они являются длительными и дорогостоящими, а во многих случаях непрактичными или неэтичными. Можем ли мы провести рандомизированное исследование, чтобы проверить влияние потребления алкоголя на риск развития рака печени? Согласились бы вы добровольно принять участие в исследовании, в котором бросок монеты определял бы, будете ли вы употреблять алкоголь или нет в течение следующих 30 лет? Поэтому нам часто приходится выявлять причинно-следственные связи в обсервационных исследованиях, где отсутствует рандомизация.
Проблема — корреляция без причинно-следственной связи. Обсервационные исследования подвержены влиянию обратной причинно-следственной связи и спутывающих факторов (конфаундеров). Люди с ослабленным здоровьем могут решить сократить потребление алкоголя(пример обратной причинно-следственной связи). Обратная причинно-следственная связь может привести к ассоциации между фактором риска и заболеванием, но в данном случае заболевание будет вызывать изменения в факторе риска, а не наоборот. В этом случае обратная причинно-следственная связь может скрыть истинную, так как среди тех, кто обозначен как "непьющие", будут как те, кто никогда не употреблял алкоголь, так и недавно прекратившие его употреблять, что уменьшит реальную разницу в потреблении алкоголя между пьющими и непьющими группами.
Люди, употребляющие и не употребляющие алкоголь, отличаются друг от друга не только по уровню потребления алкоголя. Например, люди, употребляющие алкоголь, чаще курят, что может влиять на риск развития рака печени (пример спутывающего фактора). Хотя мы можем скорректировать эти факторы в статистическом анализе, мы никогда не можем точно знать, учли ли мы их все. Как обратная причинно-следственная связь, так и наличие конфаундеров, может привести к тому, что факторы риска и исходы будут коррелировать, но без причинно-следственной связи - отсюда и поговорка: "корреляция не является причинно-следственной связью".
В результате действия подобных факторов, выводы многих обсервационных исследований зачастую не имеют под собой причинно-следственной основы. Это приводит к путанице и часто противоречивым рекомендациям по здоровью, оставляя людей в недоумении — «что же действительно полезно для меня?».
Решение? – Менделевская рандомизация.
Менделевская рандомизация — это статистический метод, который позволяет снизить влияние подобных факторов. Этот метод оценивает, связаны ли генетически предсказанные уровни фактора риска и исхода заболевания (или, что то же самое, связаны ли генетические варианты, влияющие на уровень фактора риска, с исходом заболевания). Согласно закону Менделя, генетические характеристики наследуются независимо друг от друга, поэтому генетические ассоциации менее подвержены влиянию конфаундеров. Кроме того, поскольку наш генетический код формируется до рождения, вероятность обратной причинно-следственной связи снижается — генетические варианты всегда находятся в начале любой причинно-следственной цепи событий. Поэтому результаты исследований, проведённых с использованием Менделевской рандомизации, с большей вероятностью будут отражать реальную причинно-следственную связь, в отличие от результатов традиционных эпидемиологических исследований.
Вкратце, если специально выбранные генетические варианты, влияющие на уровень фактора риска, ассоциированы с исходом, это свидетельствует о том, что данный фактор риска имеет причинно-следственное влияние на исход.
Ресурсы:
Двухминутное видео введение в Менделевскую рандомизацию: https://www.youtube.com/watch?v=LoTgfGotaQ4.
Более длинное введение, рассчитанное на информированную, но неспециализированную аудиторию: https://phw.nhs.wales/publications/publications1/making-sense-of-mendelian-randomisation-and-its-use-in-health-research/
Вводная лекция Джорджа Дэйви Смита (George Davey Smith) (~40 минут): https://www.youtube.com/watch?v=Whut4Yo-x-A
Более детальное объяснение на примере С-реактивного белка и риска сердечно-сосудистых заболеваний:
Рассмотрим пример, чтобы лучше понять, как работает Менделевская рандомизация на практике. С-реактивный белок — это вещество, которое появляется в организме в ответ на воспаление. Его считают одним из возможных факторов риска развития нескольких заболеваний, включая сердечно-сосудистые заболевания. Но можно ли утверждать, что он действительно вызывает сердечно-сосудистые заболевания?
Генетические варианты в определенной части гена, называемой геном CRP, могут влиять на уровень С-реактивного белка в организме. С точки зрения биологии, логично предположить, что эти генетические изменения действительно влияют на уровень С-реактивного белка определенным путем. Однако эти изменения не оказывают влияния на другие факторы риска для сердечно-сосудистых заболеваний. Фактически, данные исследований показывают, что эти генетические изменения не связаны с другими возможными факторами, которые могли бы искажать результаты, такими как индекс массы тела, артериальное давление, уровень холестерина и т. д. (см. рис. 1). Давайте упростим и предположим, что генетические варианты делят население на две группы, которые мы назовем генотип А и генотип В. Мы также предположим, что люди с генотипом А имеют более высокий средний уровень С-реактивного белка, а люди с генотипом В - более низкий средний уровень С-реактивного белка. Но в силу законов генетического наследования эти две группы не имеют различий в средних уровнях индекса массы тела, артериального давления, холестерина и так далее. Согласно нашим предположениям, любая связь между группами генотипов и риском сердечно-сосудистых заболеваний может иметь место только в том случае, если С-реактивный белок является причинным фактором риска. |
|
В данном случае наличие или отсутствие генетического варианта аналогично случайному распределению в рандомизированном исследовании (см. рис. 2). В рандомизированном исследовании мы бы оценивали эффект от воздействия на уровень С-реактивного белка, например, путем назначения препаратов, снижающих уровень С-реактивного белка, и распределения пациентов случайным образом в экспериментальную (прием этих лекарств) или контрольную (прием плацебо) группы. Затем мы бы сравнили результаты между теми, кто принимал лекарства, и теми, кто принимал плацебо. В Менделевской рандомизации мы сравниваем людей с генотипом А и людей с генотипом В. Если риск сердечно-сосудистых заболеваний различается между этими группами, то мы интерпретируем это как свидетельство того, что если мы изменим уровень С-реактивного белка, то это повлияет на риск сердечно-сосудистых заболеваний. Другими словами, это будет свидетельством того, что С-реактивный белок является причинным фактором риска. |
Когда мы провели этот анализ в реальности (https://www.bmj.com/content/342/bmj.d548), то не обнаружили никакой связи между генотипом и риском сердечно-сосудистыхзаболеваний (или, что эквивалентно, никакой связи между генетически предсказанными уровнями С-реактивного белка и риском сердечно-сосудистых заболеваний) для четырех генетических вариантов в области гена CRP. Таким образом, с помощью Менделевской рандомизации мы не нашли доказательств того, что С-реактивный белок является причинным фактором риска развития ишемической болезни сердца.
Несколько вопросов:
Может ли Менделевская рандомизация доказать, что фактор риска способствует риску заболевания?
Если коротко, то нет. Методы оценки причинно-следственных связей, основанные на анализе данных обсервационных исследований, опираются на непроверяемые предположения. В случае Менделевской рандомизации непроверяемые предположения заключаются в том, что генетический вариант(ы) распределяется(ются) независимо от потенциальных конфаундеров, а генетический вариант(ы) может(ют) влиять на исход только через фактор риска. Технически эти предположения означают, что мы рассматриваем генетический вариант(ы) как инструментальные переменные.
Менделевская рандомизация может служить подтверждением причинно-следственной связи, выявленной на основе данных наблюдений, но она не может доказать или продемонстрировать причинно-следственный эффект. Мы стараемся, чтобы исследователи использовали надлежащие формулировки в отношении утверждений о причинно-следственных связях (см. https://jamanetwork.com/journals/jamacardiology/article-abstract/2770709) - иногда им это удается, но иногда они не так осторожны, как следовало бы!
Насколько надежны выводы на основе метода Менделевской рандомизации?
Некоторые из них более надежны, другие — менее.
В приведенном выше примере рассматриваемые генетические варианты находились в области гена CRP - части генетического кода, которая указывает организму как производить С-реактивный белок. Поэтому можно утверждать, что эти генетические варианты влияют на уровень С-реактивного белка определенным образом, и, следовательно, единственный потенциальный причинно-следственный путь от этих генетических вариантов к риску сердечно-сосудистых заболеваний проходит через уровень С-реактивного белка.
Аналогично, существуют генетические варианты в области гена HMGCR, которые могут влиять на уровень холестерина ЛПНП (так называемого «плохого холестерина») в крови. Это влияние подобно действию статинов, лекарств, которые назначаются для снижения риска сердечно-сосудистых заболеваний. Однако, несмотря на то что в целом статины увеличивают продолжительность жизни, они также могут несколько увеличивать риск диабета 2-го типа. Рассматриваемые генетические варианты связаны с аналогичным риском.
Существуют примеры, когда результаты метода Менделевской рандомизации соответствуют результатам рандомизированных исследований, а также примеры, когда МР метод предсказал результаты клинических испытаний. Например, использование тоцилизумаба и барицитиниба для лечения COVID-19.
Однако есть и примеры, где не все так однозначно. Например, если фактором риска является продолжительность сна - действительно ли правдоподобно, что генетические варианты влияют на продолжительность сна определенным образом? В генетическом коде нет участка, который бы прямо указывал организму, как долго нужно спать. Таким образом, анализ Менделевской рандомизации, показывающий связь между генетически предсказанной продолжительностью сна и более низким риском развития рака, может быть полезен для получения некоторых доказательств того, что сон является причинным фактором риска развития рака. Однако было бы неразумно утверждать, что это исследование является окончательным. Доказательства, полученные из таких исследований, могут быть важными, но сами по себе результаты применения Менделевской рандомизации не являются достаточными для однозначного ответа на вопрос.
Как отличить заслуживающую доверия Менделевскую рандомизацию от менее достоверного исследования?
Это сложный вопрос, и опытные исследователи могут прийти к разным выводам о надежности того или иного исследования. Необходимо учитывать множество факторов, но важнейшими являются следующие вопросы:
- В какой степени генетические варианты имитируют вмешательство в фактор риска?
- Насколько последовательны доказательства того, что генетические предикторы фактора риска в различных областях генов связаны с исходом?
Что касается первого вопроса, то генетические варианты с большей вероятностью отражают вмешательство в молекулярный фактор риска, такой как С-реактивный белок или уровень холестерина, особенно если известно, что функция гена связана с фактором риска. Генетические варианты с меньшей вероятностью отражают вмешательство в социальные или поведенческие факторы риска, такие как количество лет, проведенных в учебном заведении, или продолжительность сна. Это связано с тем, что существует множество механизмов, влияющих на эти факторы риска, поэтому стоит помнить о наличии большого количества возможных причинно-следственных путей от генетических вариантов к исходу заболевания - некоторые из них могут не проходить через фактор риска.
Что касается второго вопроса, то исследователи должны предоставить достаточно информации, чтобы оценить этот момент. Если исследования покажут, что 10 генетических предикторов фактора риска в 10 различных областях генов связаны с исходом, и если все ассоциации имеют одинаковое направление (т. е. все они предполагают, что фактор риска вреден, или все предполагают, что он защищает), то можно предположить, что фактор риска оказывает причинно-следственное влияние на исход. Однако если только один из 10 генетических предикторов фактора риска связан с исходом, то может существовать причинно-следственный путь от этого варианта к исходу не через фактор риска — это явление известно как плейотропия.
Действительно ли генетические варианты распределены случайным образом?
Распределение генетических вариантов не является строго случайным для всех людей в популяции (вы можете унаследовать генетический вариант, только если он был у одного из ваших родителей). Однако существует некоторая раздомизация в том, какой сперматозоид встретился с яйцеклеткой, а также в том, как встретились ваши родители. Это означает, что большинство распространенных генетических вариантов можно считать случайно распределенными в популяции. Другими словами, мы можем обоснованно предположить, что они распределены независимо от конфаундеров — это и есть суть того, что мы подразумеваем под словом "рандомизированный". Кроме того, генетические варианты, которые физически находятся далеко друг от друга на хромосоме, обычно наследуются независимо друг от друга; это закон Менделя о независимом наследовании. Технически говоря, мы называем это квазирандомизацией, а не истинной рандомизацией.
У этого утверждения есть множество уточнений. Например, если генетический вариант более распространен в определенной этнической группе, то он будет связан с факторами, которые более распространены в этой группе. Тем не менее, существует множество эмпирических данных, свидетельствующих о том, что предположение о независимом распределении генетических вариантов достаточно обосновано для смешанных групп населения (см. https://pubmed.ncbi.nlm.nih.gov/18076282/ и https://www.biorxiv.org/content/10.1101/124362v1).
Как узнать больше?
Вот несколько ссылок на ключевые статьи, которые более детально объясняют принципы Менделевской рандомизации.
Обзор Менделевской рандомизации: https://www.annualreviews.org/doi/abs/10.1146/annurev-genom-083117-021731
Руководство по проведению исследований с использованием Менделевской рандомизации: https://wellcomeopenresearch.org/articles/4-186/v3
Руководство по составлению отчетов о результатах исследований с использованием Менделевской рандомизации: https://www.bmj.com/content/375/bmj.n2233
TL;DR (версия из 100 слов): Обсервационные эпидемиологические исследования подвержены влиянию обратной причинно-следственной связи и конфаундеров. Менделевская рандомизация — это эпидемиологический подход, помогающий избежать подобных проблем. Этот метод позволяет определить, связаны ли генетически предсказанные уровни фактора риска (например, употребление кофе) и исхода заболевания (например, рака). Согласно законам Менделя, генетические характеристики наследуются независимо друг от друга, а значит, генетические ассоциации менее подвержены влиянию конфаундеров. Кроме того, поскольку генетические варианты закладываются с рождения, вероятность обратной причинно-следственной связи снижается. Поэтому ассоциации, полученные в результате исследований с применением метода Менделевской рандомизации, с большей вероятностью будут иметь причинно-следственную интерпретацию, чем ассоциации, полученные в ходе обычных эпидемиологических исследований.
Если вы хотите узнать больше о Менделевской рандомизации, вы можете купить книгу "Менделевская рандомизация" (на английском) или посетить один из наших курсов. Наша исследовательская группа проводит онлайн-курс по Менделевской рандомизации дважды в год — мы будем рады, если вы его посетите!
перевод Дениса Ю. Плотникова, проверенный Маргаритой Грушаниной