Геноміка: постановка задачі та методи секвенування. Методи визначення послідовності нуклеотидів в молекулі днк.

Відео: Лекція 3.1 | Методи вимірювання відстаней до космічних тіл. паралакс | Володимир Сурдин



Геноміка: постановка задачі та методи секвенування. Методи визначення послідовності нуклеотидів в молекулі ДНК.
Сергій Ніколенко, співробітник лабораторії обчислювальної біології Санкт-Петербурзького Академічного Університету, в серії статей говорить про деяких завданнях біоінформатики, пов`язаних зі складанням та аналізом геномів, роблячи акцент на математичній, комбінаторної постановці завдання. В даному вступному тексті мова йде про те, як виглядають вхідні дані для складання геномів і як їх отримують. 

Як виглядає молекула ДНК?

Почнемо з того, як виглядає молекула ДНК. Молекули полімерів характеризуються первинною структурою, під якою розуміється просто склад молекули (в даному випадку - послідовність літер A, C, G і T, які і складають геном), вторинною структурою, тобто тим, які саме хімічні зв`язки встановлюються між цими компонентами і які в результаті виходять базові просторові структури (в даному випадку - подвійна спіраль), і третинну структуру, тобто тим, як вторинна структура «покладена» в просторі. Вторинна структура ДНК являє собою подвійну спіраль, що складається
з чотирьох різних нуклеотидів. Нуклеотиди позначаються за що містяться в них азотистих підстав: аденіну (A), цитозин (C), гуаніну (G) і тимін (T) (є ще урацил, який в РНК замінює тимін), і в подальшому ми завжди будемо користуватися цими літерами. У подвійній спіралі ці амінокислоти пов`язані один з одним водневими зв`язками, і зв`язок встановлюється за принципом комплементарності: якщо в одній нитки ДНК варто A, то в комплементарної нитки буде T- а якщо в одній нитки C, то в інший буде G. Саме це дозволяє щодо просто проводити реплікацію (копіювання) ДНК, наприклад, при діленні клітини: для цього досить просто розірвати водневі зв`язку, розділивши подвійну спіраль на нитки, після чого парна нитка для кожного «нащадка» автоматично збереться правильно. Важливо зрозуміти, що ДНК - це дві копії одного і того ж «тексту» з чотирьох «букв» - «букви» в копіях не ідентичні, але однозначно відповідають один одному. наприклад:

ATGCAGAACAGACGATCAGCGACACTTTA
TACGTCTTGTCTGCTAGTCGCTGTGAAAT

Було б, звичайно, зручно, якби нам вдалося акуратно «витягнути» одну нитку ДНК і спокійно, нуклеотид за нуклеотидом, «прочитати» цю нитку від початку до кінця. При такому ідеальному методі секвенування (читання ДНК) ніяких хитрих алгоритмів не знадобилося б. На жаль, на даному етапі таке неможливо, і доводиться задовольнятися результатами того секвенування, яке є.

Що таке секвенування?

Секвенування (sequencing) - це загальна назва методів, які дозволяють встановити послідовність нуклеотидів в молекулі ДНК. В даний час немає жодного методу секвенування, який би працював для молекули ДНК целіком- всі вони влаштовані так: спочатку готується велике число невеликих ділянок ДНК (клонується молекула ДНК багаторазово і «розрізається» її в випадкових місцях), а потім читається кожну ділянку по окремо.

Клонування відбувається або просто вирощуванням клітин в чашці Петрі, або (у випадках, коли це було б занадто повільно або з якихось причин не вийшло б) за допомогою так званої полімеразної ланцюгової реакції. У короткому і неточному викладі працює вона приблизно так: спочатку ДНК денатурують, тобто руйнують водневі зв`язки, отримуючи окремі нитки. Потім до ДНК приєднують так звані праймери- це короткі ділянки ДНК, до яких може приєднатися ДНК-полімераза - з`єднання, яке, власне, і займається копіюванням (реплікацією) нитки ДНК. На наступному етапі полімераза копіює ДНК, після чого процес можна повторювати: після нової денатурації окремих ниток буде вже вдвічі більше, на третьому циклі - вчетверо, і так далі.

Всі ці ефекти досягаються в основному за допомогою змін температури суміші з ДНК, праймерів і полімерази- для наших цілей важливо, що це досить точний процес, і помилки в ньому рідкісні, а на виході виходить велика кількість копій ділянок однієї і тієї ж ДНК. Різні методи секвенування відрізняються один від одного не методами клонування, а тим, як потім прочитати вийшов «суп» з численних копій однієї і тієї ж ДНК.

Секвенування по Сенгер

Першим методом секвенування, який вчені зуміли застосувати для обробки цілих геномів (в тому числі генома людини), стало секвенування по Сенгер (Sanger sequencing). Сенс такий: ділянка ДНК клонується, після чого отримана суміш ділиться на чотири частини. Кожна частина поміщається в активне середовище, де присутні:

(1) ДНК-полімераза, яка, як ми вже з`ясували, займається репликацией,

(2) праймери, необхідні для початку процесу реплікації,

(3) суміш всіх чотирьох нуклеотидів, які будуть служити «цеглинками» для будівництва нових копій ДНК,

(4) і, головне, спеціальні варіації одного з нуклеотидів (рівно один вид нуклеотидів для кожної частини), які припиняють подальше копіювання молекули ДНК.

Власне, процес практично ідентичний клонування ДНК, з яким ми зустрілися в попередньому розділі. Різниця тільки в тому, що тепер в один з нуклеотидів підмішані «помилкові» нуклеотіди- вони можуть утворити таку саму водневу зв`язок, але не можуть продовжити свою нитку далі.

В результаті в кожній частині утворюється велика кількість копій префіксів досліджуваної ділянки ДНК, які мають різну довжину, але завжди закінчуються на одну і ту ж букву - в залежності від того, коли пощастить взяти в процес клонування «помилковий» нуклеотид. Наприклад, в пробірці, де всі послідовності закінчуються на Т, з нашого прикладу вище вийшла б суміш з наступних префіксів:

ATGCAGAACAGACGATCAGCGACACTTTA (зразок)
AT
ATGCAGAACAGACGAT
ATGCAGAACAGACGATCAGCGACACT
ATGCAGAACAGACGATCAGCGACACTT
ATGCAGAACAGACGATCAGCGACACTTT

Як тепер, отримавши таку суміш, «прочитати» геномної послідовність? Зауважимо, що в сумі в чотирьох пробірках ми отримали всі можливі префікси цікавить нас ділянки. Це означає, що якщо ми зможемо просто виміряти довжину кожного префікса (точніше кажучи, навіть не виміряти, а просто впорядкувати, дізнавшись, хто з них довше), то ми зможемо дізнатися і послідовність теж. Припустимо, що ми побачили, що в пробірках лежать префікси ось такої довжини (по порядку, від найлегшого 1 до найважчого 10): A C G T
1, 5, 7, 8, 10 4, 9 3, 6 2

Очевидно, що ця послідовність починається з А (тому що найлегший префікс, з однієї літери, закінчується на A) - далі йде C, далі знову A, і так далі. В результаті можна прочитати вихідний ділянку: ATGCAGAACA.

А щоб виміряти довжину, можна, наприклад, виміряти масу всіх префіксів у всіх пробірках. Щоб виміряти масу, можна, наприклад (різні секвенатори використовували різні процедури, але суть від цього не змінюється), іонізувати ці молекули і відправити їх наввипередки до зарядженого електроду в спеціальному гелі, який створить тертя і сповільнить просування молекул - цей метод називається електрофорезом. При однаковому заряді важчі молекули будуть рухатися повільніше, і в результаті вийде приблизно така картинка. Видно, що (в ідеальному випадку) можна просто прочитати послідовність нуклеотидів від найлегшого префікса (тобто префікса з однієї літери) до самого важкого.

Результати та помилки сенгеровского секвенування

На виході з сенгеровского секвенатор виходять короткі ділянки ДНК, так звані Ріди (reads). Для біоінформатики принципові дві речі: по-перше, якої довжини виходять Ріди, по-друге, які в них можуть бути помилки і як часто (зрозуміло, на світі немає нічого ідеального).

Сенгеровскіе Ріди за цими критеріями дуже гарні: виходять Ріди довжиною близько тисячі нуклеотидів, причому якість починає помітно падати тільки після 700-800 нуклеотидів. Сам процес секвенування по Сенгер, з яким ми познайомилися в попередньому розділі, зумовлює і ефект падіння якості (важче відрізнити молекулу масою 700 від молекули масою 701, ніж масу 5 від маси 6), і інший неприємний ефект - якщо в геномі зустрічається довга послідовність з однієї і тієї ж букви (... AAAAAAAA ...), важко буває точно визначити, якою вона довжини - всі проміжні маси потраплять в одну і ту ж пробірку, деякі з них можуть не зустрітися, деякі - злитися один з одним і т.д. Але все ж сенгеровское секвенування дає відмінні результати з досить довгими рідамі, які потім відносно легко збирати. Про те, як це робиться, ми будемо говорити в наступних текстах.

Саме за допомогою сенгеровского секвенування був вперше розшифрований геном людини. Секвенування по Сенгер застосовується і сьогодні, але його все активніше витісняють інші методи, і застосовується воно все рідше. Кому ж і чому воно поступилося свої позиції?

Секвенатори другого покоління: Illumina

Сучасні секвенатори - це так звані секвенатори другого покоління (SGS, second generation sequencing). У них ділянки ДНК, як і раніше багато разів клонуються, але процес читання влаштований не так, як у Сенгера. Існує багато різних методів, що відрізняються досить суттєво, тому ми розглянемо тільки один з них, один з найпопулярніших на сьогодні - секвенування за методом Solexa (нині Illumina- в зміні назви не потрібно шукати глибокий зміст, просто одна компанія купила іншу).

Процес секвенування Illumina проілюстрований на рісунке- крім того, можна подивитися один з декількох існуючих відеороликів з анімацією цього процесу - в даному випадку, дійсно, краще один раз побачити, ніж сто разів прочитати текст. Однак короткі коментарі теж прігодятся- ось як відбувається процес секвенування за методом Illumina.

(1) Копії ДНК розрізають в випадкових місцях на велике число невеликих ділянок.
(2) До кожної ділянки з двох сторін додають спеціальні адаптери - заздалегідь відомі невеликі послідовності нуклеотидів.
(3) Потім отримана суміш поміщається на спеціально підготовлену підкладку, з якої у вигляді решітки «ростуть» ділянки ДНК, комплементарні адаптерів. Таким чином, вони здатні «прив`язати» забезпечені адаптерами ділянки ДНК до цих місць. Крім того, адаптери також містять праймери, ділянки, до яких може приєднатися ДНК-полімераза, яка здійснює реплікацію ДНК.
(4) На кроці 3 різні ділянки ДНК випадковим чином «присмоктуються» до різних місць в решітці. Тепер ми багато разів клонуємо кожну ділянку навколо свого місця, отримуючи тим самим цілі «кластери». Цей процес відомий як bridge amplification, тому що ДНК прив`язується до підкладки відразу двома концамі- про те, що це означає для біоінформатики, ми поговоримо в наступному розділі.
(5) Ділянки ДНК денатурують (руйнують водневі зв`язки) - в результаті з вузлів решітки на підкладці «ростуть» різні ділянки ДНК, що складаються з однієї нитки.
(6) Підкладка поміщається в розчин, що містить ДНК-полімерази і спеціально помічені нуклеотиди, які відразу ж закінчують процес реплікації (якщо пам`ятаєте, в сенгеровском секвенування такі теж застосовувалися). Вони приєднуються до ДНК, по одному до кожної ділянки. Відповідно, до кожної ділянки приєднується та «буква», з комплементарної до якої він починається.
(7) Потім «зайві» нуклеотиди змивають, а мітки залишилися счітивают- в технології Illumina це флуоресцентні мітки, які можна змусити світитися різними кольорами і сфотографувати. Саме на цьому етапі ми і дізнаємося, з якої літери починається кожен «кластер ділянок» ДНК.
(8) Після цього з уже пов`язаних нуклеотидів хімічно «зрізається» радикал, який заважав подальшій надбудові молекули ДНК. Тепер можна повернутися на крок 6 і повторити процес, читаючи на другому циклі другі букви в кожній послідовності, і так далі.

В результаті на кожному циклі ми прочитуємо одночасно дуже велике число нуклеотидів з різних послідовностей. Але за це доводиться платити тим, що ділянки ДНК, які ми можемо прочитати, виявляються набагато 


Увага, тільки СЬОГОДНІ!


Оцініть, будь ласка статтю
Всього голосів: 140