декодиране

елементи

  • ДНК секвениране
  • генетика
  • геном
  • Популационна генетика

Геномът на гигантска панда е първото съобщено de novo събрание на големия геном на бозайници, постигнато с помощта на методи за секвениране от следващо поколение. Тази оценка отразява тенденцията към непрекъснато намаляващи разходи за геномно секвениране.

Изследването в този брой на Li et al. 1 (страница 311) от Пекинския институт по геномика е забележителен по две причини - той представя основната структура на генома на гигантската панда (Ailuropoda melanoleuca) и е първата публикация на висококачествен de novo геном, сглобен от бозайник. използвайки машини за последователно следващо поколение (NGS). Пандата, чийто геном е секвениран, се нарича Jingjing; тя е едно от приблизително 3000 останали същества. Освен че е едно от националните богатства на Китай, пандата заема интересно място в еволюционното дърво - сред хората и кучетата. Разчита се и на необичайна бамбукова диета. Предоставя завладяващ предмет за изследване на генома, който може да използва знания за основната биология и да осигури основа за генетиката на популацията на пандите.

За мнозина обаче най-големият интерес ще бъде, че гигантската панда представлява първото публикувано de novo събрание на генома с тази сложност, постигнато чрез NGS методи. Тези методи произвеждат много кратки последователни четения в много по-голям брой и на по-ниски разходи от традиционните техники на Sanger. Въпреки че са докладвани десет или повече NGS генома (с неотдавнашни оценки на разходите от 10 000 до 50 000 $ на геном), всички те са направени чрез секвениране и сравняване на последователностите с човешка референция. Те не са разрешили такъв по-сложен проблем на изцяло ново събрание като Li et al. 1 направих. Други групи, които са се борили с предизвикателствата на новосъздаването на геноми на бозайници от NGS 3-gigabase, ще проучат методите и качеството на данните за пандата и ще попитат как тези уроци могат да бъдат отразени в други текущи проекти за геном. Финансовите агенции също ще наблюдават това развитие в очакване на продължаваща тенденция към намаляване на разходите за последователност на геномите.

Не всички геномни последователности на бозайници са с еднакво качество: първоначалният дизайн на човешкия геном 2 е конструиран през 2001 г., като се използва припокриващо се последователност на Сангер, генерирано от класически методи за терминиране на нуклеотидни вериги 3. Разработването на „по същество завършена“ последователност 4 до 2003 г., която струва почти толкова усилия и пари, колкото оригиналния дизайн, завърши с последователността на човешкия геном с по-голяма съгласуваност и точност от дизайна и само с няколко пропуски. оставайки в цели 3 гигабази. Оттогава само мишката се е възползвала от готовия геном 5, а останалите публикувани геномни последователности, като резус макак 6, куче 7, плъх 8 и крава 9, са висококачествени концепции, за които от шест до осем Покритието на многократния геном е постигнато чрез методите на Sanger за секвениране, със специализиран софтуер за сглобяване, който изчислява припокриванията.

Типичните концептуални последователности на Sanger имат така наречените съседни N50 от 20-200 килобази, в които половината от всички бази се намират във фрагменти от съседни последователности с тази дължина или повече. Тази дължина на непрекъснатата последователност позволява повечето гени да бъдат изследвани като отделни съседни единици. Контигите са зашити заедно, за да образуват по-дълги структури или скелета, които често са дълги мултимегабази (фиг. 1). Като цяло, по-високите стойности на скелето и съседните N50 са по-полезни, защото позволяват изследване на геномни свойства в контекста - например гени с всичките им екзони (кодиращи региони) в ред и с прилежащи регулаторни последователности. Висококачественото секвениране изисква предотвратяване на фалшиви връзки, които надуват contig и скелето N50 чрез неправилно присъединяване на отдалечени последователности. Фактът, че показанията на Sanger, използвани в предишни проекти, са по-дълги и по-точни от данните на NGS (обикновено около 1000 бази в сравнение с по-малко от 100 бази, 0,1% спрямо> 1% грешки) е накарал мнозина да се замислят дали са рентабилни., висококачествени дизайнерски комплекти могат да бъдат произведени по NGS методи.

а, Геномът първо е разделен на много малки фрагменти, чиито краища са секвенирани, генерирайки последователности, наречени двойки двойки, разделени с известно разстояние (сини стрелки, свързани с криви). Тези четения се сглобяват повторно с помощта на компютърни алгоритми, които обединяват припокриващи се последователности, за да образуват съседни фрагменти от последователности или контиги. б, Контигите са подредени в по-големи скелета, като се използва информация за сходство на последователността и разстояние между двойки двойки. Фигурата показва скеле, съставено от последователни контиги с разпръснати пропуски с очакван размер, базирани на двойки, свързващи контигите. Различните технологии за секвениране имат различна честота на грешки и дължина на четене, но принципите са едни и същи. Типичен проект за монтаж на Sanger генерира данни с дължина около 1000 основи, докато методите от следващото поколение, използвани от Li et al. 1 за гигантския сбор от геном на панда е много по-малък (с дължина от 50 до 75 бази).

Изображение в пълен размер

Li et al. 1, за да изглежда тази задача ясна, контролируема - дори лесна. Авторите генерират забележително 73-кратно общо покритие на генома на панда с 50 и 75 базови показания, използвайки платформата за последователност Illumina - около осем пъти средното покритие на типичен сравним проект за геном на Sanger. Увеличената излишък в резултат на по-голямо покритие може да компенсира по-малко надеждни данни за последователността, за да подобри точността на окончателната консенсусна последователност. Освен това авторите са използвали около две трети от най-добрите данни за изграждане на непрекъсната последователност, което е довело до увеличаване на N50 с 40 килобази. Тези контиги бяха комбинирани, за да се получат скелета с N50 от 1,3 мегабази. По този начин геномният сбор съдържа относително дълги последователности, но остава фрагментиран в 3 805 скелета в сравнение с по-малко от 100 при кучета. Подобна фрагментация смущава потребителите на геномни данни и изключва анализ на някои функции, като големи структурни варианти, но все още са възможни много геномни анализи.

Li et al., Разчитайки на това ново геномно събрание. 1 открихме няколко интересни характеристики на геномната последователност на пандата, които се отнасят до биологията на пандата. Въпреки че животното има генен репертоар, характерен за месоядните животни, то има растителноядна диета, състояща се предимно от бамбук. В съответствие с тази диета, генът, кодиращ вкусовия рецептор на умами за свойства на пикантни или месести храни, изглежда не функционира в пандата. Като цяло геномът Jingjing показа високо ниво на хетерозиготност (където последователността се различава между майчините и бащините хромозоми), което авторите оптимистично интерпретират като отразяващо високо генетично разнообразие в останалите видове. Тъй като е изследвано само едно животно, този ключов въпрос за степента, до която се наблюдава общата генетична променливост при видовете панда, не е пряко разгледан. Ясно е, че е необходима много повече работа, за да сме сигурни в това заключение.

Свойствата на генома, които усложняват алгоритмите за сглобяване, включват често срещани, прости повторения на ДНК, вмъкване на транспозон (мобилна ДНК), структурно подреждане и наскоро разминаващи се сегментарни дублирания. Дублирането на сегменти е особено предизвикателство, тъй като представлява относително дълги участъци от подобна последователност. Ли и колеги обаче съобщават, че пандата има относително малко. Интересното е, че както геномните групи на мишка 5, така и куче 7 показват много нисък процент на дублиране на сегменти, но последващата работа във всеки случай показва, че 4-5% от всеки геном 10, 11 е дублиран по този начин. Разликата е резултат от "спускането" на сглобката, където програмата за сглобяване неволно се припокрива с подобни последователности. Ако това може да се случи с относително дългите и точни данни на Sanger, използвани в проекти за мишки и кучета, това би могло да се случи в настоящото проучване.

Проектът за генериране на генома на панда изисква еквивалент на приблизително 30 цикъла на машината Illumina, еквивалентни на приблизително 900 000 щатски долара в производството на сурови данни. Това обаче е скоростта на производство на данни преди поне година и оттогава мощността на машината и съответните разходи за единица данни са намалели. NGS методите работят по-паралелно от методите на Sanger, позволявайки милиони четения на цикъл в сравнение със стотици последователности за Sanger. Като се има предвид всичко това и дори като се има предвид изчислителната инфраструктура, големи процесори памет и капацитет за съхранение, необходими за обработка на обема данни, цената за секвениране на гигантския геном на панда е много по-ниска от цената на проектите за секвениране на геноми на технологията Sanger, които остават на десетки милиони долари за геном. Именно това извънредно намаляване на разходите, въпреки несигурността относно точността, съгласуваността и пълнотата, означава, че докладът Li и колегите 1 ще подкрепят прилагането на методите NGS за други проекти за сглобяване на геном de novo.

Пълната обективна оценка на пълнотата и точността на сглобката на панда-геном ще изисква повторение на проекта по различни методи и задълбочен преглед на разликите между версиите. Това няма да се случи в близко бъдеще, но с настоящата конвенция за щедро разкриване, всички доклади са предмет на публични записи и вероятно ще бъдат ревизирани с подобряването на технологиите, а други изучават същия вид. Както всички данни за генома, комплектът панда ще оцелее във времеви тест и независими тестове за качество.

Коментари

Изпращайки коментар, вие се съгласявате да спазвате нашите Общи условия и насоки на общността. Ако откриете нещо обидно или несъвместимо с нашите условия или насоки, означете го като неподходящо.