елементи

абстрактно

Изследването на асоциацията е популярен дизайн на изследване за идентифициране на гени за податливост към често срещани сложни заболявания. В такова проучване наличието на неподходящи проби, като тези от близки роднини или показващи замърсяване на ДНК, причинява инфлация на грешка от тип I или намалена производителност. Тук предлагаме метод за откриване, основан на идентичността на отделни състояния (IBS) на неподходящи проби, като се вземе предвид дисбалансът на свързване (LD). Статистиката на анализа е средната стойност на дела на алелите, които се споделят от идентично състояние при всеки отделен нуклеотиден полиморфизъм (SNP) между всяка двойка проби в изследването за асоцииране. Въведена е ковариация на броя споделени алели между два SNP, за да се разгледа LD. Ние показваме, че грешката и мощността от тип I са точно оценени в компютърно симулирани данни и че ако броят на анализираните SNP е малък, ефективността на откриване на неподходящи проби е по-добра от предишния метод в симулираната LD. Прилагането на данни от реални проучвания за асоцииране показа, че точността при оценяване на разпределението на статистическите данни от тестовете се подобрява, когато се разглежда LD. Идентифицирани са проби от двойки, които се считат за братя и сестри. Тези резултати показват, че методът за откриване на IBS, базиран на LD, е полезен при идентифициране на неподходящи проби в проучване за асоцииране.

Изследването на асоциацията е популярен дизайн на изследване за идентифициране на гени за податливост към често срещани сложни заболявания. 1 Според Хипотезата за общата болест (CD-CV), силата на проучването за асоцииране обикновено е по-висока от проучването за свързване за идентифициране на чувствителни към болестта гени. Повечето проучвания за асоциации търсят генетични маркери, които са свързани със заболяването, като сравняват честотата между случаите (заболяване) и контролната (без болест) популация. След това в областта на дисбаланса на свързване (LD), който съответства на свързания генетичен маркер, може да бъде идентифициран чувствителен към болестта ген. Напоследък единичните нуклеотидни биалелни полиморфизми (SNP) се използват широко като генетични маркери.

Няколко предразсъдъци могат да бъдат въведени в проучвания за случаи и контрол на асоциации, което е много важно да се третира по подходящ начин, тъй като те причиняват значително нарастване на грешки от тип I или влошаване на работата. Контролът на качеството (QC), поредица от операции за откриване и елиминиране на пристрастия, включва такива възможни причини като стратификация на популацията, замърсяване на пробите и криптична свързаност. 1, 3 Замърсяване на проба може да възникне, когато проби от различен индивидуален произход по погрешка се смесят в експериментален процес, като екстракция на ДНК или типизиране на SNP. Криптоидна свързаност се наблюдава, когато някои близки роднини са включени в изследването случайно без знанието на изследователите, което може да доведе до инфлация на грешка от тип I. 3

За общото откриване на свързани проби е предложен тест за вероятностно съотношение, основан на обратната вероятност за генотип в определени взаимоотношения. 4 За семейно проучване беше предложен метод 5, 6 за най-съвременна идентичност (IBS) за откриване на грешки на двойки сиб, като се използва сумата от IBS за двойка братя и сестри. За разлика от това е предложен метод за идентифициране на десятък (IBD) (PLINK 7). PLINK (//pngu.mgh.harvard.edu/purcell/plink/) изчислява коефициентите на споделяне на генома в пълния диапазон между несвързани проби от цели данни за генома. Тази метрика е полезна за QC чрез диагностициране на родословни грешки, неоткрити връзки и произволно вземане на проби, дублиране и замърсяване. Той изчислява π̂ (делът на алелите, споделени от IBD) за всяка двойка проби и събитията на замърсяване се считат за π̂ стойности. В тези предишни проучвания обаче се приемаше, че SNP са независими един от друг и LD не се взема предвид. Въпреки това, в много проучвания за асоцииране, LD не може да бъде пренебрегван сред SNP маркерите.

Тук ние предлагаме IBS-базиран метод за откриване за откриване на неподходящи проби (напр. Замърсяване, близки роднини) в проучване за асоциация, което разчита на SNP маркери със или без LD. Оценихме грешката от тип I и силата на предложения метод и оценихме броя на SNPs, необходими за откриване на неподходящи проби за SNP маркери в LD или линкерно равновесие (LE). Предложеният метод беше сравнен с предишния метод чрез симулация. И накрая, приложението на предложения метод за примера на реални данни при изследването на асоциацията в целия геном показа практическото значение на нашата дискусия.

резултатът

Симулационно проучване

Оценихме грешка и мощност от тип I (R = 2, 3, 4) в симулационни данни за SNP маркери, показващи LE или LD (таблици 1 и 2). Грешката и мощността от тип I бяха изчислени точно, като се предположи, че разпределението Y е нормално разпределение със средно E (Y) и дисперсия V (Y) и в двата случая. В случая на LE бяха необходими повече от 800 SNP, за да се открият правилно пробите родител-дете (v̂ = 1) и да се изключи изключването на нормални проби от данните за контрол на случая (ûN (N - 1)/2

проби

ROC крива за ефективността на IBD/IBS-базирани методи, приложени към LD симулационни данни (K = 200, N = 200). AUC е 0,95 (IBD) и 0,96 (IBS) за родител-дете, 0,92 (IBD) и 0,99 (IBS) за замърсяване.

Изображение в пълен размер

Въпреки че броят на SNPs не е достатъчен за точно откриване на неподходящи проби съгласно таблица 2, ние фокусираме тази симулация върху проучване за асоцииране, при което броят на SNPs е по-малък от 1000. Освен това потвърждаваме, че няма разлика в ефективността между двата метода. в случай на 1000 SNP и че и двата метода точно откриват неподходящи проби (данните не са показани).

Анализ на реални данни

Приложихме метода, базиран на IBS, за проучвания на реални асоциации при промяна на броя на SNP (K = 200, 600, 1000 и 2665). Тези реални данни имат като цяло слаба LD (Фигура 1). Възможно беше да се сближи разпределението на Y чрез нормално разпределение и имаше малка разлика между w = 10 и w = 100 (Фигура 3). В случай на слаба LD, точността на оценката на Y може да се подобри, като се вземе предвид LD. Броят на откритите двойки проби беше точно определен от горната вероятност за нормално разпределение (Таблица 3). Намерените две проби от двойки бяха проверени повторно от клинични изследователи и връзката между братя и сестри всъщност беше силно проектирана.

Хистограма на реални случаи - контролни данни и теоретично разпределение на Y, (K = 1000, 2665). Праговата стойност е s = 0,75.

Изображение в пълен размер

Маса в пълен размер

дискусия

При проучване на асоциация е необходима поредица от КК, за да се поддържа качеството на изследванията. В това проучване се фокусирахме върху откриването на неподходящи проби. Към днешна дата методите за откриване, базирани на IBS, са предложени в семейни проучвания. Тези методи обаче не вземат предвид LD сред генетичните маркери и следователно не могат да бъдат приложени към данните от изследването на асоциацията на LD. Нашият нов метод за откриване, базиран на IBS, може да обмисли LD, използвайки ковариация Y, а грешката от тип I и ефективността на предложения метод бяха в състояние да бъдат точно оценени с помощта на симулационно проучване. В типично проучване за асоциация само с няколко неподходящи проби, грешка от тип I трябва да бъде правилно оценена, за да се избегне неволно изключване на подходящи проби. В симулационните данни предложеният метод правилно и по-точно открива неподходящи проби от метода, основан на IBD.

В нашето симулационно проучване броят на фалшивите положителни резултати намалява драстично, когато се анализират повече от 1000 SNP (Таблица 2), а уебсайтът PLINK също така посочва, че за изчисляване на целия геном са необходими голям брой SNP (минимум 1000 независими SNP). IBD предостави информация за IBS. Взети заедно, това означава, че са необходими повече от 1000 SNP за откриване на неподходящи проби. В някои кандидат-генни подходи обаче целевите гени вече са дефинирани и броят на типизиращите SNP на тези гени е по-малък от 1000 SNP. В този случай препоръчваме предложения метод.

В предложения метод използваме прага s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Установяването на оптималния праг с използване на байесов фактор 6 е необходимо, като се приеме, че разпределението на Y е смесено нормално разпределение на несвързани (R = 1) и неподходящи проби (родител-дете (R = 2) и братя и сестри (R = 3)). И така нататък). Тъй като обаче неподходящите проби обикновено са редки, е трудно да се оцени смесената скорост и параметърът на неподходящо разпределение на пробите. Така че ние просто приемаме прага, определен от s = < E ( Y ∣ R = 1) + E ( Y ∣ R = 2)>/ 2. Има място за проучване как да се вземе решение за праг.

В предложения метод ние приехме виртуална силна LD област като последователни SNP и ковариацията Cov се изчислява в тази област (Tk1, Tk2│R = 1). Тъй като LD моделът е променлив в целия геном, разумно е да се помисли за ковариация според зависимата от позицията ширина на LD. Резултатите от действителните данни обаче предполагат, че е приемливо да се разглежда силна LD зона като регион, състоящ се от няколко последователни SNP.

В приложението за реални данни преди това изключихме проби, в които липсват много SNP или висок дял на хетерозиготни SNP, тъй като това е част от рутинен процес за контрол на качеството в нашата лаборатория. Всъщност установихме, че включването на тези проби надува разсейването Y, което от своя страна надценява грешката от тип I. В настоящата ни процедура за контрол на качеството не считаме LD за откриване и изключване на проби с неразумно висока пропорция на хетерозиготност. Метод, който разглежда LD по начин, подобен на предложения метод, може да се използва за откриване на проба с висок дял на хетерозиготност, използвайки Tk = 1 (генотипът е хетерозиготен за SNP k), Tk = 0 (генотипът е хомозиготен за SNP k) . Обърнете внимание, че нереципрочно еднопосочно замърсяване, при което проба Б е замърсена с проба А, докато проба А остава непокътната, може да бъде открито от необичайно висок дял на хетерозиготност на замърсената проба Б.

Неотдавнашното въвеждане на мощни SNP платформи за типизиране на чипове доведе до проучване за асоцииране, което е популярна стратегия за идентифициране на свързани с болестта гени и данни за генотипа на 100 000 - 1 000 000 SNP. В проучване за асоцииране с цял геном могат да бъдат ефективно открити неподходящи проби, тъй като за целите на контрола на качеството (QC-SNP) могат да бъдат избрани няколкостотин SNP. Необходимо е да се изберат QC-SNP, които са в LE помежду си и чиито алелни честоти са около 0,5; такива SNP могат най-ефективно да разграничат неподходящите проби от нормалните. От друга страна, когато няколко гена-кандидати или геномни области, които представляват интерес, вече са известни или избрани и SNP типизиране с висока плътност е желано за тези гени, LD трябва да се разглежда съгласно предложения метод.

В това проучване ние предложихме метод за откриване на неподходящи двойки проби в проучване за асоцииране между случай и контрол. Когато приложихме предложения метод към реалните данни от изследването на асоциацията, бяха намерени две двойки проби като братя и сестри. Веднага щом се подозира неподходящи проби, обикновено предприемаме следните стъпки: когато се установи замърсяване, изключваме всички съответни проби от данните за контрол на случая. Ако се намери свързана двойка проби, обикновено задържаме само един обект от двойката чрез комбинация от следните два критерия: (2) общото качество на данните за типизиране на извадката, по-специално скоростта на повикване SNP (брой успешно генотипирани SNP за всяка проба). Въпреки това, ако броят на неподходящите проби е значителен, решението дали да бъдат включени може да изисква размисъл между надуването на грешка от тип I и намалената тестова мощност. В този случай може да се наложи бъдещо проучване на анализа на чувствителността, за да оценим компромиса.