Modelli estremamente sparsi di disequilibrio di collegamento in studi di associazione ancestralmente diversi
Nature Genetics (2023) Citare questo articolo
293 accessi
30 Altmetrico
Dettagli sulle metriche
Il linkage disequilibrium (LD) è la correlazione tra varianti genetiche vicine. Negli studi di associazione genetica, la LD è spesso modellata utilizzando grandi matrici di correlazione, ma questo approccio è inefficiente, soprattutto negli studi ancestralmente diversi. Nel presente studio, introduciamo i modelli grafici LD (LDGM), che sono una rappresentazione estremamente sparsa ed efficiente di LD. Gli LDGM derivano da genealogie dell'intero genoma; le relazioni statistiche tra gli alleli nell'LDGM corrispondono alle relazioni genealogiche tra gli aplotipi. Abbiamo pubblicato LDGM e matrici di precisione LDGM specifiche per ascendenza per 18 milioni di varianti comuni (frequenza allelica minore > 1%) in cinque gruppi di ascendenza, convalidato la loro accuratezza e dimostrato miglioramenti dell'ordine di grandezza in fase di esecuzione per i calcoli della matrice LD comunemente utilizzati. Abbiamo implementato un metodo di previsione poligenica multiancestrale estremamente veloce, BLUPx-ldgm, che funziona meglio di un metodo simile basato sulla matrice di correlazione LD di riferimento. Gli LDGM consentiranno metodi sofisticati che si adattano a dati di associazioni genetiche ancestralmente diversificate tra milioni di varianti e individui.
Questa è un'anteprima dei contenuti dell'abbonamento, accessibile tramite il tuo istituto
Accedi a Nature e ad altre 54 riviste Nature Portfolio
Ottieni Nature+, il nostro abbonamento con accesso online dal miglior rapporto qualità-prezzo
$ 29,99 / 30 giorni
annullare in qualsiasi momento
Iscriviti a questo diario
Ricevi 12 numeri cartacei e accesso online
$ 189,00 all'anno
solo $ 15,75 per numero
Noleggia o acquista questo articolo
I prezzi variano in base al tipo di articolo
da $ 1,95
a $ 39,95
I prezzi possono essere soggetti a tasse locali calcolate durante il checkout
LDGM, matrici di precisione LDGM e sequenze di alberi sono disponibili presso Zenodo (rif. 84; https://doi.org/10.5281/zenodo.8157131). I dati sul genotipo 1000 Genomes a fasi ad alta copertura sono disponibili all'indirizzo http://ftp.1000genomes.ebi.ac.uk/vol1/ftp/data_collections/1000G_2504_high_coverage/working/20201028_3202_phased. I blocchi indipendenti da LD sono disponibili su https://github.com/jmacdon/LDblocks_GRCh38. Le statistiche riassuntive e la LD della biobanca britannica sono disponibili all'indirizzo s3://broad-alkesgroup-ukbb-ld/UKBB_LD/. Gli stati ancestrali sono disponibili tramite Ensembl release 100 e possono essere scaricati da ftp://ftp.ensembl.org/pub/release-100/fasta/ancestral_alleles (rif. 83).
Abbiamo rilasciato un pacchetto software open source, ldgm v.0.1, implementato in Python e MATLAB. ldgm consente l'inferenza di LDGM e matrici di precisione LDGM, nonché analisi computazionalmente efficienti delle statistiche riassuntive GWAS utilizzando LDGM. È disponibile su https://github.com/awohns/ldgm ed è depositato su Zenodo85 (https://doi.org/10.5281/zenodo.8161389). Tutte le funzionalità per l'analisi delle statistiche riassuntive GWAS con LDGM, incluso BLUPx-ldgm, sono attualmente implementate in MATLAB; è prevista un'implementazione Python. BLUPx-ldgm è implementato anche in bcftools, disponibile su https://github.com/freeseek/score; tskit è disponibile su https://github.com/tskit-dev/tskit. Gli script per riprodurre i risultati di questo manoscritto sono disponibili su https://github.com/awohns/ldgm_paper.
Consorzio Internazionale HapMap. Una mappa degli aplotipi del genoma umano. Natura 437, 1299–1320 (2005).
Articolo Google Scholar
Reich, DE et al. Disequilibrio di linkage nel genoma umano. Natura 411, 199–204 (2001).
Articolo CAS PubMed Google Scholar
Abecasis, GR et al. Estensione e distribuzione del disequilibrio di collegamento in tre regioni genomiche. Sono. J.Hum. Genetta. 68, 191–197 (2001).
Articolo CAS PubMed Google Scholar
Finucane, Hong Kong et al. Partizionamento dell'ereditarietà mediante annotazione funzionale utilizzando statistiche riassuntive di associazione a livello dell'intero genoma. Naz. Genetta. 47, 1228–1235 (2015).