Deep Learning enthüllt genetische Determinanten der COVID-19-assoziierten Mortalität

In einer kürzlich veröffentlichten Studie medRxiv* Preprint-Server wandten die Forscher Deep-Learning-Methoden an und identifizierten genetische Varianten, die mit der durch Coronavirus-2 (SARS-CoV-2) verursachten Sterblichkeit im Zusammenhang mit dem schweren akuten respiratorischen Syndrom in Verbindung stehen.

Die durch SARS-CoV-2 verursachte Pandemie der Coronavirus-Krankheit 2019 (COVID-19) hat weltweit bis heute zu mehr als 518 Millionen Fällen und über 6,25 Millionen Todesfällen geführt. Forscher haben beobachtet, dass ältere Menschen, Männer, Asiaten, Schwarze und andere ethnische Minderheiten einem höheren Risiko einer COVID-19-bedingten Sterblichkeit ausgesetzt sind. Darüber hinaus wurde beobachtet, dass genetische Determinanten des Wirts das Risiko einer Infektion und der Schwere der Erkrankung beeinflussen.

Obwohl mehrere Forscher die genetischen Assoziationen zu COVID-19-Ergebnissen in genomweiten Assoziationsstudien (GWAS) untersucht haben, konzentrierten sie sich nur auf die Auswirkungen von Einzelnukleotid-Polymorphismen (SNPs) auf Phänotypen. Daher könnte die Bewertung und Identifizierung genetischer Faktoren des Wirts im Zusammenhang mit der heterogenen Anfälligkeit für SARS-CoV-2 und dem Schweregrad unser derzeitiges Verständnis von COVID-19 erweitern und die Arzneimittelentwicklung erleichtern.

Studien: Deep Learning identifizierte genetische Varianten im Zusammenhang mit der COVID-19-bedingten Sterblichkeit. Bildnachweis: Issaro Prakalung / Shutterstock

Über das Studium

In der vorliegenden Studie implementierten die Forscher einen neuartigen Ansatz, der als Deep-Learning-basierte Ranking- und Aggregationsmethode zur Identifizierung genetischer Varianten (DRAG) bezeichnet wird. Der DRAG-Prozess umfasst drei Schritte: SNP-Set-Aufteilung, Auswahl optimaler SNP-Subsets und Bestimmung von Gruppen von Varianten (im Folgenden als Supervarianten bezeichnet).

Der gesamte Datensatz (vollständiger Satz) wurde in einem Verhältnis von 2: 1 in 1) Entdeckungs- und 2) Verifizierungssätze aufgeteilt. Das Entdeckungsset umfasste Daten zu 17.627 COVID-19-Überlebenden und 1104 Todesfällen, und das Verifizierungsset enthielt 8814 Todesfälle und 552 Überlebende. Zunächst wurde DRAG darauf trainiert, erste Kandidaten in der ersten Hälfte des Discovery-Sets zu identifizieren. Dann wurde in der zweiten Hälfte des Satzes eine logistische Regression implementiert, um anfängliche optimale Supervarianten zu finden. Diese wurden dann extrahiert und auf dem Verifizierungsdatensatz zu Supervarianten aggregiert. Eine Supervariante wurde als verifiziert angesehen, wenn ein Signifikanzniveau von 0,05 für ihren logistischen Regressionskoeffizienten erhalten wurde.

Ergebnisse

Die Autoren identifizierten aus der UK Biobank mehr als 28.000 weiße Personen britischer Abstammung, die mit SARS-CoV-2 infiziert waren. Das Team berücksichtigte mehr als 8,23 Millionen SNPs und gruppierte sie in 2.734 SNP-Sets mit jeweils 1 Mega-Basenpaarlänge. Etwa 15 Supervarianten wurden im Discovery-Set mit p-Werten ≤ 0,05 identifiziert und im Verifikations-Set validiert. Bei der Validierung hatten alle erkannten Supervarianten p-Werte <0,05, einschließlich einer, die einen p-Wert <0,003 zeigte.

(A) Übersicht über die eingeschlossenen Teilnehmer und die gesammelten Proben und Daten.  (B) Geschlechtsverteilung sowohl in der Überlebenden- als auch in der Todesgruppe.  (C) Altersverteilung sowohl in der Überlebenden- als auch in der Todesgruppe.  Das Durchschnittsalter für die Todesgruppe liegt bei etwa 75 Jahren.  (D) Der SNP-Datensatz wird gemäß der physischen Position in 2734 nicht überlappende lokale Sätze unterteilt, und jeder Satz besteht aus SNPs innerhalb eines Segments mit einer physischen Länge von 1 Mbp.

(A) Übersicht über die eingeschlossenen Teilnehmer und die gesammelten Proben und Daten. (B) Geschlechtsverteilung sowohl in der Überlebenden- als auch in der Todesgruppe. (C) Altersverteilung sowohl in der Überlebenden- als auch in der Todesgruppe. Das Durchschnittsalter für die Todesgruppe liegt bei etwa 75 Jahren. (D) Der SNP-Datensatz wird gemäß der physischen Position in 2734 nicht überlappende lokale Sätze unterteilt, und jeder Satz besteht aus SNPs innerhalb eines Segments mit einer physischen Länge von 1 Mbp.

Vier genetische Varianten, von denen COVID-19-Ergebnisse berichtet wurden, wurden an oder in der Nähe von Zinkfinger und BTB-Domäne identifiziert, die 16 (ZBTB16), Geschmacks-2-Rezeptormitglied 1 (TAS2R1), lange intergene nicht-proteinkodierende RNA 1320 (LINC01320) und neurale Zelladhäsion enthalten Molekül 1 (NCAM1). Die Supervariante chr11_114 enthielt sieben SNPs, darunter einen im Intron des NCAM1-Gens und den anderen als intronische Variante von ZBTB16.

Frühere Studien haben über die Möglichkeit einer molekularen Mimikry zwischen dem Hüllprotein von SARS-CoV-2 und NCAM1 spekuliert. Ebenso wurde ZBTB16, das für die Entwicklung des Immunsystems von entscheidender Bedeutung ist, kürzlich in den Tränen von COVID-19-Patienten hochreguliert gefunden. Das Intron-lose TAS2R1-Gen codiert einen Bittergeschmacksrezeptor, ein Transmembranprotein. Diejenigen, die einen schwachen oder keinen bitteren Geschmack berichteten, hatten eine höhere Wahrscheinlichkeit, COVID-19-positiv zu testen und einen Krankenhausaufenthalt zu benötigen.

Die Forscher fanden acht neue Gene, die mit der Sterblichkeit bei COVID-19 in Verbindung gebracht werden könnten. Dies waren DExD / H-Box 60 wie (DDX60L), Hitzeschockproteinfamilie ein Mitglied 9HSPA9), LncRNA im Zusammenhang mit der SART3-Regulation des Spleißens (LETZTER), Zinkfinger der GLI-Familie 3GLI3), ArfGAP mit GTPase-Domäne, Ankyrin-Wiederholung und PH-Domäne 3 (AGAP3), Mono-ADP-Ribosylhydrolase 2MACROD2), Nukleoporin 93NUP93) und ELOVL-Fettsäure-Elongase 5ELOVL5).

Die chr4_170-Supervariante hat vier SNPs, darunter einen im Intron von DDX60L. Obwohl DDX60L Funktion ist schlecht definiert, es wurde berichtet, dass es an der antiviralen Immunität beteiligt war. Die Supervariante chr5_138 umfasst acht SNPs, von denen einer stromaufwärts liegt HSPA9.

Variationen in der HSPA9 Das Gen könnte den Schweregrad von COVID-19 beeinflussen, da der Niederschlag von HSPA9 führt zum Rückgang der B-Zellen. Von den vier SNPs in der Supervariante chr6_54 ist einer in der intergenischen Sequenz von vorhanden ELOVL5. Eine frühere GWAS stellte die Assoziation dieses Gens mit Lungenkarzinom fest, und es ist bekannt, dass Lungenkrebs das Sterblichkeitsrisiko bei COVID-19 geringfügig erhöht.

Die Supervariante chr20_15 besteht aus acht SNPs, die alle in den intronischen Sequenzen des Nearby liegen MACROD2 Gen. Die chr16_57-Supervariante umfasst neun SNPs, einen in der NUP93 das Intron des Gens. Eine Studie bemerkte eine Störung von NUP93 Lokalisierung aus dem Kernporenkomplex durch Nichtstrukturprotein 1 (nsp1) von SARS-CoV, und die Autoren gehen von einer ähnlichen störenden Aktivität von SARS-CoV-2 aus NUP93. SNPs in anderen Supervarianten liegen nahe bei LETZTER (chr7_43), GLI3 (chr7_151) und AGAP3 (chr10_6). Es wurde berichtet, dass diese drei Gene mit der Lungenfunktion zusammenhängen.

Als nächstes führten die Autoren GWAS durch und identifizierten fünf Loci auf dem fünften Chromosom, die mit der COVID-19-Mortalität assoziiert sind. Schließlich stellten die Autoren in einer Simulationsstudie fest, dass DRAG der etablierten Methode der baumbasierten Analyse seltener Varianten (TARV) bei weitem überlegen und überlegen war, was impliziert, dass DRAG komplexe Interaktionen von SNPs selbst aus enormen Datenmengen problemlos handhaben kann .

Schlussfolgerungen

Um die Ergebnisse zusammenzufassen, wurde eine Deep-Learning-Methode (DRAG) entwickelt, um die Beziehung zwischen COVID-19-induzierter Mortalität und genetischen Varianten zu untersuchen. Das Team identifizierte 15 Supervarianten und bewertete den Zusammenhang mit der SARS-CoV-2-bedingten Sterblichkeit. Die eingeschränkte ethnische Zusammensetzung der Studienpopulation schränkt die Generalisierbarkeit der Ergebnisse ein. Insbesondere wurde die Assoziation zwischen den identifizierten genetischen Varianten und Krankheitsergebnissen nicht funktionell validiert, was weitere Untersuchungen in der Zukunft rechtfertigt. Diese Ergebnisse geben Einblicke in die molekulare Pathogenese von COVID-19, was Auswirkungen auf seine Behandlung in der klinischen Praxis haben könnte.

* Wichtiger Hinweis

medRxiv veröffentlicht vorläufige wissenschaftliche Berichte, die keinem Peer-Review unterzogen wurden und daher nicht als schlüssig angesehen werden sollten, die klinische Praxis / gesundheitsbezogenes Verhalten leiten oder als etablierte Informationen behandelt werden sollten.

.

Leave a Reply

Your email address will not be published.