Synthetische Daten replizieren genau die Ergebnisse von Analysen aus echten COVID-19-Patientendaten

Forschung unter der Leitung der Washington University School of Medicine in St. Louis hat gezeigt, dass die Analyse synthetischer Daten, die von echten COVID-19-Patienten generiert wurden, die Ergebnisse derselben Analysen, die an echten Patientendaten durchgeführt wurden, genau repliziert. Die School of Medicine ist landesweit führend bei der Bereitstellung und Bewertung von Technologien für die Produktion synthetischer Daten, die für die landesweite Zusammenarbeit beim Datenaustausch von entscheidender Bedeutung sind.

Bei der Betreuung von COVID-19-Patienten haben Angehörige der Gesundheitsberufe im ganzen Land eine Fundgrube an Informationen über SARS-CoV-2, seine sich entwickelnden Varianten wie Delta und Omicron und ihre Auswirkungen auf den menschlichen Körper und die öffentliche Gesundheit angehäuft. Solche Daten, die in den elektronischen Krankenakten der Patienten gesammelt werden, sind für das Verständnis des Virus und die Entwicklung von Behandlungen von entscheidender Bedeutung. Für Forscher war es jedoch schwierig, nationale Daten aus Krankenakten zu erhalten, da wichtige Prozesse, die die Privatsphäre der Patienten gewährleisten, auch den Zugriff auf die Daten verlangsamen.

Eine Initiative, die vom National Center for Advancing Translational Sciences der National Institutes of Health (NIH) finanziert und von der Washington University School of Medicine in St. Petersburg mit geleitet wird. Louis hat sich die Tools von Big Data und fortschrittlicher Berechnung zunutze gemacht, um Forschern riesige Mengen synthetischer Daten zur Verfügung zu stellen – die echten Patientendaten nachempfunden sind –, die für das Verständnis von COVID-19 unerlässlich sind und gleichzeitig die Privatsphäre und Vertraulichkeit der Patienten schützen.

Die Washington University School of Medicine, die ebenfalls Teil des Center for Data to Health und der National COVID Cohort Collaborative (N3C) ist, war national führend bei der Bereitstellung und Bewertung von Technologien für die Produktion synthetischer Daten, die für die Zusammenarbeit beim Datenaustausch von entscheidender Bedeutung sind quer durchs Land.

Die Erstellung synthetischer Daten ist die Spezialität von MDClone, einem Unternehmen für Gesundheitsinformatik, das mit der Washington University und anderen akademischen medizinischen Zentren zusammengearbeitet hat, um dazu beizutragen, synthetische Daten für Forscher breiter verfügbar zu machen. Synthetische Daten werden künstlich generiert, basierend auf tatsächlichen Patientendaten, aber nicht direkt aus individuellen Aufzeichnungen abgeleitet, wodurch das Risiko, dass solche Daten zur Identifizierung dieser Personen verwendet werden können, erheblich verringert wird. Anstelle der traditionellen Methoden zum Verschleiern der Identität von Patienten in Datensätzen – wie das Löschen von Namen, Geburtsdaten und anderen identifizierenden Informationen – umfasst die Generierung synthetischer Daten die Erstellung einer neuen Gruppe simulierter Patienten, die insgesamt die statistischen Merkmale von reproduzieren die realen Patienten, wie Messungen des Blutdrucks, des Body-Mass-Index und der Nierenfunktion. Die Identitäten und die Privatsphäre der echten Patienten werden geschützt, da die simulierten Patienten keine direkten Gegenstücke in den echten Daten haben.

Forschungsergebnisse, die in zwei von der Washington University School of Medicine geleiteten Studien veröffentlicht wurden, haben gezeigt, dass die Analyse synthetischer Daten, die von echten COVID-19-Patienten generiert wurden, die Ergebnisse derselben Analysen, die an echten Patientendaten durchgeführt wurden, genau repliziert. Darüber hinaus spiegeln die synthetischen Daten nicht nur die Merkmale des Patienten in großem Maßstab genau wider, sondern bilden auch die Ausbreitung und die Auswirkungen der Pandemie im Laufe der Zeit und über dicht getestete geografische Gebiete hinweg genau nach, was Untersuchungen zur Ausbreitung und Auswirkung des Virus auf eine Bevölkerung ermöglicht Stufe.

Eine Studie wurde im Journal of the American Medical Informatics Association veröffentlicht. Die zweite Studie ist online im Journal of Medical Internet Research verfügbar.

Wir haben gezeigt, dass wir ausgefeilte Vorhersagen darüber treffen können, was in einer Bevölkerung mit einer Krankheit wie COVID-19 passieren wird. Es ist von entscheidender Bedeutung, dass wir die Rechte der Patienten auf Privatsphäre und Vertraulichkeit schützen und gleichzeitig rechtzeitig auf die Bedrohung durch COVID-19 reagieren. Keine einzelne Institution kann diese Anforderungen alleine erfüllen. Durch die einzigartigen Möglichkeiten, die die Verwendung synthetischer Daten bietet, beschleunigen wir unsere Bemühungen zur Diagnose, Behandlung und, was vielleicht am wichtigsten ist, zur Vorbeugung dieser Krankheit und zeigen gleichzeitig, wie wir effektiver auf zukünftige Notfälle im Bereich der öffentlichen Gesundheit reagieren können.

Philip Payne, PhD, Co-Autor und Hauptforscher, Janet- und Bernard-Becker-Professor, leitender Datenwissenschaftler und Direktor des Instituts für Informatik an der Washington University

Die Verwendung synthetischer Daten reduziert regulatorische Barrieren, die normalerweise eine weit verbreitete gemeinsame Nutzung und Integration von Patientendaten über mehrere Organisationen hinweg verhindern. Die Möglichkeit, synthetische Patientendaten auszutauschen, ermöglicht es Forschern, riesige Datenmengen aus dem ganzen Land zu analysieren, anstatt sich auf die Daten ihrer einzelnen Einrichtungen zu beschränken. Forscher auf der ganzen Welt könnten Zugang zu den synthetischen Daten einer Institution beantragen, um ihre eigenen Studien durchzuführen. Diese Fähigkeit erhöht den Umfang und die Effizienz einer solchen Forschung und reduziert gleichzeitig potenzielle Verzerrungen in den daraus resultierenden Ergebnissen.

Bis heute umfasst der synthetische N3C-Datensatz Daten von 72 Institutionen im ganzen Land und enthält Datensätze, die 13 Millionen Patienten repräsentieren. Davon hatten etwa 5 Millionen Patienten einen positiven COVID-19-Test. Mit den massiven synthetischen Datensätzen, die aus dieser Ressource generiert werden, können Forscher in den Daten nach Mustern suchen, die bei kleineren Stichprobenumfängen nicht auftauchen würden. Mithilfe modernster Informatik- und Data-Science-Tools wie Mustererkennung und Techniken des maschinellen Lernens könnten die Daten Kriterien identifizieren, die vorhersagen, bei welchen Patienten das höchste Risiko besteht, dass sie Intensivpflege oder Beatmung benötigen. Es könnte auch helfen, Muster in Behandlungsstrategien zu erkennen, um festzustellen, ob Medikamente, die ein COVID-19-Patient bereits gegen eine andere Erkrankung einnimmt – beispielsweise ein Blutverdünner für Herzerkrankungen – im Vergleich zu Patienten, die dieses Medikament nicht einnehmen, schützend oder schädlich sein könnten.

Das erste Papier zeigte, dass die synthetischen Daten die demografischen und klinischen Merkmale der Patienten im ursprünglichen N3C-Datensatz genau reproduzierten. Synthetische Daten könnten auch verwendet werden, um das Risiko einer Krankenhauseinweisung oder Wiederaufnahme für Patienten, bei denen COVID-19 diagnostiziert wurde, genau vorherzusagen. Darüber hinaus wurden Epidemiekurven auf Bevölkerungsebene, wie z. B. die Anzahl der Fälle pro Tag, die Anzahl der Krankenhauseinweisungen und Todesfälle pro Tag und die gleitenden Sieben-Tage-Durchschnittswerte positiver Fälle über bestimmte Zeiträume, ebenfalls genau durch synthetische Daten reproduziert. Das zweite Papier beinhaltete eine tiefere Analyse der Epidemiekurven in Untergruppen von Bevölkerungsgruppen, die in bestimmten Postleitzahlen leben. Auch in diesem Fall ahmte der synthetische Datensatz die Ausbreitung der Pandemie über verschiedene geografische Regionen hinweg genau nach, solange diese Regionen dicht auf COVID-19 getestet wurden. Analysen im zweiten Papier mit kleinen Stichprobenumfängen oder Populationen waren weniger in der Lage, die Ergebnisse im realen Datensatz zu reproduzieren.

“Die Möglichkeit, bestimmte Postleitzahlen einzusehen, ist bei der Analyse einer Pandemie äußerst wichtig, da die sozialen Determinanten der Gesundheit je nach Wohnort eines Patienten variieren”, sagte Adam Wilcox, PhD, Professor für Medizin und leitender Autor beider Studien. „Wir wissen, dass soziale Determinanten der Gesundheit – wie der Zugang zu Gesundheitsversorgung, Bildung und wirtschaftliche Stabilität – mit der Übertragung und den Folgen von COVID-19 zusammenhängen. Diese Analyse zeigt, dass wir synthetische Daten verwenden können, um verschiedene Dynamiken einer Pandemie zu untersuchen, einschließlich des Wie Die Pandemie ändert sich im Laufe der Zeit und im gesamten geografischen Gebiet. Diese Papiere stellen eine wirklich gründliche Untersuchung der Möglichkeiten synthetischer Daten für die Pandemiemodellierung dar. “

Laut den Forschern können synthetische Daten am besten darstellen, was auf einer breiten Bevölkerungsebene passiert, aber sie sind nicht so gut darin, Ausreißer zu analysieren. Ausreißer, die eine kleine Anzahl von Patienten mit Kombinationen seltener Merkmale oder Situationen betreffen, in denen eine geografische Region nur sehr wenige Menschen enthält, wie z. B. in ländlichen Postleitzahlen, werden absichtlich aus synthetischen Datensätzen ausgeschlossen, um die Privatsphäre von Personen, die möglicherweise in diese Kategorien fallen, weiter zu schützen. Im Allgemeinen ist es jedoch für Datenanalysen schwierig, repräsentativ zu sein, wenn man kleine Zahlen betrachtet, sodass diese Herausforderung nicht nur für synthetische Daten gilt.

„Wir testen weiterhin die Grenzen dessen, was wir mit synthetischen Daten machen können, damit wir die beste Verwendung dieser Art von Daten und auch die Situationen verstehen, in denen wir auf die Originaldaten zurückgreifen müssen“, sagte Randi Foraker, PhD. ein Professor für Medizin und der Erstautor der zweiten Studie und ein Co-Autor der ersten Studie. „Es gibt Situationen, in denen synthetische Daten möglicherweise nicht so genau sind wie die Originaldaten, und wir müssen diese kennen, um die bestmöglichen Methoden zur Analyse eines bestimmten Datensatzes auswählen zu können.“

Die Forscher sagten, dass die Daten in großem Maßstab die Vorhersage zukünftiger Hotspots von COVID-19 ermöglichen, sodass sich diese Gebiete auf ein Worst-Case-Szenario vorbereiten und möglicherweise abwenden können. Die jetzt vorhandenen synthetischen Datensysteme werden Forschern auch dabei helfen, schneller auf eine zukünftige Pandemie zu reagieren. Payne vergleicht es mit Wettervorhersagen.

„Wir versuchen, das Hurrikan-Track-Äquivalent für Pandemien zu bauen, indem wir große Datenmengen verwenden“, sagte Payne. „Wenn Wettervorhersagen funktionieren, liegt das daran, dass sie viele frühere Daten haben, aus denen sie lernen können, und sie können diese auf das anwenden, was sie jetzt beobachten. Dann erstellen sie eine Vielzahl verschiedener Modelle, die Zukunftsszenarien vorhersagen – in diesem Fall , potenzielle Wege des Hurrikans – und die jeweiligen Wahrscheinlichkeiten. Wir bauen Werkzeuge, um genau das Gleiche zu tun, aber für Pandemien von Infektionskrankheiten.“

Quelle:

Zeitschriftenreferenz:

Foraker, RE, et al. (2022) Finde den Unterschied: Vergleich von Analyseergebnissen aus echten Patientendaten und synthetischen Derivaten. JAMIA geöffnet. doi.org/10.1093/jamiaopen/ooaa060.

.

Leave a Reply

Your email address will not be published.