#Futureshaper

Die Daten-Dirigentin

Um Künstliche Intelligenz (KI) für die Medizintechnik zu entwickeln, brauchen unsere Wissenschaftler*innen vor allem eines: kolossale Mengen an vielseitigen, korrekten und sicheren medizinischen Daten. Ren-Yi Lo, Head of Big Data Office, kümmert sich darum, diese Daten zu beschaffen, aufzubereiten und zu ordnen. Was das alles mit Musik zu tun hat? Das und mehr erfahren Sie in Teil sechs unserer Serie #Futureshaper.

8min
Katja Gäbelein
Veröffentlicht am March 6, 2023

Ein „Data Lake“ – das ist im Prinzip das, was der Name schon sagt: Ein riesiger „See“ aus halbstrukturierten Daten. Einen solchen Data Lake managt Ren-Yi Lo gemeinsam mit ihrem internationalen Team am Siemens Healthineers Standort Princeton im U.S.-Bundesstaat New Jersey.

Der Data Lake der Abteilung „Digital Technology & Innovation“, für den Ren-Yi verantwortlich ist, umfasst rund 1,5 Milliarden Datenpunkte – bestehend aus klinischen Bildern, Berichten und zusätzlich Milliarden Labordiagnosedaten. „Wenn ich diese Zahlen laut ausspreche, finde ich sie selbst unglaublich“, gesteht sie lachend. Das sind wirklich "Big Data"1.  

Große Datenmengen, die zu analytischen Forschungszwecken gespeichert, weiterverarbeitet und ausgewertet werden. Big Data charakterisieren sich u.a. durch ihr Volumen und die Vielfalt der Datentypen und -quellen.

Porträt mit Rückansicht von Ren-Yi Lo. Sie steht am Ufer eines Sees und blickt lächelnd zur linken Seite.

Die wertvollen klinischen Daten können in bahnbrechende Innovationen für das Gesundheitswesen verwandelt werden: Sie dienen den ca. 250 Kolleg*innen aus dem KI-Team, die an verschiedenen globalen Standorten für die Siemens Healthineers Abteilung „Digital Technology & Innovation“ arbeiten, als Basis, um
Künstliche Intelligenz2 für neue Anwendungen im medizinischen Bereich zu entwickeln. 

KI ist ein zentraler Pfeiler für die Zukunft der Medizintechnik: Beispielsweise kann sie Routineprozesse entlang des Behandlungspfades automatisieren und damit Gesundheitsfachkräfte bei ihrer täglichen Arbeit entlasten.

„Künstliche Intelligenz bezeichnet die Fähigkeit von Computersystemen, auf sie zugeschnittene Aufgaben selbsttätig zu lösen, die aufgrund ihrer Komplexität bislang menschliche Fähigkeiten erforderten.“

Künstliche Intelligenz basiert auf Algorithmen, die mit einer großen Menge anonymisierter und kuratierter3  Daten aus dem Data Lake trainiert wurden. Erst nach diesem Training können die Algorithmen in der klinischen Routine eingesetzt werden. 

Dabei sind Menge und Qualität der Daten, die für Training und Validierung verwendet wurden, entscheidend: Je größer die Menge an Qualitätsdaten, desto besser gelingt es, Verzerrungen zu vermeiden, und desto präziser arbeitet das spätere Rechenmodell.

Die aktive und fortlaufende Verwaltung von Daten während ihres Lebenszyklus, die nützlich für die Forschung sind. Kuratierungsaktivitäten erhalten die Datenqualität und generieren Mehrwert aus den gesammelten Daten.

Ren-Yi Lo kümmert sich als Head of Big Data Office gemeinsam mit ihrem Team darum, diese riesigen Datenmengen zu beschaffen, aufzubereiten und zu ordnen. Eine Arbeit, die meist unsichtbar im Hintergrund abläuft, und doch so essenziell ist. Metaphorisch gesprochen, könnte man sagen: Ren-Yi und ihr Team sorgen dafür, den „Datensee“ zu befüllen. Sie verhindern, dass er unkontrolliert „ausläuft“, oder dass etwas darin „ertrinkt“.

Ebenfalls interessiert, unserem passionierten Team beizutreten?

Besuchen Sie unser Karriere-Portal

Portrait of a smiling Ren-Yi Lo.

* Bedeutung: Eine Frau, die in sehr vielen Bereichen kompetent ist, ohne in einem Bereich über absolutes Expertenwissen zu verfügen.

Ren-Yi, deren Eltern chinesische Wurzeln besitzen und in Deutschland und den USA gelebt haben, hat Informatik mit einem Schwerpunkt in Systemtechnik studiert. „Meine Arbeit heute als Head of Big Data Office ist aber wesentlich vielseitiger als mein Studium“, sagt die 40-Jährige mit einem Lächeln: „Eigentlich ist es mein Job, komplexe Probleme zu lösen.“ 

Damit das klappt, muss sie unterschiedliche Fachsprachen sprechen, um verschiedene Interessengruppen zu koordinieren: „Medizinisch“ mit klinischen Partnern, von denen die Daten stammen, „Technisch“ und „Software“ mit KI-Forschungsgruppen, Entwickler*innen und ihrem Team vom Big Data Office. „Juristisch“ mit Kolleg*innen der Datenschutz-, Rechts- oder Patent-Abteilung.

Um Probleme von vielen Seiten betrachten zu können, hilft es Ren-Yi auch, dass sie einen vielschichtigen biografischen Hintergrund hat: Durch den internationalen Umzug in der Kindheit spricht sie neben Englisch bis heute perfekt Deutsch. Und nicht nur ihre Sprachkenntnisse sind facettenreich:

Welche Daten brauchen KI-Wissenschaftler*innen für ihre Forschungsarbeit? „Das ist sehr unterschiedlich und hängt vom jeweiligen Forschungsprojekt ab,“ erklärt Ren-Yi. Zum Beispiel arbeiten KI-Wissenschafter*innen aktuell an einem Projekt, bei dem die Labordiagnostik mithilfe von Künstlicher Intelligenz optimiert werden soll. 

Lernen Sie AI Research Scientist Rayal Raj Prasad kennen, der an der Schnittstelle von Wissenschaft und Technologie arbeitet, um Herausforderungen in der Labordiagnostik zu lösen.

Mehr lesen

Ein anderes Projekt forscht an einem digitalen Zwilling der Leber. Zu Beginn der Arbeit kommt das Forscher*innenteam auf Ren-Yi zu, um mit ihr gemeinsam zu definieren, welche Daten es benötigt und was potenzielle Quellen dafür sein könnten. Datenarten gibt es unzählige. Grob zusammengefasst sind es fünf unterschiedliche Datentypen, die bei Siemens Healthineers für das Training von KI-Algorithmen verwendet werden:

Senior AI Research Scientist Chloé Audigier forscht an einem digitalen Zwilling der menschlichen Leber. Solche Modelle können Mediziner*innen helfen, mehrere Therapieoptionen zu simulieren.

Mehr lesen

Diese unterschiedlichen Datenarten müssen später im Data Lake geordnet abgelegt und wiederauffindbar gespeichert werden. 

Eine weitere Herausforderung für Ren-Yi und ihr Team: Für die Entwicklung von zuverlässigen, vertrauenswürdigen KI-Algorithmen müssen Daten aus den passenden Kohorten4 für die Tests zur Verfügung stehen: „Das bedeutet, wir brauchen bei der Datengewinnung eine ausgewogene Verteilung zwischen Menschen verschiedenen Geschlechts und Alters, verschiedener ethnischer Zugehörigkeit, zwischen Kranken und Gesunden, und so weiter.“ Die für das jeweilige Projekt herangezogenen Daten müssen die Statistiken der Bevölkerung repräsentieren, für die die späteren KI-Systeme bestimmt sind, und das zu lösende Problem: „Sonst könnte es innerhalb der KI zu einem ,Bias´ kommen“, erklärt Ren-Yi, einer Verzerrung oder Abweichung von der Realität in den Ergebnissen: „Es muss unser Ziel sein, Ungerechtigkeit innerhalb der KI zu verhindern.“ 

Und woher stammen die Daten? „Wir arbeiten mit einem Netzwerk aus rund 175 Partnern auf der ganzen Welt zusammen, um die passenden Daten zu beschaffen,“ sagt Ren-Yi nicht ohne Stolz. Darunter seien viele renommierte medizinische Zentren, Krankenhäuser und Universitätskliniken.

„Im medizinischen Sinn handelt es sich bei einer Kohorte um eine Gruppe von Patient*innen mit vergleichbaren Symptomen oder anderen Gemeinsamkeiten, die über eine bestimmte Zeitspanne beobachtet werden.“

Bevor die Daten für KI-Forschungsprojekte verwendet werden dürfen, müssen sie einen komplexen standardisierten Prozess durchlaufen, um für größtmögliche Sicherheit zu sorgen. Immerhin arbeiten wir hier mit den sensibelsten persönlichen Informationen überhaupt, dessen ist sich Ren-Yi bewusst: „Jeder einzelne Datenpunkt, den wir für das KI-Training nutzen, stammt von Patient*innen. Und Patient*innen sind Individuen, deren Rechte wir unbedingt schützen müssen.“

Grafische Darstellung des Datenlebenszyklus Prozesses mit seinen drei übergeordneten Schritten „Neue Partner akquirieren“, „Daten aufbereiten“ und „Daten managen“.

Daher werden vor dem Datentransfer mit jedem Datenlieferanten detaillierte Verträge geschlossen, an deren Inhalt Ren-Yi gemeinsam mit Kolleg*innen aus der Rechtsabteilung und Collaboration-Manager*innen des jeweiligen Geschäftsbereiches arbeitet. Die Vertragswerke enthalten Informationen wie: Welche gesetzlichen Vorgaben zur Datenspeicherung und -verarbeitung gelten (wie zum Beispiel die DSGVO)5 ? Wie genau werden die Daten genutzt und gespeichert? Wer genau darf sie verwenden? 

„Das alles wird ganz individuell geregelt.“ Ren-Yi und ihr Team sorgen bei der Registrierung der Daten beispielsweise mithilfe einer ausgeklügelten digitalen Tool-Landschaft dafür, dass nur die vertraglich festgelegte Personengruppe Zugang zum jeweiligen Datenpool hat. 

Die Datenschutz-Grundverordnung ist eine Verordnung der Europäischen Union zum Schutz personenbezogener Daten innerhalb der EU. Sie trat am 25. Mai 2018 in Kraft und ist derzeit das strengste Datenschutzgesetz der Welt.

Noch bevor der sichere Transfer in den Data Lake stattfinden kann, werden die Daten beim jeweiligen Datenlieferanten aus Datenschutzgründen anonymisiert. Das heißt, alle Informationen, die direkte Rückschlüsse auf die Person zulassen, von der sie stammen, werden entfernt. „Zum Beispiel löscht der Datenlieferant Namen, Geburtsdaten und Adressen. Für unsere KI-Trainings sind diese Informationen ohnehin nicht relevant“, erklärt Ren-Yi. 

Das Team validiert die bereits anonymisierten Daten nach Eingang gemäß dem Mehraugenprinzip und mithilfe spezieller Tools. Das heißt, es überprüft sie auf verschiedene Qualitäts-Aspekte hin: 

Von zentraler Bedeutung ist auch die korrekte Indexierung der Daten im Rahmen der Kuratierung bzw. Verwaltung – sozusagen deren sinnvolle „Ablage“. Den Daten werden dabei unter anderem bestimmte Suchkriterien wie Schlagwörter hinzugefügt. So bleiben sie jederzeit wieder auffindbar, falls sie beispielsweise nachträglich Prüfungen durch Behörden wie der FDA6 unterzogen werden müssen. 

Auch wenn ein Partner oder ein*e Patient*in im Nachgang seine*ihre Zustimmung widerruft oder die Daten schlicht nicht mehr benötigt werden, muss es technisch möglich sein, genau diesen Datensatz wieder aus dem Data Lake heraus zu „fischen“ und zu löschen.

Die U.S. Food and Drug Administration, kurz FDA, ist die Lebensmittelüberwachungs- und Arzneimittelbehörde der USA und dem US-Gesundheitsministerium unterstellt. Sie kontrolliert u.a. die Sicherheit und Wirksamkeit von Arznei- und Medizinprodukten. 

Und wo sind die Daten physisch gespeichert? Die „Digital Technology & Innovation“-Abteilung in Princeton, der auch Ren-Yi angehört, hat eine eigene Supercomputing-Infrastruktur aufgebaut, in der die Daten für den Data Lake zusammen mit dem KI-Training verwaltet werden: Den Sherlock Supercomputer, einen der leistungsstärksten Supercomputer für die Entwicklung von KI im Bereich der Medizintechnikunternehmen. 

Auf dem heutigen Stand hat Sherlock eine Verarbeitungsgeschwindigkeit von 100 Petaflops. Das bedeutet, er schafft 100-mal eine Billiarde Rechenoperationen – pro Sekunde. „Schon wieder so eine Wahnsinns-Zahl“, lacht Ren-Yi.

Und mit großen Zahlen geht es weiter: Der Data Lake hat derzeit eine Speicherkapazität von einem Petabyte, die Sherlock Supercomputing-Plattform verfügt über 13 Petabytes an Speicherplatz. Dabei entspricht ein Petabyte umgerechnet 1024 Terabytes. Und auch hier erfüllt das Big Data Office eine wichtige Aufgabe in Bezug auf Cyber Security und Ausfallmanagement: „Wir stellen zu jeder Zeit sicher, dass wir Backups und Disaster-Recovery-Pläne für die Daten in unserem Data Lake haben“, erklärt Ren-Yi. 

Mit den Daten aus dem Data Lake und der Supercomputing-Power von Sherlock können die Forscher*innen rund 1200 KI-Experimente pro Tag durchführen. Ren-Yi ist stolz auf den Beitrag, den sie mit ihrem Team zum Thema Datenmanagement leistet:

Ein Terabyte (TB) ist eine Einheit zur Benennung von Datenmengen oder Speicherkapazitäten. Es entspricht zehn hoch zwölf = 1.000.000.000.000 Bytes. Ein Byte besteht aus acht Bits. Ein Bit ist die kleinste digitale Speichereinheit.

KI wird im klinischen Alltag künftig unverzichtbar sein, um eine wachsende Datenmenge in entscheidungsrelevantes Wissen zu übersetzen. Bereits heute kann beispielsweise der AI Rad Companion, unsere Familie von KI-gestützten Workflow-Lösungen, medizinisches Personal bei Routineabläufen entlasten.

Hier finden Sie Informationen über unser System zur Entscheidungsunterstützung für die multimodale Bildgebung. Es kann u.a. die diagnostische Präzision bei der Beurteilung medizinischer Bilder erhöhen:

Mehr Informationen

Digitale Modelle auf Basis von KI können helfen, den Gesundheitsstatus von Menschen besser zu verstehen, um Veränderungen vorherzusagen und Therapieoptionen individueller zu planen – für bessere Behandlungsergebnisse.

Um dieses Potenzial nutzen zu können, braucht es Menschen wie Ren-Yi und ihr Team, die meist unsichtbar und im Hintergrund wertvolle und schutzbedürftige Daten „dirigieren“ und behüten – und damit KI und die Forschung daran erst möglich machen. 

© Fotografie: Markus Ulbrich
© Video: Markus Ulbrich (Regie, Kamera); 
Cagdas Cubuk (Kamera, Ton); 
Lisa Fiedler (Schnitt); Katja Gäbelein (Konzept) 
© Motion Graphics: Viola Wolfermann
© Grafiken: Stefanie Schubert, Bianca Schmitt


Von Katja Gäbelein

Katja Gäbelein ist Redakteurin in der Unternehmenskommunikation bei Siemens Healthineers und spezialisiert auf Technologie- und Innovationsthemen. Sie arbeitet als Autorin für Text und Film. 

Redaktionsassistenz: Guadalupe Sanchez