Oftmals werden heutzutage die Datenflut und deren Herausforderungen thematisiert – nicht zuletzt ist der Begriff Big Data allgegenwärtig. Tatsächlich ist es beim Maschinellen Lernen und den sich daraus ableitenden Anwendungen der Künstlichen Intelligenz häufig ein Problem, dass zu wenige Trainingsdaten vorhanden sind. Gerade im Umfeld medizinischer bzw. pharmakologischer Anwendungen gibt es oft nicht genügend Probanden, bei denen etwa auf Röntgenbildern das Vorhandensein einer bestimmten Symptomatik erkennbar wäre oder die im Rahmen von Studien zur Wirksamkeit von Arzneimitteln teilnehmen.
Während es im Zusammenhang mit Bildern einige bewährte Verfahren gibt, wie man die Datenmenge durch sog. Data Augmentation erhöhen kann, ist dies bei tabellarischen Daten im Rahmen klinischer Studien nicht so einfach möglich. Darüber hinaus ist auch darauf zu achten, dass die angereicherten Daten weiterhin realistisch bleiben: die sehr häufig anzutreffenden Methoden der Spiegelung oder der Veränderung von Farbwerten sind bei schwarz-weißen Röntgenbildern sicher nicht anwendbar.
Allerdings gibt es einen völlig anderen Ansatz, sich der Thematik zu nähern, der auch gleichzeitig noch datenschutzrechtlich unbedenklich ist: die Generierung synthetischer Daten mit den gleichen (statistischen) Eigenschaften wie die realen Daten mittels sog. Generative Adversarial Networks (GANs), einer speziellen Form des Maschinellen Lernens. Unter Einsatz dieser Methode konnte von DASU-Experten beispielsweise die Erkennungsrate für Covid-19 auf Röntgenbildern der Lunge enorm gesteigert werden. Ferner konnte die Eignung des Ansatzes auch im Kontext klinischer Studien nachgewiesen werden.
Die Generierung synthetischer Daten mittels GANs kann somit immer dann erwogen werden, wenn die Erhebung realer Daten in ausreichender Zahl zu aufwändig, zu teuer oder gar unzulässig ist.