German Medical Text Corpus (GeMTeX)

Projektziele von GeMTeX: Ein Überblick

Das Hauptziel des GeMTeX-Projekts ist die Erstellung eines umfangreichen, annotierten Textkorpus deutscher medizinischer Texte aus der Routineversorgung von Patienten. Geplant ist die Extraktion von Dokumenten aus den elektronischen Gesundheitsakten (ePA) von sechs Universitätskliniken, deren Patienten zuvor ihre Einwilligung gegeben haben. In einer konzertierten Aktion werden diese Dokumente in annotierte Textkorpora umgewandelt und in mehreren Dimensionen tiefgehend annotiert. Nach der Anonymisierung sollen diese Dokumente gemeinsam genutzt werden, um neue Ressourcen für Forschung und Entwicklung zu schaffen. Der Fortschritt im Bereich des klinischen Natural Language Processing (NLP) hängt entscheidend von speziell trainierten Sprachmodellen ab, die auf authentische klinische Dokumente angewiesen sind. GeMTeX adressiert zwei wesentliche Engpässe, die bislang die Entwicklung deutscher klinischer Sprachmodelle verhindert haben: den Zugang zu Daten und die Annotation dieser Daten.

Die Medizininformatik-Initiative (MII) bietet eine einzigartige Gelegenheit, klinische Dokumente in großem Umfang zugänglich zu machen und mit Annotationen anzureichern. Ein deutscher medizinischer Textkorpus wird die Entwicklung von NLP-Ressourcen fördern, die die Analyse deutscher klinischer Texte unterstützen. GeMTeX wird eine technische und organisatorische Struktur schaffen, um anonymisierte Texte prospektiv zu sammeln und sie nach festgelegten Annotationsrichtlinien zu annotieren. Dabei wird ein breites Spektrum von Annotationsaufgaben abgedeckt, erprobt, validiert und in großem Maßstab angewandt, um eine einzigartige Ressource zu schaffen. KI-Modelle, die mit dieser Ressource trainiert wurden, werden im Hinblick auf ihren Wert in konkreten disziplinären Anwendungsszenarien analysiert. Die annotierten Textdokumente und die Modelle werden über die Zentralbibliothek für Medizin (ZBMED) und das DFG-geförderte Projekt NFDI4Health, mit dem GeMTeX eng zusammenarbeitet, öffentlich zugänglich gemacht.

Der Fokus der Arbeit liegt auf der Administration, der Wissenschaftskoordination sowie der Gesamtprojektleitung, der Dokumentenverarbeitung und Annotation, zentralen Annotationsdiensten und der Entwicklung von Methoden, Korpus-bezogenen Diensten und Werkzeugen.

Forschungsleiter: Martin Boeker

Projektkoordination und Verwaltung

Die übergeordneten Aufgaben umfassen die Projektleitung, das wissenschaftliche Management, das zentrale Projektmanagement und die zentrale Kontrolle der standortübergreifenden Annotation. Der Standort München TUM ist in diesem Bereich federführend. Die spezifischen Aufgaben umfassen die wissenschaftliche Koordination und die Erstellung eines generischen Studienprotokolls, das die wissenschaftliche Nutzung des Korpus beschreibt und als Grundlage für ein übergreifendes Ethikvotum sowie eine datenschutzrechtliche Bewertung dient. Außerdem koordiniert TUM die Annotationsaufgaben, indem es den Standorten spezifische Annotationsaufgaben zuweist und diese überwacht.

Zentrale Methoden und Werkzeuge

Dieser Bereich stellt zentrale Methoden und Strukturen für GeMTeX bereit, um den Annotationsprozess zu unterstützen, zu überwachen und die Ergebnisse öffentlich zugänglich zu machen. Im Mittelpunkt steht die Annotationsplattform INCEpTION, die an die Bedürfnisse von GeMTeX angepasst wird. Standortspezifische Daten werden über INCEpTION abgefragt und zentral angezeigt. Ergebnisse und Entwicklungen aus den unterstützenden Projekten werden gesammelt, dokumentiert und öffentlich zugänglich gemacht. Industriepartner integrieren ihre Werkzeuge zur wissenschaftlichen Textanalyse in das Projekt. München TUM führt diesen Bereich an und sorgt für ein zentrales Repository, in dem Methoden, Modelle und Werkzeuge von GeMTeX bereitgestellt werden.

Dokumentenverarbeitung und Annotation

In diesem Kernarbeitsbereich werden die Dokumente annotiert. Vorausgesetzt wird die Bereitstellung von Dokumenten sowie die Leitung und Schulung der Annotationsteams an jedem der beteiligten Standorte, basierend auf Annotationsrichtlinien und Materialien. Der Standort München TUM leitet diesen Bereich und ist verantwortlich für den Zugang zu Dokumenten, deren Vorverarbeitung, das Management und die Schulung der Annotationsteams sowie die eigentliche Annotation.

Zentrale Annotationsdienste

Dieser Bereich schließt die Lücke zwischen Prinzipien und Ressourcen der formalen Ontologie und semantischen Standards in der Medizin. Es wird ein Annotationsleitfaden erstellt, der in verschiedenen Phasen aktualisiert und veröffentlicht wird. Eine modulare Annotatorenschulung wird eingerichtet, die auf Blended Learning basiert. Die Aufgaben umfassen die Ableitung einer priorisierten Liste relevanter Entitäts- und Relationstypen aus klinischen Texten, die formale Beschreibung dieser Typen und die Sicherstellung der universellen Verwendbarkeit der trainierten Sprachmodelle.

Korpus-bezogene Dienste und Werkzeuge

Dieser Bereich stellt Methoden, Modelle und Werkzeuge zur Entwicklung, Pflege und Nutzung des GeMTeX-Korpus bereit. Es umfasst die Erstellung eines vollverteilten synthetischen klinischen Referenzkorpus zur Qualitätskontrolle und die Bereitstellung von Standard-Qualitätsmetriken zur Qualitätskontrolle und -pflege.

Durch diese umfassende Herangehensweise soll GeMTeX eine einzigartige Ressource schaffen, die die Nutzung von KI im medizinischen Bereich erheblich vorantreibt und verbessert.

NUM Geschäftsstelle TUM Medizin
 
Kontakt:
Forschungsleiter
Univ.-Prof. Dr. Martin Boeker
Univ.-Prof. Dr. Martin Boeker