Datensätze

Fiktive Nephrologie-Verlaufsnotizen
Der übersichtliche Datensatz besteht aus fiktiven Verlaufsnotizen, die von mit genuinen Dokumenten vertrauten (Medizin- sowie Linguistik-)Studierenden verfasst wurden. Der Datensatz wurde zum Zwecke der Reflexion des authentischen Vokabulars sowie sprachlicher Merkmale klinischer Ausdrucksweise erstellt. Die Daten mögen daher aus medizinischer Sicht nicht vollkommen authentisch sein. Download

German NegEx Trigger-Set
Dies ist ein Satz von Trigger-Wörtern, welches explizit zur Negationserkennung in deutschsprachigen Arztbriefen sowie Verlaufsnotizen entwickelt wurde. Für weitere Information siehe hier. Download

Tools & Modelle

Dependenzenparser für deutsche klinische Daten
Auf der Basis des Stanford Parsers (SP) wurde ein speziell für deutschsprachige klinische Daten entwickelter domain-adaptierter Dependenzparser kreiiert. Nach dem Vortrainieren des Models auf allgemeinen klinischen Daten wurde dieses anschließend auf einem kleinen nephrologischen Datensatz re-trainiert. Das Model sowie weitere Information sind hier zur öffentlichen Verfügung gestellt.

Biomedizinischer CharTranslator
Zahlreiche NLP-Aufgaben wenden eine Konzept-Normalisierung an, die eine gegebene Erwähnung mit einen eindeutigen Konzept innerhalb einer Ontologie verknüpfen. Eine Anwendung dieser Aufgabenstellung auf eine andere Sprache (außer Englisch) ist mit Schwierigkeiten verbunden, da anderssprachige Daten häufig unterrepräsentiert sind. Außerdem sind zahlreiche biomedizinische Begriffe griechischen und lateinischen Ursprungs. Unter Berücksichtigung dieser Charakteristika sowie weiterer Besonderheiten beider Sprachen, können zahlreiche biomedizinische Begriffe auf eine einfache Weise von einer in die andere Sprache übersetzt werden. Basierend auf dieser Idee verwendet der biomedizinische CharTranslator einen einfachen neuronalen Übersetzer auf Charakterebene. Zur Steigerung der Normalisierung können im ersten Schritt "unbekannte" Begriffe übersetzt werden, die Suche wird anschließend um englische Daten erweitert. Das Tool sowie die zugehörige Modelle werden hier bereitgestellt.