Datensätze

Biomedizinische diachronische Konzept-Embeddings
Die biomedizinischen diachronischen Konzept-Embeddings wurden auf verschiedenen PUBMED Texten trainiert um Veränderungen im medizinischen Wissen zu erforschen. Zunächst wurden biomedizinische Publikationen aus PUBMED extrahiert, dann nach ihrem Erscheinungsdatum sortiert und entsprechende medizinische Konzepte mittels MetaMap zugeordnet. Auf diesen Zeitabschnitten wurden Embeddings trainiert die das semantische Wissen über ein Konzept in einem bestimmten Zeitraum beinhalten. Die Generierung der chronologischen Embeddings ist hier detaillierter beschrieben. Zur Verwendung der Embeddings, wird eine komprimierte HDFS-Datei bereitgestellt die mit "tar" entpackt werden kann. Beigefügt ist die logische Struktur der Datei, in der der Name der leaf nodes genau dem der Tabellen (t_period) entspricht und alle 14 Tabellen (einschlie├člich dem vollständigen Embeddings) sind unter dem Namen "embedding_group" gruppiert. Der Download der diachronischen Embeddings erfolgt hier.

Fiktive Nephrologie-Verlaufsnotizen
Der übersichtliche Datensatz besteht aus fiktiven Verlaufsnotizen, die von mit genuinen Dokumenten vertrauten (Medizin- sowie Linguistik-)Studierenden verfasst wurden. Der Datensatz wurde zum Zwecke der Reflexion des authentischen Vokabulars sowie sprachlicher Merkmale klinischer Ausdrucksweise erstellt. Die Daten mögen daher aus medizinischer Sicht nicht vollkommen authentisch sein. Download

German NegEx Trigger-Set
Dies ist ein Satz von Trigger-Wörtern, welches explizit zur Negationserkennung in deutschsprachigen Arztbriefen sowie Verlaufsnotizen entwickelt wurde. Für weitere Information siehe hier. Download

Tools & Modelle

Graph-KD
Graph-KD ist ein Programm zur Explorierung von Graphstrukturen zum Auffinden neuen Wissens. Es basiert auf neo4j und beinhaltet die Berechnung von kürzesten Pfaden, Knotenexplorierung, sowie dem Ableiten neuen Wissens. Das Programm kann hier heruntergeladen und hier Online getestet werden. Weitere Details können in unserer Papier Graph-KD: Exploring Relational Information for Knowledge Discovery gefunden werden [pdf].

Dependenzparser für deutsche klinische Texte
Auf der Basis des Stanford Parsers (SP) wurde ein speziell für deutschsprachige klinische Daten entwickelter domain-adaptierter Dependenzparser kreiiert. Nach dem Vortrainieren des Models auf allgemeinen klinischen Daten wurde dieses anschließend auf einem kleinen nephrologischen Datensatz re-trainiert. Das Model sowie weitere Information sind hier zur öffentlichen Verfügung gestellt.

Biomedizinischer CharTranslator
Zahlreiche NLP-Aufgaben wenden eine Konzept-Normalisierung an, die eine gegebene Erwähnung mit einen eindeutigen Konzept innerhalb einer Ontologie verknüpfen. Eine Anwendung dieser Aufgabenstellung auf eine andere Sprache (außer Englisch) ist mit Schwierigkeiten verbunden, da anderssprachige Daten häufig unterrepräsentiert sind. Außerdem sind zahlreiche biomedizinische Begriffe griechischen und lateinischen Ursprungs. Unter Berücksichtigung dieser Charakteristika sowie weiterer Besonderheiten beider Sprachen, können zahlreiche biomedizinische Begriffe auf eine einfache Weise von einer in die andere Sprache übersetzt werden. Basierend auf dieser Idee verwendet der biomedizinische CharTranslator einen einfachen neuronalen Übersetzer auf Charakterebene. Zur Steigerung der Normalisierung können im ersten Schritt "unbekannte" Begriffe übersetzt werden, die Suche wird anschließend um englische Daten erweitert. Das Tool sowie die zugehörige Modelle werden hier bereitgestellt.