Am Leibniz-Institut für Katalyse in Rostock (LIKAT) ist eine cloudbasierte Forschungsdatenplattform entstanden, die Begriffe der Laborarbeit, Analytik und Modellierung systematisch strukturiert. Ihr Kern ist Voc4Cat, ein digitales Wörterbuch, das Definitionen maschinenlesbar bereitstellt und die zunehmende Menge wissenschaftlicher Informationen in der Katalyseforschung mit klaren Standards unterstützt. Entwickelt wurde das System im Rahmen des NFDI4Cat-Konsortiums durch ein Team um den Chemiker Dr. David Linke und mit Mitteln der DFG.

Voc4Cat folgt dem Prinzip eines offenen Wissensspeichers, an dem sich registrierte Nutzer beteiligen können. Sie erweitern das Wörterbuch mit Daten zu Vorgehensweisen, Ausgangsstoffen, Produkten und Modellierungsverfahren und tragen so zu einer präzisen Beschreibung von Forschungsinhalten bei. Die digitale Infrastruktur verknüpft Begriffe mit Identifikationsnummern und Quellen und schafft damit eine Grundlage für KI-Anwendungen, die in den kommenden Jahren an Bedeutung gewinnen.
Voc4Cat als offenes und maschinenlesbares Wörterbuch
Voc4Cat umfasst derzeit rund 500 Begriffe, die Dr. David Linke gemeinsam mit Dr. Nikolaos Moustakas programmierte. Jede Vokabel enthält eine Definition sowie eine international eindeutige Identifikationsnummer (IRI), ergänzt durch Verweise auf Synonyme und inhaltliche Beziehungen zu Methoden und Konzepten. Diese Struktur ermöglicht eine Nutzung in Recherchen, Laborprozessen und automatisierten Datenanalysen, die auf konsistente Begrifflichkeiten angewiesen sind.

Als Open-source-Lösung steht Voc4Cat über GitHub zur Verfügung. Dort können Nutzer eigene Vokabeln einreichen oder bestehende Einträge kommentieren. Kuratoren wie Linke und Moustakas prüfen die Inhalte in einem transparenten Prozess, sodass die Community das Wörterbuch schrittweise präzisiert und erweitert. Die Offenheit fördert eine gemeinsame Datenbasis, die sich an den konkreten Anforderungen der Forschung orientiert.
Einheitliche Begrifflichkeiten für vernetzte Forschungsdaten
Die Katalyse entwickelt sich zunehmend zu einer Schlüsseltechnologie, etwa für nachhaltige Energieprozesse. Mit der wachsenden Zahl wissenschaftlicher Arbeiten nimmt zugleich die Datenmenge stark zu. Unterschiedliche Begriffsverwendungen erschweren jedoch die KI-gestützte Analyse. Voc4Cat begegnet dieser Herausforderung mit einem klar definierenden Vokabular, das die Interoperability der Forschungsdaten stärkt.
Damit orientiert sich das Wörterbuch an den FAIR-Kriterien, nach denen Forschungsdaten auffindbar, zugänglich, kompatibel und wiederverwendbar sein sollen. Besonders die Datenkompatibilität, so erklärt Nikolaos Moustakas, sei für Programmierer oft problematisch, da selbst in exakten Wissenschaften zentrale Fachbegriffe variieren. Voc4Cat schafft deshalb eindeutige sprachliche Standards, die maschinelles Lesen und Verknüpfen erleichtern.
Integration in Journale, Laborjournale und Forschungsportale
Forschende, die Ergebnisse zur chemischen Katalyse veröffentlichen, können Schlüsselbegriffe ihrer Arbeiten künftig direkt mit Voc4Cat verlinken. Dadurch erhalten Formulierungen eine eindeutig definierte Bedeutung und lassen sich einfacher in bestehende Wissensbestände einordnen. Dies verbessert die Auffindbarkeit und Vernetzung neuer Erkenntnisse. Die Zeitschrift ChemCatChem aus dem Wiley Verlag hat zentrale Schlagwörter bereits in das Wörterbuch aufgenommen.
Die maschinenlesbare Struktur erlaubt zudem eine einfache Integration in Software-Systeme wie elektronische Laborjournale oder Forschungsdatenportale. Der GitHub-Link des NFDI4Cat-Konsortiums enthält Anleitungen für Einträge und Korrekturvorschläge. Kuratoren unterstützen bei Bedarf und prüfen alle Inhalte auf fachliche Korrektheit.
KI-gestützte Aufbereitung wissenschaftlicher Texte
Aktuell entwickelt Dr. Nikolaos Moustakas eine eigene Sprach-KI, die bereits veröffentlichte Papers automatisch für Voc4Cat aufbereiten soll. Die Anwendung wird erkennen, welche Begriffe für das Wörterbuch relevant sind, sodass Texte effizient maschinenlesbar annotiert werden können. Diese Lösung, die zum Jahresende bereitstehen soll, erweitert die digitale Infrastruktur um ein Werkzeug, das den Übergang zu automatisierten Forschungsprozessen erleichtert.