Zum Inhalt springen Zum Navigationsmenü springen

Von der Formel zum Code, von der Bibliothek zur KI

Ein Artikel aus dem carl 03|2025

von Frank Frick

KI-Tools machen chemische Strukturformeln maschinenlesbar. Dadurch erleichtern sie die automatisierte Eintragung von Moleküldaten in Datenbanken.

Vor 40 Jahren suchten Chemieprofessoren ihre Doktorandinnen oder Doktoranden recht häufig vergeblich im Labor. Denn diese waren in der Bibliothek. Dorthin trieb den wissenschaftlichen Nachwuchs unter anderem die Frage: Hatte schon irgendjemand zuvor die Substanz hergestellt und beschrieben, die laut Analyse im eigenen Kolben entstanden war? 


Die weichenstellende Antwort fanden sie am ehesten in den Chemical Abstracts – enorm teure Bücher, die Dutzende Meter Regal füllten. Mitarbeitende des Chemical Abstract Service sichteten die weltweite chemiebezogene Literatur und vergaben „zur Identifizierung jedes chemischen Stoffes ohne die Mehrdeutigkeit der chemischen Nomenklatur“ seit 1965 eine Registrierungsnummer, genannt CAS-Nummer [1]. Eine Grundlage der Registrierung organischer Substanzen ist die in der Fachliteratur veröffentlichte Strukturformel, die zeigt, wie Atome im Molekül verknüpft und räumlich angeordnet sind.


Heute suchen Chemikerinnen und Chemiker online nach Stoffinformationen – das ist einfacher, schneller, und die Ergebnisse sind stets aktuell. Doch damit Mensch und Maschine ihr Wissen über ein Molekül teilen können und da für Computer zweidimensionale Molekülbilder in Dokumenten unlesbar sind, muss die strukturelle Information sozusagen übersetzt werden. 

Anfangs übernahmen Menschen diese Aufgabe, in den 1990er-Jahren kamen die ersten Computerprogramme dazu. Diese arbeiteten regelbasiert, erkannten Atomzeichen mittels Methoden aus der Buchdigitalisierung und klassifizierten Bindungen durch Linienmerkmale wie Länge und Dicke. „Für akademische Forscher waren diese kommerziellen Programme nicht zugänglich“, berichtet Christoph Steinbeck, Professor für Analytische Chemie, Chemieinformatik und Chemometrie an der Universität Jena. 


Erst 2009 veröffentlichten Forscher des US-amerikanischen National Cancer Institute ein Open-Source-Programm namens Optical Structure Recognition Application (OSRA) [2]. Bei Bildern hoher Qualität wandelt das Programm rund 90 Prozent der Strukturformeln korrekt um [3]. „Allerdings scheitert es beispielsweise, wenn Strukturformeln von Molekülen mit ringförmigen Elementen leicht verzerrt gezeichnet sind – so leicht, dass es einem Menschen nicht auffällt“, sagt Steinbeck. 

carl-03-2025-Von der Formel zum Code, von der Bibliothek zur KI-Bild-2.jpg
Das Team um Christoph Steinbeck (rechts) und Achim Zielesny hat das KI-Tool DECIMER.ai entwickelt, das Forschende weltweit nutzen können.

Inspiriert vom Go-Wettkampf

Der Jenaer Chemiker, sein Mitarbeiter Kohulan Rajan und Achim Zielesny, Professor an der Westfälischen Hochschule mit Standorten in Gelsenkirchen, Bocholt und Recklinghausen, stellten 2020 als Erste ein frei verfügbares Tool vor, bei dem eine Künstliche Intelligenz Strukturformeln in wissenschaftlichen Publikationen erkannte und in maschinenlesbare Codes übersetzte [4, 5]. Der Name: DECIMER (Deep lEarning for Chemical IMagE Recognition). 

Steinbeck und Zielesny ließen sich von den spektakulären Erfolgen der Software AlphaGo und AlphaGo Zero, entwickelt von Google Deep Mind, beim Brettspiel Go inspirieren. 2016 besiegte AlphaGo, das neuronale Netze und maschinelles Lernen nutzt, in einem Turnier den damals besten Go-Spieler der Welt, Lee Sedol. Bis dahin schien es undenkbar, dass eine KI den Mensch in diesem Spiel übertrifft.

„Als später AlphaGo Zero übermenschliche Spielstärke erreichte, indem es nicht mehr mit menschlichen Spielern trainiert wurde, sondern immer wieder gegen sich selbst spielte, erkannten wir, dass KI mit genügend Trainingsdaten auch andere sehr komplexe Probleme lösen kann“, erinnert sich Steinbeck. 
 

Die Chemiker trainierten ein neuronales Netz mithilfe von Daten von über Hundert Millionen organischen Molekülen aus der PubChem-Datenbank [6]. Sie luden die maschinenlesbaren SMILES-Codes (SMILES: Simplified Molecular Input Line Entry System) dieser Moleküle herunter und erzeugten mithilfe einer selbst entwickelten Software Bilder der Molekülstrukturen. „Der besondere Trick dabei: Wir generierten von jedem Molekül verschiedene Bilder, indem wir die Strukturformeln drehten, scherten oder unscharf machten, Rauschen, Atomnummern oder Pfeile hinzufügten und Kurzsymbole für funktionelle Gruppen verwendeten“, erklärt Steinbeck. 

carl-03-2025-Von der Formel zum Code, von der Bibliothek zur KI-Bild-1.jpg
Strukturformel des Koffein-Moleküls und seine Übersetzung in den maschinenlesbaren SMILE-Code

Training mit mehreren Hundert Millionen Daten

So schlugen die Wissenschaftler zwei Fliegen mit einer Klappe: Erstens erzeugten sie Hunderte Millionen Trainingsdaten – eine Menge, die ihnen aus der chemischen Literatur nicht zugänglich ist. Zweitens konnten sie die KI mit Strukturformeln in unterschiedlicher Darstellung oder mit schlechter Bildqualität trainieren. 

carl-03-2025-Von der Formel zum Code, von der Bibliothek zur KI-Bild-3.jpg
Beispiele verfremdeter Versionen von Koffein aus dem DECIMER-Training

Das Ergebnis: Bei solchen Darstellungen übersetzt das neue KI-Tool DECIMER Strukturformeln deutlich häufiger korrekt als OSRA und andere regelbasierte Programme. Das zeigt sich unter anderem bei der Erkennung von Molekülstrukturen in Patentschriften, die für Software besonders schwierig ist, etwa wegen der oft verwendeten Markush-Formeln , in denen variable Fragmente durch Kurzzeichen wie R oder X ersetzt werden. Ein Team aus deutschen und US-amerikanischen Forschern verglich 2024 die Leistungsfähigkeit von DECIMER und OSRA anhand von 400 zufällig ausgewählten Molekülstrukturen aus Patenten: OSRA übersetzte nur 257 korrekt, DECIMER dagegen 337 [7]. Inzwischen gibt es mit MOLScribe ein weiteres frei verfügbares KI-Tool mit ähnlicher Leistungsfähigkeit [8].

DECIMER ist für jeden im Internetbrowser nutzbar: Dort lassen sich wissenschaftliche Artikel, die chemische Strukturformeln enthalten, einfach hochladen, und sofort beginnt die KI ihre Arbeit [9].

Christoph Steinbeck, der auch Sprecher der Nationalen Forschungsdateninfrastruktur für Chemie (NFDI4Chem) ist, hofft, die chemische Literatur zurück bis in die 1950er-Jahre maschinenlesbar machen zu können. Über diesen Plan spricht der NFDI4Chem mit Fachverlagen, bei denen Rechte an der Verwertung von Publikationen und Daten liegen. Inwieweit sich der Chemical Abstract Service der American Chemical Society für das Vorhaben begeistern lässt, muss sich noch herausstellen.

Glossar

Markush-Formeln tragen den Namen des Chemikers Eugene Markush, der 1924 einen Patentantrag stellte. Darin deckte er mit einer neuen Schreibweise eine Gruppe von chemischen Verbindungen mit ähnlichen Grundstrukturen, aber unterschiedlichen Substituenten ab.

[1] www.cas.org/about/cas-history 
[2] www.sourceforge.net/projects/osra/ 
[3] K. Rajan et al., 2020, J. Cheminform., 12, 60, doi.org/10.1186/s13321-020-00465-0
[4] K. Rajan et al., 2021,  J. Cheminform., 13, 61, doi.org/10.1186/s13321-021-00538-8  
[5] K. Rajan et al., 2023, Nat. Commun., 14, 5045, doi.org/10.1038/s41467-023-40782-0
[6] www.pubchem.ncbi.nlm.nih.gov
[7] A. Krasnov et al., 2024, Digital Discovery, 2024, 3, 681, doi.org/10.1039/d3dd00228d
[8] www.github.com/thomas0809/MolScribe 
[9] www.decimer.ai

Bildnachweise: Anne Günthe, Uni Jena / iKohulan Rajan / Kohulan Rajan

Ihnen hat dieser Artikel gefallen?

Dann entdecken Sie unsere carl Magazine – dort finden Sie viele weitere spannende und inspirierende Beiträge.