TUCAN ist ein kanonisches Serialisierungsformat, das unabhängig von domänenspezifischen Konzepten von Struktur und Bindung ist.
Die Ordnungszahl ist das einzige chemische Merkmal, das zur Ableitung des TUCAN-Formats verwendet wird. Ansonsten basiert das Format ausschließlich auf der molekularen Topologie. Das Serialisierungsverfahren erzeugt eine kanonische „tupelartige“ Ausgabe, die bidirektional ist, so dass die TUCAN-Zeichenfolge sowohl als Bezeichner als auch als Deskriptor dienen kann. Die Verwendung der Python-Graphbibliothek NetworkX ermöglichte eine kompakte und leicht erweiterbare Implementierung. Jetzt gibt es eine Online-Version (Abbildung 1), in der Chemiker*innen einen Blick darauf werfen und versuchen können, ihre Moleküle in das TUCAN-Format zu konvertieren, entweder durch direktes Zeichnen oder aus einer Mol-Datei.
Außerdem wurde die Arbeit am TUCAN-Identifikator und Deskriptor gerade im Journal of Cheminformatics veröffentlicht.