Eingabe löschen

Kopfbereich

Hauptnavigation

CAI-Forschende entdecken wichtige Strukturen in modernen AI Modellen (ICML 2025)

In Zusammenarbeit mit dem GreweLab des Instituts für Neuroinformatik (ETH Zürich/Universität Zürich) haben die CAI-Forschenden Pascal Sager und Thilo Stadelmann ein Paper verfasst, das auf der International Conference on Machine Learning (ICML) 2025 präsentiert wird. Ihre Arbeit entdeckt «Symmetrie» und «Richtung» in den Self-Attention Modulen von Transformern und fördert sowohl das theoretische Verständnis als auch die Trainingseffizienz von KI-Modellen.

Transformer sind ein wesentlicher Bestandteil der künstlichen Intelligenz und treiben Anwendungen in den Bereichen Sprache, Bildverarbeitung und Audioanalyse voran. Im Zentrum dieser Modelle steht Self-Attention, ein Mechanismus, der dem Modell hilft zu bestimmen, wie verschiedene Teile des Inputs miteinander in Beziehung stehen. Die exakte Struktur dieses fundamentalen Mechanismus ist jedoch weitgehend unklar.

Neue Forschungen der CAI-Forschenden Pascal Sager und Thilo Stadelmann, in Zusammenarbeit mit Matteo Saponati, Pau Aceituno und Benjamin Grewe vom GreweLab an der ETH Zürich und Universität Zürich, bringen nun neue Erkenntnisse. Ihre Arbeit zeigt, dass die Art des Trainings von Transformer-Modellen zu unterschiedlichen strukturellen Mustern in den Self-Attention-Matrizen führt. Bidirektionales Training, wie es bei Modellen wie BERT verwendet wird, erzeugt symmetrische Attention-Muster, während autoregressives Training, üblich bei Modellen wie GPT, «gerichtete» Muster hervorbringt.

Diese Entdeckungen wurden durch umfangreiche Experimente mit verschiedenen Transformer-Modellen und Modalitäten bestätigt, darunter Text, Bilder und Audio. Aufbauend auf diesem Verständnis entwickelten die Forschenden neue Methoden zur Initialisierung von Modellen, die diese Muster nutzen, um die Trainingsgeschwindigkeit und Modellleistung bei Transformer-Encodern zu verbessern.

Die Ergebnisse werden auf der International Conference on Machine Learning (ICML) 2025 präsentiert, einer der bedeutendsten Konferenzen auf dem Gebiet, was die Relevanz dieses Beitrags für Theorie und Praxis der KI unterstreicht.

Die Arbeit wurde durch Fellowships der ETH Zürich, Universität Zürich und ZHAW digital sowie durch Rechenressourcen der Swiss AI Initiative unterstützt.

Der vollständige Preprint ist hier verfügbar: arxiv.org/pdf/2502.10927