AlphaFold von DeepMind sieht die Aufnahme von Proteinen

NEW YORK – Seit seiner Einführung im Jahr 2018 hat sich das AlphaFold-Programm von DeepMind zu einem wichtigen Werkzeug in der biologischen Forschung entwickelt, das es Wissenschaftlern ermöglicht, Proteinstrukturen mit hoher Genauigkeit auf der Grundlage ihrer Aminosäuresequenzen vorherzusagen.

In jüngerer Zeit haben Forscher damit begonnen, AlphaFold und seine neuere Version, AlphaFold2, für Protein-Protein-Interaktionsarbeiten (PPI) zu verwenden und seinen Nutzen für die Vorhersage und Validierung von Proteininteraktionen sowie die Erstellung von Modellen ihrer Strukturen zu untersuchen.

Diese Bemühungen bleiben durch die erforderlichen intensiven Rechenressourcen begrenzt, aber Studien deuten darauf hin, dass sich KI-basierte Ansätze für groß angelegte PPI-Studien als nützlich erweisen und bestehende Instrumente wie Massenspektrometrie und Hefe-Zwei-Hybrid-Systeme ergänzen könnten.

„Es ist ein sehr interessanter Raum“, sagte Juri Rappsilber, Professor für Proteomik an der Universität Edinburgh und Professor für Bioanalytik an der Technischen Hochschule Berlin. Im April veröffentlichten er und seine Kollegen in Molecular Systems Biology eine Studie über die Kombination von Crosslinking-Massenspektrometrie und Kofraktionierungs-Massenspektrometrie mit der AlphaFold-Multimer-Software – einer Erweiterung von AlphaFold2 für die PPI-Forschung – zur Vorhersage und Validierung von PPIs in Bacillus subtilis.

Rappsilber nannte als eine häufige Anwendung das, was er als „Alpha-Pulldown“ bezeichnete, bei dem Forscher die Software verwenden, um mögliche Protein-Interaktoren gegen ein bestimmtes Protein von Interesse zu testen, ähnlich wie sie es bei einem Immun-Pulldown-Massenspezifizierungsexperiment tun würden.

„Sie haben ein Protein, an dem sie interessiert sind, und sie haben eine Reihe von Kandidatenproteinen, von denen sie glauben, dass sie mit diesem Protein interagieren könnten, und sie werfen sie einfach einzeln gegen das Protein von Interesse“, sagte Rappsilber.

„Wenn AlphaFold positiv ist, ist es sehr wahrscheinlich, dass die beiden interagieren“, sagte er. „Man geht also von 10, 20 oder 50 Kandidaten auf eine Handvoll Kandidaten über, und das lässt sich plausibler weiterverfolgen.“

Rappsilber fügte hinzu, dass Forscher im Gegensatz zu anderen Ansätzen zur Validierung von PPIs aus einem solchen Experiment Modelle der Strukturen der Wechselwirkungen herausholen.

„Und das ist eine sehr klare Anweisung, was als nächstes als Experiment zu tun ist“, sagte er und wies darauf hin, dass Forscher mit diesen Strukturinformationen Punktmutanten an den Interaktionsstellen entwerfen können, die es ihnen ermöglichen, die Interaktion zu unterbrechen und ihre biologische Wirkung zu untersuchen.

„Die größte Einschränkung ist die Rechenleistung“, sagte Panagiotis Kastritis, Juniorprofessor für Kryo-EM an der Martin-Luther-Universität Halle-Wittenberg und ERA-Lehrstuhl für Kryo-EM an der griechischen National Hellenic Research Foundation, über die Verwendung von AlphaFold für PPI-Arbeiten. „Die meisten dieser Berechnungen wurden auf Institutscomputern durchgeführt.“

Kastritis merkte jedoch an, dass dies in den nächsten fünf bis zehn Jahren wahrscheinlich weniger problematisch sein werde, da Rechenleistung immer günstiger und zugänglicher werde.

Er schlug außerdem vor, dass bestimmte Rechenstrategien die Rechenleistung reduzieren könnten, die für die Verwendung von AlphaFold für groß angelegte PPI-Arbeiten erforderlich ist. Er sagte beispielsweise, dass AlphaFold2 Proteinstrukturen mithilfe sogenannter multipler Sequenzausrichtungen vorhersagt, die es erstellt, indem es die Aminosäuresequenz eines Proteins nimmt und sie mit anderen Proteinsequenzdatenbanken vergleicht, um ähnliche Sequenzen zu identifizieren, die es zur Konstruktion seiner Modelle verwendet. Kastritis sagte, dass, da immer mehr dieser MSAs identifiziert werden, sie so gespeichert werden können, dass die Software direkt auf sie zugreifen kann, anstatt noch einmal Sequenzdatenbanken durchsuchen zu müssen, um sie zu identifizieren.

„Wenn wir [MSAs] vorherbestimmt und vorberechnet hätten, wäre es natürlich schneller und einfacher“, sagte er.

Im April veröffentlichten Forscher von Microsoft und der Freien Universität Berlin einen bioRxiv-Preprint, der mehrere Rechenansätze nutzte, darunter solche, die denen von Kastritis ähnelten, um die Vorhersage von PPIs durch AlphaFold2 zu beschleunigen. Als sie ihren Ansatz auf die Vorhersage der paarweisen Wechselwirkungen von 1.000 Proteinen anwendeten, reduzierte sich den Autoren zufolge die für die Vorhersagen erforderliche Zeit um das 40-fache und gleichzeitig der benötigte Speicherplatz um das 4.460-fache.

Einer der Preprint-Autoren, Patrick Bryant, ein Postdoktorand an der Freien Universität, war auch Erstautor eines Artikels von Nature Communications aus dem Jahr 2022, in dem eine neue Pipeline für AlphaFold2-basierte PPI-Vorhersage namens FoldDock beschrieben wurde. Im Januar 2023 nutzten Bryant und ein Team unter der Leitung von Forschern des SciLifeLab der Universität Stockholm (wo Bryant ein Doktorand war) und des Europäischen Bioinformatikinstituts die FoldDock-Pipeline, um Strukturen für 65.484 menschliche PPIs vorherzusagen und 3.137 PPI-Modelle mit hoher Zuverlässigkeit zu generieren .

Kastritis sagte, dass Forscher auch experimentelle Daten verwenden, die durch Techniken wie Massenspektrometer und Kryo-Elektronenmikroskopie erzeugt wurden, um AlphaFold2-Vorhersagen weniger rechenintensiv zu machen. Beispielsweise könnte ein Forscher AlphaFold2 vernetzende Massenspezifizierungsdaten oder die durch Kryo-EM bestimmte Form und 3D-Struktur von Proteinen zur Verfügung stellen und es bitten, nur Proteinstrukturen vorherzusagen, die mit den experimentellen Daten übereinstimmen, sagte er.

„Mithilfe dieser Art von Informationen können wir den Rechenaufwand senken“, sagte er.

„Man muss kandidatenorientiert vorgehen“, sagte Rappsilber und betonte gleichzeitig den Nutzen experimenteller Daten in Kombination mit AlphaFold.

In ihrer MSB-Studie verwendeten Rappsilber und seine Co-Autoren zunächst die Vernetzungsmassenspektrometrie in ganzen B. subtilis-Zellen, um mögliche Protein-Protein-Wechselwirkungen zu identifizieren. Sie identifizierten insgesamt 560 PPIs, von denen 384 zuvor nicht entdeckt worden waren. Anschließend führten sie Co-Fraktionierungs-Massenspezifizierungsexperimente durch, bei denen 667 PPI-Kandidaten identifiziert wurden, sodass insgesamt 878 PPI-Kandidaten durch die beiden Methoden erzeugt wurden.

Anschließend luden die Forscher bekannte hochwertige PPIs aus der B. subtilis-Datenbank SubtiWiki herunter und kombinierten sie mit ihren experimentell abgeleiteten PPIs, um einen Satz von 2032 PPI-Kandidaten zu erstellen, die sie an AlphaFold-Multimer übermittelten. Für 114 dieser Wechselwirkungen konnte die Software hochwertige Strukturmodelle generieren.

AlphaFold-Multimer war außerdem in der Lage, qualitativ hochwertige Strukturen für 14 trimere Proteinkomplexe vorherzusagen, was auf sein Potenzial hindeutet, über binäre PPIs hinauszugehen.

Die Vorhersage von Proteinkomplexen, die aus mehreren Proteinen oder anderen Molekülen bestehen, bleibt eine schwierige Herausforderung, bemerkte Kastritis, der nicht an der MSB-Studie beteiligt war. Ein großes Problem bei solch größeren Komplexen sei, sagte er, dass geringfügige Ungenauigkeiten in den Proteinstrukturvorhersagen sich über den gesamten Komplex ausbreiten könnten, was zu größeren Ungenauigkeiten führe.

Mit Blick auf die Zukunft sieht Rappsilber drei Hauptwege – die alle derzeit verfolgt werden –, durch die AlphaFold und andere KI-basierte Tools für groß angelegte PPI- und Proteinkomplexarbeiten nützlicher werden.

Der erste, den er als „Brute Force“-Ansatz bezeichnete, besteht darin, einfach die kontinuierlichen Verbesserungen der Rechenleistung zu nutzen.

„Warten Sie ein wenig und Ihre Smartwatch wird es schaffen“, scherzte er.

Der zweite Weg ist die fortlaufende Entwicklung schnellerer und effizienterer Rechenstrategien für die Durchführung solcher Arbeiten, wie beispielsweise die oben erwähnte FoldDock-Pipeline.

Der dritte Punkt ist eine effektivere Integration experimenteller Daten, um KI-basierte Vorhersagen zu unterstützen. Darauf konzentrieren sich viele Bemühungen seines Labors, sagte Rappsilber und verwies auf ein aktuelles Papier aus seinem Labor, in dem eine Version von AlphaFold2 namens AlphaLink detailliert beschrieben wird, die Daten aus Quellen wie der Vernetzung von Daten aus Massenspektrometerexperimenten einbezieht, die der Software Informationen über die Entfernung liefern können zwischen bestimmten Aminosäureresten.

Mit der Vernetzung von Daten „könnten wir Strukturen für anspruchsvolle Ziele erhalten, bei denen AlphaFold allein versagte“, sagte er.