SARS-CoV-2 fehérje térszerkezetének vizsgálata gépi tanulási módszerekkel
Csabai István, Gellért Ákos, Pál Balázs (2022.01.01 - 2022.08.31)
ELTE Komplex Rendszerek Fizikája Tanszék
Publikáció: SARS-CoV-2 RBD deep mutational AlphaFold2 structures carry phenotypic information
Kivonat: A COVID-19 járvány az egész emberiség számára rendkívüli helyzetet teremtett, több millió emberéletet követelt és jelentős gazdasági visszaesést okozott. Ugyanakkor a nemzetközi kutatói közösség rövid időn belül minden eddiginél nagyságrendekkel nagyobb adathalmazt hozott létre, mely hozzájárulhat a járvány kialakulásának és dinamikájának megértéséhez, annak megfékezéséhez és hasonló pandémiák megakadályozásához. A GISAID és a COVID-19 Data Portal adatbázisokban több millió teljes SARS-CoV-2 genom található meg. A genetikai szekvenciákat a modern berendezéseknek köszönhetően viszonylag könnyen és gyorsan le lehet olvasni de nagyon nehéz pusztán a szekvenciák és a bennük gyülemlő mutációk alapján megmondani mennyire gyorsan terjedő, mennyire veszélyes az adott variáns. A genetikai információ fehérjékbe íródik át, majd a fehérjék térszerkezete, töltéseloszlása, kölcsönhatása a gazdaszervezet fehérjéivel határozzák meg a virus működését, a fenotípust. Összefoglalva, a genotípus-fenotípus problémakör a genetikai információk alapján a virus viselkedésének becslése.
Az elmúlt évben a rohamos ütemben fejloődő mesterséges intelligencia megközelítéssel sikerült egy olyan mérföldkövet elérni, ami jelentősen segítheti a genotípus-fenotípus kutatásokat. Az Alphafold2 módszer segítségével elfogadható idő alatt, kellő pontossággal meghatározható olyan nagy fehérjék térszerkezete. A gépi tanulás alapú Alphafold2 módszer jelentős számítási, elsősorban GPU kapacitást igényel.
Egy H2020 projekt keretében együttműködünk az EMBL-EBI szervezettel a SARS-CoV-2 genetikai archívum fejlesztésén. Célunk ennek kiegészítése minél több variáns fehérjéinek 3D szerkezetével és a szerkezetek segítségével a genotípus-fenotípus kérdés előremozdítása.