인공지능을 활용한 단백질 구조 예측

2023년 4월 2일
7분 분량

최종 수정일: 2023년 12월 19일

백민경 | 서울대학교 생명과학부, minkbaek@snu.ac.kr

서 론

단백질은 우리 신체를 구성하는 주요 물질일 뿐만 아니라 거의 모든 생명현상에 관여하는 아주 중요한 생체분자이다. 예를 들어 시각, 미각, 후각 등 우리가 외부의 자극을 감지하는 과정에도 단백질이 관여하고 있고, 음식물을 통해 세포가 사용할 에너지를 얻는 소화 및 대사 과정에도 다양한 단백질들이 관여하고 있다. 단백질은 우리가 보고, 먹고, 느끼고, 숨을 쉬며 살아가는 데 있어 가장 핵심적인 역할을 하는 생체분자라고 해도 과언이 아니다. 이러한 단백질에 대해 더욱 잘 이해할 수 있게 된다면, 이를 바탕으로 우리 몸에서 일어나는 다양한 생명현상이 어떻게 나타나고 조절되는지에 대해 이해할 수 있게 된다. 생명현상에 대한 단백질 분자수준의 이해는 단백질 기능의 이상으로 인해 나타나는 다양한 질병에 대한 치료제를 개발하는데 도움을 줄 수 있고, 플라스틱 분해효소 개발이나 태양광발전 효율 향상을 위한 광에너지 흡수 단백질 개발 등을 통해 환경 및 에너지 문제를 해결하는데 도움을 줄 수도 있다.

20가지의 아미노산이 적게는 수십 개, 많게는 수천 개 연결된 단백질이라는 분자가 이렇게 다양한 기능을 가지는 것은, 단백질의 서열(아미노산의조합)에 따라서 서로 다른 3차원 구조를 가지고 이에 따른 기능을 수행하기 때문이다. 즉, 우리가 단백질의 서열로부터 그 3차원 구조를 알아낼 수 있다면 단백질의 기능을 이해하는데 아주 큰 도움이 될 수 있다. 이러한 중요성 때문에 그동안 수많은 실험과학자가 단백질의 구조를 X-선 결정학, NMR 자기공명학, 초저온 전자현미경 등을 활용하여 실험적으로 밝히기 위해 많은 노력을 쏟아왔다. 하지만, 실험을 통해 단백질의 구조를 결정하는 데는 많은 비용이 소모될 뿐만 아니라, 짧게는 수개월에서 길게는 수년이라는 엄청난 시간이 소요된다. 단백질의 서열로부터 그 3차원 구조를 컴퓨터 계산을 통해 빠르게 알아낼 수 있다면, 단백질 구조 및 기능 연구에 드는 시간을 훨씬 단축할 수 있지 않을까? 이를 위해 지난 50여 년 동안 단백질 구조를 예측하는 다양한 프로그램들이 개발되어 왔고, 2010년대 중반부터는 인공지능을 결합한 단백질 구조 예측 방법들이 개발되기 시작하였다. 그 정점에 있는 것이 2021년 발표된 구글 딥마인드의 알파폴드[참고문헌 1] 와 워싱턴대학교의 로제타폴드[참고문헌 2] 방법이다. 알파폴드와 로제타폴드 방법은 실험구조에 준하는 높은 정확도의 단백질 구조를 단 몇 분 만에 빠르게 예측해낼 수 있다. 빠른 속도와 높은 정확도를 기반으로 알파폴드와 로제타폴드는 기존의 실험 위주의 단백질 구조 연구를 계산과 결합한 연구로 변화시키고, 신약개발을 가속하는 등 생물학 및 관련 분야 전반에 걸쳐 막대한 영향을 줄 것으로 기대되고 있으며, 세계적인 과학학술저널인 사이언스에서는 2021년의 가장 혁신적인 연구로 인공지능 기반의 단백질 구조 예측 기술을 선정하기도 했다. 본 총설에서는 인공지능 기반의 단백질 구조 예측 방법이 어떻게 발전해왔는지를 소개하고, 이를 응용한 단백질-단백질 상호작용 예측 연구에 대해 소개 하고자한다.

본 론

1. 단백질 구조 예측 인공지능의 출발점: 진화정보 기반의 단백질 구조 예측

단백질을 구성하는 아미노산 20가지는 그 성질이 조금씩 달라 서로 가까이 있는 것을 좋아하기도, 혹은 멀리 떨어져 있는 것을 좋아하기도 한다. 아미노산 사이의 상호작용 에너지를 계산하여 가장 안정한 구조를 찾는다면, 주어진 서열로부터 단백질의 구조를 예측해 볼 수 있다. 말로는 간단해 보이지만, 실제로 물리화학 원리만을 이용해서 단백질의 구조를 예측하는 것은 거의 불가능에 가깝다. 주어진 단백질의 가장 안정한 구조, 즉 에너지가 가장 낮은 구조를 찾기 위해서는 해당 단백질이 가질 수 있는 모든 가능한 구조를 탐색해보고 어떤 구조가 가장 안정한지 그 에너지를 계산해 보아야한다. 아미노산 300개로 이루어진 평균길이의 단백질을 생각해보자. 아미노산 한 개에 대략 10 개의 구조를 가질 수 있다고 하면, 이 단백질이 가질 수 있는 구조는 단순히 계산해도 10300개가 된다. 아무리 빠른 컴퓨터를 사용한다고 하더라도 모든 경우의 수를 탐색해보려면 우주의 나이(약 137억년, 4.3×1019초)보다도 더 긴 시간이 필요하다. 그렇다면 이러한 한계를 극복할 방법은 없을까?

우리의 근육에는 ”미오글로빈”이라는 단백질이 풍부하게 존재한다. 이 단백질은 사람 뿐만 아니라 대부분의 포유류, 심지어 참치와 같은 일부 어류에도 존재한다. 미오글로빈 단백질은 혈액 속의 헤모글로빈보다 산소와의 친화도가 훨씬 높아 헤모글로빈에게서 산소를 받아와 근육에서 사용 할 수 있도록 저장하는 역할을 한다. 근육에서 사용할 산소를 저장한다는 역할은 같지만, 사람의 미오글로빈과 말의 미오글로빈, 참치의 미오글로빈은 모두 그 서열이 다르다 [그림 1]. 진화과정에서 단백질 서열의 변이가 일어났지만 그 기능은 똑같이 유지된 것이다. 진화과정에서 단백질의 서열에 변이가 생겼을 때, 아미노산 사이의 상호작용이 변하여 단백질의 구조가 크게 변한다면 어떻게 될까? 해당 변이 단백질은 기능에 필수적인 구조를 잃으면서 더 이상 본래의 기능을 하지 못하게 되고 이를 가진 생명체는 도태될 것이다. 즉, 진화과정을 거쳐 살아남은 생명체에서 비슷한 기능을 하는 단백질들은 그 서열에 변화가 생겼더라도 기능 유지를 위해 그 구조가 유사하게 유지된다. 이를 역으로 생각해보자. 진화적으로 연관이 있는 단백질들의 서열을 모아본다면, 거기에서 단백질의 구조에 대한 정보를 얻을 수 있지 않을까?

이 아이디어를 바탕으로 진화정보를 담고 있는 단백질 다중서열정렬(Multiple Sequence Alignment, MSA)로 부터 단서를 찾아 단백질의 구조를 예측하려는 연구들이 활발히 이루어졌다.[참고문헌 3,4] 진화정보를 활용한 단백질 구조 예측 문제에서 결국 우리가 찾고자 하는 것은 진화정보를 담고 있는 단백질 다중서열정렬 이라는 주어진 데이터안에 숨어있는 단백질 구조에 대한 패턴이다. 인공지능이 가장 잘한다고 알려진 일중의 하나가 바로 ”데이터에 숨어있는 패턴찾기”이다. 인공지능이 이미지 분류에 두각을 나타내기 시작한 2010년대부터 인공지능을 활용한 단백질 구조 예측연구가 활발히 진행되기 시작하였다.[참고문헌 5,6]

그림 1. (좌) 여러 종에서의 미오글로빈 단백질의 구조. 분홍색은 사람의 미오글로빈과 아미노산 서열이 같은 부분을, 흰색은 그 서열이 다른 부분을 의미. (우) 진화데이터 (서열모음)에 나타나는 구조 패턴에 대한 모식도

그림 2. 진화정보 기반의 단백질 구조 예측 과정

2. 단백질 구조 예측 인공지능의 발전: 알파폴드와 로제타폴드

인공지능 활용의 출발점이 된 진화정보 기반의 단백질 구조 예측은 크게 [그림 2]에 나타낸 것과 같이 단백질 다중 서열정렬로부터 단백질을 이루는 아미노산 잔기(residue) 사이의 거리 정보에 대한 예측을 하고, 이를 바탕으로 단백질의 3차원 구조를 만들어내는 과정으로 구성된다.

진화정보로부터 단백질의 구조에 대한 패턴, 즉 아미노산 잔기 사이의 거리정보에 대한 예측 과정에 인공지능을 활용하기 위해선 어떻게 해야 할까? 이에 대한 답을 찾기 위해 인공지능과 좀더 밀접한 연관이 있는 이해하기 쉬운 문제로 한번 바꾸어 생각해보자. 단백질의 다중서열정렬은 텍스트로, 단백질 아미노산 잔기 사이의 거리정보는 2차원 이미지로 나타낼 수 있다. 즉, 진화정보로부터 단백질의 구조에 대한 패턴을 찾는 과정은 일종의 글을 읽고 그 글이 묘사하는 그림을 그리는 과정과 유사하다고 볼 수 있다[그림 3a].

그림 3. 다중서열정렬로부터 아미노산 잔기 사이의 거리정보를 찾아내는 과정. (a) 글을 읽고 그림을 그리는 과정과의 유사성. (b) 글을 읽고 그림을 그리는 과정에 필요한 요소. (c) 다중서열정렬로부터 아미노산 잔기 사이의 거리정보를 찾아내는 과정에의 대응도

인공지능을 활용해 글을 바탕으로 그림을 그리기 위해서는 우선 글의 내용을 이해하는 부분, 찾아낸 정보를 바탕으로 그림을 업데이트하는 부분, 현재까지 그려진 부분들을 바탕으로 그림의 디테일을 추가해 나가는 부분, 그림에 빠진 부분은 없는지 글에서 새로 찾을 정보는 없는지 그림과 글을 비교하는 부분 이렇게 네가지 요소가 유기적으로 연결되어 반복하는 것이 필요하다[그림 3b]. 이를 다중서열정렬로부터 아미노산 잔기 사이의 거리 정보를 예측하는 과정에 적용시켜보면, 1) 다중서열정렬을 읽고 이해하는 부분, 2) 다중서열정렬로부터 구조에 대한 정보를 찾아 2차원 아미노산 잔기 사이의 거리정보를 업데이트하는 부분, 3) 현재의 거리정보를 바탕으로 비어 있는 디테일을 추가하는 부분, 4) 거리정보와 다중서열정렬을 비교하면서 새로 찾아낼 정보는 없는지를 탐색하는 부분으로 대응시켜 볼 수 있다[그림 3c]. 이런 일련의 과정을 통해 얻어낸 단백질 서열에 대한 정보와 아미노산 잔기 사이의 거리에 대한 정보를 종합하여 단백질의 3차원 구조를 만들어내는 인공 지능을 결합하면 다중서열정렬로 표현되는 단백질의 진화 정보를 기반으로 인공지능을 통해 단백질의 3차원 구조를 예측할 수 있다.

이러한 아이디어를 기반으로 만들어진 것이 2021년 발표된 구글 딥마인드의 알파폴드[참고문헌 1]와 워싱턴대학교의 로제타 폴드[참고문헌 2]이다. 알파폴드는 위에 기술한 일련의 과정을 거쳐 다중서열정렬로부터 아미노산 잔기사이의 거리정보를 이해 하고 이를 기반으로 단백질의 3차원 구조를 마지막에 만들어낸다[그림 4a]. 로제타폴드의 경우에는 단백질의 3차원 구조를 중반부터 만들어보면서 다중서열정보로부터 아미노산 잔기 사이의 거리 정보를 업데이트하는데 직접적으로 피드백을 주고받는다는 점에서 차이가 있다[그림 4b]. 두 방법 모두 인공지능을 활용하여 다중서열정렬이라는 단백질의 진화정보 안에 숨어있는 구조에 대한 패턴을 잘 찾아 내도록 함으로써 비약적으로 발전한 단백질 구조 예측 성능을 보여주었다[그림 4c].

3. 단백질-단백질 상호작용 및 결합구조 예측으로의 활용 앞에서 설명한 바와 같이 알파폴드와 로제타폴드는 단백질의 진화정보를 활용하여 단백질의 구조를 예측한다. 이는 진화과정에서 단백질이 그 기능을 유지하기 위해 단백질의 구조를 유지할 필요가 있었기 때문이다. 결과적으로, 진화적으로 연관이 있는 단백질들의 서열 모음 (다중서열 정렬) 안에 구조에 대한 패턴이 나타나게 되고 이를 인공지능을 활용하여 찾아냄으로써 고정확도의 단백질의 구조 예측이 가능해진 것이다. 그렇다면 단백질-단백질 사이의 상호작용예측은 어떨까?

그림 4. 알파폴드와 로제타폴드 인공지능 모델 구조 및 구조예측 정확도. (a) 알파폴드 인공지능 모델 구조(알파폴드 논문1에서 발췌). (b) 로제타폴 드 인공지능 모델 구조(로제타폴드 논문2에서 발췌). (c) CASP 단백질 구조예측 대회 평가결과

그림 5. 로제타폴드, 알파폴드를 활용한 효모에 존재하는 단백질-단백질 쌍에 대한 상호작용 예측 결과 예시(해당 논문7에서 발췌)

두 단백질이 결합하는 것이 기능을 하는데 중요하다면, 진화과정에서 두 단백질의 결합이 항상 유지되는 방향으로 진화가 일어났을 것이다. 즉, 진화정보 안에 두 단백질의 결합에 대한 패턴 및 결합구조에 대한 패턴도 숨어있을 것이라 기대할 수 있다. 알파폴드와 로제타폴드가 이미 진화 정보에 숨어있는 구조에 대한 패턴을 찾아내는데 특화되어 있으므로, 단백질-단백질 상호작용에 대해서도 두 단백질 사이의 진화정보만 잘 찾아 넣어준다면 1) 두 단백질이 결합을 하는지, 2) 결합한다면 어떤 구조를 이루는지를 예측해 낼 수 있지 않을까?

이러한 아이디어에서 출발하여 워싱턴 대학교의 데이비드 베이커 교수 연구팀은 로제타폴드와 알파폴드를 활용하여 효모에 존재하는 모든 단백질들 사이의 상호작용을 예측하여 사이언스에 그 결과를 발표하였다.[참고문헌 7] 로제타폴드, 알파폴드 모두 기존 DCA(Directed Coupling Analysis) 기반의 방식보다 단백질-단백질 상호작용 여부를 훨씬 더 잘 예측했을 뿐만 아니라, 실제 결합구조 역시 잘 예측함을 보 였다. 효모에 존재하는 모든 단백질 사이의 상호작용을 예측하여 1,500여 개의 단백질-단백질 상호작용을 밝히고 그 결합구조를 예측하여 공개하였다[그림 5]. 이러한 구조들은 실제 생화학 실험을 통해 검증되었으며, 이 구조들을 바탕으로 다양한 영역의 생명현상에 대해 분자 구조수준에서의 이해를 제공해 줄 것으로 기대되고 있다.

결 론

지난 50여 년간 수많은 연구자들에 의해 축적된 단백질 구조 예측에 대한 아이디어와 노하우는 인공지능을 만나면서 그 빛을 발하였다. 진화정보를 활용해 단백질의 구조를 예측하자는 아이디어와 인공지능이 결합되면서 단백질의 구조 예측에 비약적인 발전이 이루어졌으며, 인공지능 기반 단백질 구조 예측 연구는 생명과학 연구의 혁신이라고 평가받고 있다. 이러한 단백질 구조 예측 인공지능을 잘 활용하여 단백질의 단일 구조 뿐만 아니라 단백질-단백질 사이의 상호작용 예측과 결합구조 예측 역시 가능함이 증명되었다. 이러한 연구를 밑거름삼아 자연계에 존재하지 않는 새로운 단백질을 설계하는 인공지능[참고문헌 8,9] 단백질 뿐만 아니라 유기분자[참고문헌 10]나 핵산[참고문헌 11]을 고려할 수 있는 인공지능 등, 다양한 분야로의 응용이 활발히 이루어지고 있다. 인공지능이 불러온 생명과학 연구의 혁신은 여전히 현재 진행형이며 앞으로 인류가 당면하고 있는 다양한 보건, 에너지, 환경 문제 등의 해결에 큰 도움을 줄 것으로 기대되고 있다.

참고문헌

1. John Jumper, et al. “Highly accurate protein structure prediction with AlphaFold.” Nature 2021, 596(7873), 583-589. 2. Minkyung Baek, et al. “Accurate prediction of protein structures and interactions using a three-track neural network.” Science 2021, 373(6557), 871-876. 3. Debora S. Marks, et al. “Protein 3D structure computed from evolutionary sequence variation.” PloS one 2011, 6(12), e28766. 4. Sergey Ovchinnikov, et al. “Protein structure determination using metagenome sequence data.” Science 2017, 355(6322), 294-298. 5. Andrew W. Senior, et al. “Improved protein structure prediction using potentials from deep learning.” Nature 2020, 577(7792), 706-710. 6. Jianyi Yang, et al. “Improved protein structure prediction using predicted interresidue orientations.” Proceedings of the National Academy of Sciences 2020, 117(3), 1496-1503. 7. Ian R. Humphreys, et al. “Computed structures of core eukaryotic protein complexes.” Science 2021, 374(6573), eabm4805. 8. Ivan anishchenko, et al. “De novo protein design by deep network hallucination.” Nature 2021, 600(7889), 547-552. 9. Jue Wang, et al. “Scaffolding protein functional sites using deep learning.” Science 2022, 377(6604), 387-394. 10. Gabriele Corsoet al. “Diffdock: Diffusion steps, twists, and turns for molecular docking.” arXiv preprintarXiv:2210.01776, 2022. 11. Minkyung Baek, et al. “Accurate prediction of nucleic acid and protein-nucleic acid complexes using RoseTTAFoldNA.” bioRxiv 2022, 2022.09. 09.507333.

백 민 경 Minkyung Baek

• 서울대학교 화학부, 학사(2009.3－2013.2)

• 서울대학교 화학부, 박사(2013.3－2018.8, 지도교수: 석차옥)

• 서울대학교 화학부, 박사 후 연구원(2018.9－2019.3, 지도교수 : 석차옥)

• 워싱턴대학교 생화학부, 박사 후 연구원(2019.5－2022.7, 지도교수 : David Baker)

• 서울대학교 생명과학부, 조교수(2022.9－현재)