김우연 | KAIST 화학과, wooyoun@kaist.ac.kr
서 론
인공지능(AI)은 인간의 지능을 모방할 수 있는 기술의 한 유형이다. 데이터를 학습하고, 패턴을 찾을 수 있는 모든 기술을 포함한다. 이 기술은 컴퓨터 비전, 자연어 처리 및 기계 학습을 포함한 다양한 분야에서 사용되고 있다. 딥러닝은 최근 가장 주목받는 인공지능의 한 유형으로, 가공을 하지 않은 데이터 원형으로부터 학습할 수 있도록 하는 기술이다. 딥러닝은 인간의 뇌구조를 흉내 내어 고안된 심층 신경망(Deep Neural Network)이라는 기술을 사용하여 작동한다. 딥러닝은 다양한 분야에서 다른 인공지능 기술 보다 훨씬 강력한 성능을 발휘한다. 특히, 빅데이터 활용이 가능한 이미지 분류, 자연어 처리 및 언어 번역을 포함한 특정 영역에서는 인간을 능가하기도 한다. 딥러닝의 압도적인 성능을 보여주는 대표적인 예는 2016년에 이세돌을 이기면서 혜성처럼 등장한 알파고가 아닐까? 이른바 알파고 모멘트는 전세계에 딥러닝 시대의 시작을 알리는 서막에 불과했다. 알파고를 개발한 딥마인드는 2020년 알파폴드2를 통해 50년 동안 난제로 남아 있던 단백질의 3차원 구조 예측 문제를 완벽에 가깝게 풀어 내면서 과학계를 흔들어 놓았다.[참고문헌 1] 그 이후로 딥러닝은 다양한 분야에서 성공을 거두었으며 생성 AI는 이러한 성공의 최전선에 있다.
생성 AI(Generative AI)는 데이터로부터 학습된 패턴을 이용해 데이터의 분포와 유사 하지만, 데이터에는 없는 새로운 콘텐츠를 만들어 내는 인공지능이다. 텍스트, 이미지, 음악 및 비디오를 포함한 다양한 형식의 콘텐츠에 활발히 적용되고 있다. 생성 AI의 가장 주목할 만한 성공 사례는 OpenAI의 ChatGPT 모델이다. 텍스트를 생성하고, 언어를 번역하고, 다양한 종류의 창의적인 콘텐츠를 작성할 수 있다. 현재는 ChatGPT를 활용한 다양한 애플리케이션이 쏟아지고 있고, 일상생활 속에서 생성 AI를 어렵지 않게 체험하고 있다. 2022년에는 ChatGPT가 과학 논문의 저자 로도 등장한 바 있다. 전문적인 글을 영문으로 자연스럽게 작성하고, 글의 스타일을 쉽게 바꿀 수 있기 때문에 논문 작성에 많은 도움이 된다. 나아가 ChatGPT의 프롬프트 (대화형 AI에 입력하는 문구)를 활용하여 논문의 특정 데이터를 추출하거나 화합물의 물성 예측에 활용하는 등 다 양한 방식으로 과학연구에 활용되고 있다.
생성 AI는 신약개발, 유기전자재료 등 다양한 형태의 분자설계에도 사용되고 있다. 거대 언어 모델(Large Language Model; LLM)이 언어 빅데이터를 통해 학습하여, 언어를 생성해 내듯 분자 빅데이터를 학습한 생성 AI는 학습한 분자 분포의 패턴에 맞추어 새로운 분자를 생성해 낸다. 펩타이드를 학습하면 펩타이드를 생성하고, 약물과 유사한 분자를 학습하면, 마찬가지로 약물 가능도가 높은 분자를 생성해 낸다. 생성 AI는 분자 설계 분야에서 혁명을 일으킬 잠재력이 있다. 2019년『Nature Biotechnology』에 소개 된 논문에 따르면, 생성 AI를 통해 불과 21일만에 항암제로 쓰일 수 있는 선도물질을 도출할 수 있었다고 한다.[참고문헌 2] 통상적으로 선도물질 도출에 2년 이상 걸리는 것을 고려하면, 놀라운 결과가 아닐 수 없다. 이렇듯 생성 AI 기반 분자 설계는 기존의 방식과는 차원이 다른 방식으로 신물질을 만들 수 있고, 그 결과 인류에게 큰 이익이 될 수 있다. 본 총설에서는 분자 설계에 초점을 맞추어 생성 AI의 원리를 소 개하고, 구체적인 연구 사례를 통해 최신 연구 동향을 살펴 보고자 한다.
본 론
1. 딥러닝 기반 생성 AI를 활용한 분자 설계 방법의 원리
최근 인공지능 이론과 기술의 비약적 발전과 많은 양의 데이터가 축적됨에 따라 인공지능은 데이터로부터 분자의 구조와 특성 간의 복잡한 비선형 관계(structure-property relationship)를 학습할 수 있게 되었다. 특히, 딥러닝 기반 생성 AI를 활용해 특성에 맞는 분자 구조를 설계하는 역설계(inverse design) 방법이 가능해졌다.[참고문헌 3] [그림 1]에서처럼 역설계 방법은 기존의 방법에 비해 몇 가지 장점이 있다. 첫째, 분자 구조-특성 관계를 기반으로 특성에 맞는 분자를 설계하기 때문에 새로 생성된 분자들의 특성이 목적에 부합할 가능성이 매우 크다. 둘째, 생성 AI의 특성상 기존의 방법에서는 찾을 수 없었던 새로운 분자 구조를 발견할 수 있다. 셋째, 실험으로 검증된 결과는 데이터로 재활용되어 인공지능의 성능을 높임으로써 설계 및 실험 검증의 사이클을 완성할 수 있다. 그 결과 기존의 방법보다 효율적으로 특성에 맞는 새로운 분자를 설계할 수 있다. 생성 AI를 활용한 역설계 기법은 아직 개발 초기 단계에 있지만, 기존의 비효율적인 프로세스를 획기적으로 개선할 수 있다는 점에서 높은 잠재력이 있다.
앞서 설명한대로 생성 AI는 데이터의 확률 분포를 학습하고, 이 확률 분포에 따라 새로운 데이터를 샘플링 함으로써 데이터와 유사한 콘텐츠를 생성하는 인공지능 모델이다. 분자 생성 모델은 분자 구조의 분포를 학습하고, 이로 부터 새로운 분자 구조를 생성하는 생성 AI의 한 유형이라 할 수 있다. 이 기술은 인공지능 기반 역설계의 핵심 요소이다. 특히, 분자 구조와 함께 각 분자의 특성을 데이터에 반영하여 분자 구조-특성 관계의 확률 분포를 동시에 학습 할 수 있다면, 원하는 특성 값을 가지는 분자를 높은 확률로 생성할 수 있다. 여러 생성 AI 방법 중 [그림 2a]와 같이 잠재 공간(latent space 또는 embedding space)을 이용한 분자 생성 모델은 분자들의 복잡한 구조와 특성 간의 관계를 잠재 공간 상에서 효과적으로 표현하고 학습할 수 있다.[참고문헌 4] 잠재 공간 상에서 각각의 분자는 하나의 잠재 벡터(latent vector 또는 embedding vector)로 표현된다. 이때 잠재 벡터가 분자의 특성을 내포하고 있다면, 최적의 특성 값을 갖는 분자 구조를 베이지안 최적화와 같은 알고리즘을 통해 잠재 공간상에서 탐색할 수 있게 된다[그림 2b 참조].
그림 1. 전통적인 소재 개발 과정과 생성 AI를 활용한 소재 개발 비교. [출처: Science 2018, 361, 360.]
그림 2. 분자 역설계의 도식적 표현. (a) 분자생성모델의 하나인 Auto-Encoder의 구조. (b) 잠재공간을 통한 분자특성 최적화. [출처: ACS Cent.Sci. 2018, 4, 268.]
생성 AI가 분자 구조-특성 관계의 확률 분포를 학습하기 위해서는 분자의 특성과 구조를 컴퓨터가 인식할 수 있는 형태로 표현하여야 한다. 특히 분자 생성 모델에서 분자구조의 전산적 표현은 분자 구조 분포의 학습 과정에 직접 적인 영향을 미치기 때문에 채택한 분자 구조 표현에 따라 분자 생성 모델의 학습 능력 및 생성 능력에 있어 차이가 생길 수 있다. [그림 3]에서 보듯 분자 구조의 전산적 표현에는 다양한 방법들이 있으며, 현재 가장 널리 사용되는 표현법으로는 분자 지문(molecular finger print), SMILES (Simplified Molecular-Input Line-Entry System)와 같은 문자열 표현법과 분자 그래프(molecular graph)가 있다.[참고문헌 3] 어떤 분자 표현형을 사용하느냐에 따라 해당 표현형에 적합한 심층 신경망 아키텍처를 선택해야 한다. 예를 들어 분자 구조를 SMILES나 분자 지문처럼 문자열로 표현할 경우 시퀀스에 적합한 RNN(Recurrent Neural Network) 또는 ChatGPT에서도 활용되는 트랜스포머(Transformer) 같은 방법을 적용할 수 있고, 분자 그래프의 경우 그래프 신경망(Graph Neural Network; GNN)이 적합하다. 분자와 특성이 반영된 데이터와 더불어 분자 구조를 표현하는 표현형과 이에 적합한 심층 신경망 아키텍처를 선택했다면, 분자 생성 모델을 개발할 준비가 완료된다.
그림 3. 인공지능 기반 분자설계와 특성예측에 사용되는 분자의 표현법들. [출처: Science 2018, 361, 360.]
2. 분자 생성 모델 종류에 따른 최신 연구 동향
분자 생성 모델은 2018년을 전후로 폭발적인 관심을 받으면서 등장했고, 지금도 활발히 연구되고 있다. 생성 AI 기반 분자 설계 연구의 종류는 크게 채택하는 분자 구조의 표현법, 통계적 모델의 종류, 관심 특성에 따라 나뉘어진다. 초기는 분자 구조 표현법으로 대부분의 분자 데이터베이스가 채택하는 SMILES를 채택하였고, 생성 모델로는 RNN와 같은 원시적인 언어 모델 또는 초기 이미지 생성에 주로 활용되던 VAE(Variational Auto-Encoder)나 GAN (Generative Adversarial Network)을 활용하였다. 여기에 알파고의 핵심 기술인 강화학습을 활용하여 분자의 특성을 최적화하는 연구가 진행되기도 했다. 최근에는 생성된 분자의 합성 가능성을 높이거나 기존 데이터의 분포에서 벗어난 신규 구조를 생성하는 모델, 3차원 분자 구조 생성, 단백질과 같은 거대 분자 설계, 결정 구조 생성 등 보다 실용 적인 관점에서 다양한 생성 모델 연구가 진행되고 있다. 이번 장에서는 이러한 대표적인 연구 사례 조사를 통해 최신 연구 동향을 간략히 살펴보고자 한다.
연구 사례 1. SIMLES 기반 분자 생성 모델
SMILES는 문자열로 분자 구조를 표현하는 대표적인 방법이다. [그림 4]에서처럼 SMILES의 각 문자를 순서대로 RNN에 입력하면, 차례대로 다음 문자를 예측하는 방식으로 학습한다.[참고문헌 5] 이 연구에서는 분자의 약물 활성 데이터를 담고 있는 ChEMBL 데이터베이스로부터 140만개의 SMILES를 학습함으로써 약물 활성 분자에 대한 확률 분포를 선행 학습(pre-training)하고, 특정 질병에 대한 소수의 약물 활성 데이터를 활용해 사후 학습(fine tuning) 을 진행한다. 학습된 생성 모델은 ChatGPT처럼 SMILES 의 시작 문자를 입력하면, 순서대로 다음 문자를 생성하고, 이들을 연결함으로써 새로운 분자 구조를 표현하는 SMILES를 완성할 수 있다. 이때 생성 AI의 원리에 따라 새롭게 생성된 분자는 사후 학습된 데이터의 확률 분포를 따르기 때문에 해당 질병에 적합한 약물 후보 구조를 높은 확률로 생성하게 된다. 2018년에는 SMILES를 기반으로 VAE를 활용한 분자 생성 모델이 소개된 바 있다. 분자의 특성을 조절하기 위해 [그림 2]와 같이 분자의 특성을 동시에 학습하거나 분자의 특성을 잠재 벡터에 조건부로 삽입 하여 학습하는 방식(Conditional VAE; CVAE)이 도입되면서 보다 고도화된 분자 설계가 가능해졌다.[참고문헌 4,6]
그림 4. SMILES 분자 표현법과 RNN을 이용한 분자 생성 모델 예시. [출처: ACS Central Science 2017, 4, 120.]
그림 5. 분자 조각의 조립 방식으로 분자구조를 생성하는생성 AI 예시. [출처: Advanced Science 2023, 10, 2206674.]
연구 사례 2. 분자 그래프 기반 분자 설계
분자를 구성하는 원자와 공유 결합을 각각 그래프의 노드와 엣지로 표현함으로써 분자 구조를 보다 직관적으로 표현할 수 있다. SMILES는 작은 작용기의 차이에도 문자 열의 변화가 커서 미세한 분자 구조 표현에 적합하지 않다. 그 결과 생성된 SMILES가 제대로 된 분자 구조로 변환되지 않는 경우가 많다. 2020년에는 원자를 하나씩 연결해서 완성된 그래프를 생성하는 분자 그래프 기반 VAE 모델이 소개된 바 있다.[참고문헌 7] 이 방법의 특징은 원자를 붙여 그래프를 완성하기 때문에 최종 생성된 그래프가 곧바로 분자 구조로 변환된다. 하지만 원자 단위로 하나씩 추가하다 보면, 고리 모양과 같이 복잡한 분자 구조를 형성하기 어렵고, 완성된 분자의 합성 가능성이 낮다. 이를 개선하기 위해 원자 대신 그림 5에서 보듯 구매 가능한 화합물 조각 단위로 그래프를 완성하는 방법이 2023년에 제안되었다.[참고문헌 8] 분자 조각을 조립할 때 역합성 방법의 원리에 따라 결합 부위를 결정함으로써 합성 가능성을 높일 수 있다. 또한 분자의 특성을 조건부로 동시에 학습함으로써 구조 뿐 아니라 분자의 특성까지 쉽게 조절할 수 있다.
연구 사례 3. 강화학습을 통한 신약 후보 물질 설계
알파고로 유명해진 강화 학습은 에이전트가 마치 바둑처럼 주어진 시나리오에 따라 반복되는 선택의 과정에서 보상을 최대화하기 위한 최적의 결정 방식을 학습하는 인공 지능의 한 유형이다. 2018년에 발표된 논문에서는 분자의 특성을 최적화하기 위해 SMILES 기반의 분자 생성 모델에 강화학습 방식을 활용하였다.[참고문헌 9] 분자의 구조적 특징(고리 개수 등), 녹는점, 분배계수와 같은 기본적 특성, 그리고 약물 개발의 목적으로 특정 단백질에 대한 억제도를 강화학 습을 통해 최적화할 수 있음을 보였다. 2019년『Nature Biotechnology』에 소개된 GENTRL 방법은 분자 그래프 기반의 VAE와 더불어 강화학습을 이용해 분자의 다양한 물성을 목적에 맞게 최적화함으로써 DDR1 단백질에 대한 억제제를 설계할 수 있었고, 단 21일 만에 합성과 실험검증을 마친 선도물질을 도출하는데 성공하였다.[참고문헌 2]
그림 6. VAE를 활용한 아미노산 서열 생성 기반 펩타이드 설계. [출처: Nature Biomedical Engineering 2021, 5, 613–623.]
연구 사례 4. VAE를 이용한 펩타이드 설계
생성 AI는 저분자 화합물 뿐만 아니라 펩타이드나 단백질과 같은 거대 분자 설계에도 활용된다.[참고문헌 10] 이 연구에서는 VAE 기반 생성 AI를 활용해 항균물질에 적합한 펩타이드를 성공적으로 설계한 바 있다. 펩타이드나 단백질은 일반 저분자 화합물과 달리 아미노산의 서열정보 만으로 구조를 표현할 수 있다. 이렇게 문자열로 표현된 정보는 시퀀스 인식에 적합한 다양한 심층 신경망을 적용할 수 있다. [그림 6]에서처럼 아미노산 서열 정보를 VAE를 통해 잠재 공간에 매핑한 후 물성을 조절한 펩타이드를 생성한다. 이후 심층 학습 분류기와 고속 분자 동역학 시뮬레이션을 통해 생성된 펩타이드 중 최적의 후보를 선택한다. 이 방법으로 48일 내 에 20개의 후보 항균 펩타이드를 합성 후 실험 검증하였고, 마우스 실험 및 세포 실험을 통해 최종 2종의 후보 물질을 도출할 수 있었다.
결 론
앞서 살펴본 대로 생성 AI에 대한 잠재적 이점에도 불구 하고 몇 가지 우려 사항도 있다. 한 가지 우려는 생성 AI가 잘못된 정보를 생성하는 데 사용될 수 있다는 것이다. 예를 들어, 생성 AI는 가짜 뉴스 기사나 가짜 과학 논문을 생성 하는 데 사용될 수 있다. 또 다른 우려는 생성 AI가 사람들을 속이는 데 사용될 수 있다. 예를 들어, 생성 AI는 사람들에게 자신을 다른 사람으로 가장하거나 존재하지 않는 것을 존재하는 것처럼 보이게 만드는 데 사용될 수 있다. 마찬가지로 생성 AI 기반 분자 설계도 우려할 점들이 존재한다. 생성 AI로 설계한 분자들의 합성 가능성이나 예측된 특성에 대한 신뢰도가 높지 않다. 자연어나 이미지 분야에 비해 학습에 활용될 데이터의 양이 매우 적기 때문이다. 더 심각하게는 약물 개발을 목적으로 개발된 분자 설계 생성 AI를 이용해 단 6시간 만에 4만 종의 화학무기 후보 물질을 찾아 낼 수 있다는 연구 결과가 2022년『Nature Machine Intelligence』에 보고된 바 있다.[참고문헌 11] 이러한 우려에도 불구 하고 생성 AI는 세상을 변화시킬 수 있는 강력한 도구이다. 생성 AI가 책임감 있고 윤리적으로 사용되도록 하는 것이 중요하다. 그래야만 생성 AI의 잠재적인 이점을 누리고 잠재적인 위험을 최소화할 수 있다. 생성 AI는 아직 개발 초기단계에 있지만, 이미 우리 삶에 큰 영향을 미치기 시작했다. 앞으로 어떤 놀라운 일을 할 수 있을지 기대된다.
참고문헌
1. John Jumper et al., “Highly accurate protein structure prediction with AlphaFold.” Nature 2021, 596, 583–589.
2. Zhavoronkov, A., Ivanenkov, Y.A., Aliper, A. et al. “Deep learning enables rapid identification of potent DDR1 kinase inhibitors.” Nature Biotechnology 2019, 37, 1038–1040.
3. Benjamin Sanchez-Lengeling and Alan Asupuru-Guzik, “Inverse molecular design using machine learning: Generative models for matter engineering.” Science 2018, 361, 360-365.
4. Rafael Gomez-Bombarelli et al., “Automatic Chemical Design Using a Data-Driven Continuous Representation of Molecules.” ACSCentral Science 2018, 4, 268-276.
5. Marwin H. S. Segler, Thierry Kogej, Christian Tyrchan, and Mark P. Waller, “Generating Focused Molecule Libraries for Drug Discovery with Recurrent Neural Networks.” ACS Central Science 2018, 4, 120–131.
6. Jaechang Lim, Seongok Ryu, Jin Woo Kim, Woo Youn Kim, “Molecular generative model based on conditional variational autoencoder for de novo molecular design.” Journal of Cheminformatics 2018, 10, 1-9.
7. Jaechang Lim, Sang-Yeon Hwang, Seokhyun Moon, Seungsu Kim, Woo Youn Kim, “Scaffold-based molecular design with a graph generative model.” Chemical Science 2020, 11, 1153-1164.
8. Seonghwan Seo, Jaechang Lim, Woo Youn Kim, “Molecular Generative Model via Retrosynthetically Prepared Chemical Building Block Assembly.” Advanced Science 2023, 10, 2206674.
9. Mariya Popova, Olexandr Isayev, and Alexander Tropsha, “Deep rein- forcement learning for de novo drug design.” Science Advances 2018, 4, eaap7885.
10. Payel Das et al., Accelerated antimicrobial discovery via deep generative models and molecular dynamics simulations.” Nature Biomedical Engineering 2021, 5, 613–623.
11. Fabio Urbina, Filippa Lentzos, Ced́ric Invernizzi, and Sean Ekins, “Dual use of artificial-intelligence-powered drug discovery.” Nature Machine Intelligence 2022, 4, 189-291.
김우연 Woo Youn Kim
• POSTECH 화학과, 학사(1997.3-2004.2)
• POSTECH 화학과, 계산화학 박사 (2004.3-2009.2, 지도교수 : 김광수)
• POSTECH 화학과, 박사 후 연구원 (2009.3-2009.9, 지도교수 : 김광수)
• MPI Microstructure Physics, 박사 후 연구원 (2009.10-2010.12, 지도교수 : Hardy Gross)
• KAIST 화학과 조교수/부교수/교수(2011.1-현재)
• ㈜HITS CEO(2020.5-현재)
Comentarios