이동선 | 삼성전자종합기술원,dongseon.lee@samsung.com
서 론
2016년 3월, 구글 딥마인드의 챌린지 매치, 이세돌 9단과 알파고의 대국이 있었고, 그로부터 불과 10년도 채 지나지 않은 2022년에는, 인공지능이 그린 그림이 콜로라도 주립 박람회 미술대회에서 우승을 차지하였다. 이러한 성과들이 우리에게 충격적으로 느껴지는 이유는, 아마 사람만이 할 수 있는 일이라고 생각한 것을 인공지능이 아주 능숙하게 수행해낼 수 있기 때문이다. 알파고의 충격적인 승리 직후 시점에 인공 지능에 의해 대체될 확률이 낮을 것으로 예측했던 직업들이 바로 화가, 디자이너, 작가 등 이른바 인간만의 고유한 특성이라고 여겨져 왔던 창의성이 필요한 직업 들이었다. 최근 등장한 챗GPT는 수준급의 작문 실력을 보여 주고 있으며, GPT-4는 글과 사진이라는 이형의 자료에 대해서도 능숙하게 해석하는 모습까지 보여주고 있다. 이 글에서는 다양한 인공 지능 알고리즘들이 어떻게 화학의 다양한 문제를 이해하고 풀어왔는지 일부 사례를 살펴보며 현재와 미래의 연구하는 모습에 대하여 논의해보려고 한다. 본 론
전통적으로 새로운 소재는 설계하고 합성하고 특성을 테스트하는 일련의 시행착오 과정을 통해 개발되어 왔다. 반면에, 소재 역설계, 이른바 인버스 디자인은 우리가 원하는 특정한 물성이 나오도록 물질의 구조나 조성을 디자인하는 계산 과학과 인공지능 방법론이다. 이 접근 방식은 일반적으로 소재와 물성 사이의 관계에 대한 대량의 데이터로부터 소재 디자인에 대한 지식을 습득하고, 이를 바탕으로 특정 물성을 만족할 가능성이 높은 소재들을 도출해낸다. 인공 지능을 활용한 소재 설계는 광학 소재, 메타 물질, 신약 개발 외에도 광범위하게 이루어지고있으며, 그 접근 방법도 전역 최적화 기법, 강화 학습, 생성형 신경망 모델 등 다양하다.
그림 1. 인공 지능을 이용한 소재 역설계의 흐름[참고문헌 1]
그림 2. 심층 인코더-디코더 방식의 모델의 구조와 동작. (왼쪽) 역설계 모델의 구조. (가운데) 모델이 생성한 분자들 구조의 예시. (오른쪽) 원본 및 생성된 분자들의 계산된 삼중항 에너지 분포.[참고문헌 1]
그림 3. (왼쪽) 변분 오토인코더의 구조. 코드로 표시된 부분이 잠재 공간을 의미한다. (가운데) 변분 오토인코더 모델의 2차원 잠재 공간에 학습된 MNIST 데이터. (오른쪽) 2차원 잠재 공간으로부터 디코더를 통과하여 무작위로 생성된 손글씨들.[참고문헌 2]
위의 예시 외에도 비교적 개념적으로 간단한 오토인코더를 활용한 방법을 살펴보고자 한다. 오토인코더는 인공 신경망 모델로서 데이터들의 특성을 추출하거나, 압축하는 작업을 수행하는데 주로 활용되는 모델이다. 오토인코더는 데이터를 더 작은 차원으로 압축하는 인코더와, 압축된 데이터를 다시 원본으로 복원하는 디코더의 두 부분으로 이루어진다. 신경망 모델은 인코더를 통해 압축된 데이터가 디코더를 통해 원래대로 정확히 복원되는 정도를 높이는 방향으로 학습된다. 손으로 쓴 숫자들로 이루어진 데이터베이스인 MNIST 데이터베이스에 대하여, 손글씨를 2차원의 데이터로 압축한 뒤 다시 복원하는 모델에 대한 사례가 대표적인 예시이다. 여기서 중요한 부분은 압축된 정보가 담겨 있는, 인코더와 디코더 사이에 있는 은닉층이며, 이를 잠재 공간이라고도 한다. 오토인코더의 한 변형인 변분 오토인코더를 활용하여 MNIST 데이터베이스의 손글씨를 학습한 사례를 보면, 2차원의 잠재 공간에서 0부터 9까지의 숫자가 어떻게 분포되어 있는지를 알 수 있다. 이제 인코더를 떼어내고, 잠재공간에서 우리가 원하는 숫자가 어디 즈음 있는지 안다면, 그와 비슷한 숫자들은 잠재공간의 해당 위치 근처의 한 점에서 디코더를 통과시켜 글씨를 복원함 으로써 얻어낼 수 있는 것이다.
이 과정을 똑같이 소재 설계에 똑같이 적용시켜볼 수 있다. 우리가 소재를 인공지능 모델이 이해할 수 있는 형태로 입력한 다음 오토인코더로 학습시키면 잠재 공간에는 소재의 구조적 특성에 대한 정보가 담긴다. 앞의 손 글씨 사례와 유사하게 잠재 공간의 한 점의 데이터를 골라 디코더를 통과시키면 우리가 변환한 분자의 표현식을, 즉, 그래프인 경우에는 그래프를, 문자열인 경우에는 문자열을, 분자 지문인 경우에는 분자 지문을 얻어낼 수 있다. 생성된 물질의 물성은 별도의 예측 모델이나 계산을 통하여 알아낼 수도 있고, 만일 우리가 잠재 공간이 어떤 물성과 관계가 있다는 것을 알 수 있다면 특정 지점으로부터 원하는 물성을 가지는 분자들을 생성해낼 수도 있다. 이러한 원리를 바탕으로 한 응용 기술들은 조금씩 변형되면서 지금 이 순간에도 계속 보고되고 있다.[참고문헌 3,4]
인공 지능은 새로운 소재를 제안하는 것 외에 어떻게 하면 그 소재를 합성할 수 있는지에 대한 계획도 수행할 수 있다. 유기 소재를 합성하기 위한 계획을 세우는 과정 중 목적 생성물을 얻기 위해 필요한 시작 물질이 될 조각들인 반응물을 찾는 역합성 과정이 있다. 최근 몇 년간 인공 지 능을 이용한 역합성 연구 또한 다양한 방법으로 시도되어 왔다. 전문가가 정의한 합성 규칙 중 적절한 것을 예측하는 방법, 생성형 모델을 활용하는 방법, 강화 학습 모델을 활용하는 방법 등이 있으며, 모든 경우에 분자는 역설계의 경우와 마찬가지로 다양한 방법으로 표현된다. 여러 방법들 중 인공지능 자연어 처리 기술이 역합성에 적용된 사례를 한 번 살펴보고자 한다. 앞에서 살펴본 바와 같이 유기 분자는 SMILES라는 문자열로 표현될 수 있다. 따라서, 다음 그림의 반응 예시에서 볼 수 있듯, 반응 또한 문자열로 표현이 가능하다. 이 때, 마치 대화에서 질의 응답 과정처럼, 생성물이라는 질문에 반응물이라는 대답을 내는 과정은 곧 역합성을 수행한 것과 같게 된다.
그림 4. (왼쪽) 구글이 발표한 트랜스포머의 구조.[참고문헌 6] (가운데) 역방향과 정방향 반응 데이터를 모두 학습한 역합성 모델의 예측 사례. (오른쪽) 역합성 모델이 생성한 반응 경로들 중 화학적으로 불가능한 분자를 포함한 반응의 비율. 양방향 반응 데이터를 모두 학습한 모델에서 개선됨을 확인[참고문헌 7]
문자열 표현식을 이용한 방법들 중에 주목할 만한 성취 중 하나는 2019년에 발표된 분자 트랜스포머이다.[참고문헌 5] 원래 트랜스포머는 2017년에 구글이 발표한 신경망 모델로서, 문장 속 단어와 같은 서열 데이터에 숨어있는 맥락과 의미를 학습하는 자연어처리 모델이다.[참고문헌 6] 이를 분자들의 반응에 대하여 앞서 언급한 바와 같은 행동을 하는 모델로 구성한 것이 분자 트랜스포머 모델이다. 다만 문자열을 활용하다 보니, 단 한 글자만 틀리더라도 화학적으로 말이 안 되는 문자열을 생성하는 문제가 발생한다. 예를 들어 에탄올은 SMILES로 “CCO”로 쓰이는데, 실수로 가운데 C를 방향 족 탄소만을 지칭하는 소문자 c로 쓰게 되면 이는 화학적으로 말이 안 되는 분자가 되는 것이다. 이러한 현상을 개선하기 위해 반응을 역합성만이 아닌 정방향 데이터를 동시에 활용하여 학습한 모델이 제안되었고, 위에서 발생하던 문제들이 현저히 줄어드는 것을 확인할 수 있다.[참고문헌 7] 여기서 인상적인 부분은 인공 지능 모델이 스스로 쓴 문자열 C가 의미하는 것이 탄소인지도 모른다는 것이다. 우리가 일련의 화학 반응에 대한 개념을 전혀 알려주지 않았음에도, 인공 지능 모델은 마치 화학적인 프로세스를 이해하고 있는 것 처럼 결과를 내줄 수 있다는 것이다. 이 과정에서 모델에게 알려준 것은 SMILES라는 문자열 형태로 변환된 많은 수의 반응 데이터들 외에는 없다.
결 론
지금까지 인공 지능을 통해 수행하는 연구의 한 측면들을 살펴보았다. 전반적으로 유기 소재 연구 중심으로 서술 하였으나, 앞에서도 언급했듯이 화학이 다루는 다른 많은 분야에도 활발하게 적용되고 있다. 인공지능 측면에서도 본문에서 언급한 방법 외에 적대적 생성 신경망(GAN), 심층 강화 학습 등 매우 다양한 방법들이 시도되고 있다. 또한, 보고된 방법들 대부분은 코드와 함께 공개되어 인공 지능 모델을 학습하려는 데이터만 있다면 누구든지 활용해볼 수 있다는 것도 중요한 지점이다. 사실 이 부분이 인공 지능 기반 연구 속도가 굉장히 빠르게 진척되는 이유 중 하나일 것이다.
최근 인공 지능 분야에서 큰 화두 중 하나는 범용 인공지능이다. 범용 인공지능이란, 특정한 조건에서나 과제에만 적용가능한 약인공지능과는 달리 여러 상황에 대하여 인간과 같이 다양한 과제를 처리할 수 있는 인공 지능을 말한다. 아직 이견은 있지만 딥마인드의 GATO나 오픈 AI의 GPT-4는 다른 형식의 데이터들 사이의 관계를 파악하거나 다양한 목적의 작업에 적용이 가능하다는 점에서 범용 인공 지능을 개발하는 길목에 있는 시도들로 보인다. 정확한 시점은 모르나, 어쩌면 온 세상의 모든 교과서의 글을 다 읽고 글과 관련된 도표와 그림도 동시에 파악하고 우리가 오랜 시간 배워온 개념을 이해하는 모델이 나올지도 모른다. 챗GPT의 등장 이후 GPT 모델을 연구 활동에 적용 하는 시도 또한 보고되고 있다.[참고문헌 8,9] 인공 지능 분야는 하루가 다르게 빠르게 움직이고 있다.
여기까지 읽었다면 아마 현재 인공지능이 수행하는 연구의 수준에 대하여 궁금할지도 모르겠다. 본문에 소개한 모델 들은 특정한 과제를 목적으로 만들어진 약인공지능 모델들이며, 화학 분야에서 발표되고 있는 수많은 보고들 또한 특정 목적을 잘 달성하기 위해 만들어진 모델들이다. 따라서 아직은 굉장히 좋은 계산기 수준에서 벗어나지 못한 것처럼 보이기도 한다. 인공지능 모델이 도출한 결과를 더 정확히 파악하기 위해 별도의 양자 화학적 계산이 필요할 수도 있고, 전문가의 판단이 필요하기도 하다. 하지만 적어도 현재는 연구원이 새로운 시도로 사용할 수 있는 도구로는 충분히 활용될 만한 가치가 있다고 생각한다. 궁금하다면, 그리고 가능하다면 지금이라도 공개된 코드들을 받아서 본인에게 얼마나 유용할 지 테스트해볼 수도 있다. 새로운 도구 들은 시간을 아껴줄 수 있다. 손으로 계산하는 대신 계산기를 사용하는 것처럼, 논문을 찾으러 도서관을 가는 대신 자리에 앉아서 웹 검색을 하는 것처럼, 그리고 마치 이 글을 작성할 때 챗GPT를 십분 활용한 것처럼 말이다.
참고문헌
1. Kim, K., Kang, S., Yoo, J. et al. “Deep-learning-based inverse design model for intelligent discovery of organic molecules.” npj Comput. Mater. 2018, 4, 67 2. Kingma, D. P., and Welling, M., Auto-Encoding Variational Bayes, 2013 DOI: 10.48550/arXiv.1312.6114 3. Wang, J., Wang, Y., and Chen, Y., “Inverse Design of Materials by Machine Learning.” Materials 2022, 15, 1811 4. Sridharan, A., Goel, M., and Priyakumar, U. D., “Modern machine learning for tackling inverse problems in chemistry: molecular design to realization.” Chem. Commun. 2022, 58, 5316 5. Schwaller, P., Laino,T., Gaudin, T. et al. “Molecular Transformer: A Model for Uncertainty-Calibrated Chemical Reaction Prediction.” ACS Cent. Sci. 2019, 5(9), 1572–1583 6. Vaswani. A., Shazeer, N., Niki Parmar. et al. Attention Is All You Need, 2017 DOI: 10.48550/arXiv.1706.03762 7. Kim, E., Lee, D., Kwon, Y. et al. “Valid, Plausible, and Diverse Retrosyn- thesis Using Tied Two-Way Transformers with Latent Variables.” J. Chem. Inf. Model. 2021, 61(1) 123–133 8. Polak, M. P., and Morgan, D., Extracting Accurate Materials Data from Research Papers with Conversational Language Models and Prompt Engineering -- Example of ChatGPT. 2023 DOI: 10.48550/arXiv.2303. 05352 9. Boiko, D. A., MacKnight, and R., Gomes. G., Emergent autonomous scientific research capabilities of large language models. 2023 DOI: 10.48550/arXiv.2304.05332
이 동 선 Dongseon Lee
• 서울대학교 화학부, 학사(2003.3-2007.2)
• 서울대학교 화학부, 박사(2007.3-2013.8, 지도교수 : 석차옥)
• 삼성전자 종합기술원 전문연구원(2013.9-현재)
Comments