화합물 생성AI 기술로 신약 개발 앞당긴다
화합물 생성AI 기술로 신약 개발 앞당긴다
  • 이웃집편집장
  • 승인 2024.03.26 01:03
  • 조회수 939
  • 댓글 0
이 기사를 공유합니다

신약 개발이나 재료과학과 같은 분야에서는 원하는 화학 특성 조건을 갖춘 물질을 발굴하는 것이 중요한 도전으로 부상하고 있습니다. KAIST 연구팀은 화학반응 예측이나 독성 예측, 그리고 화합물 구조 설계 등 다양한 문제를 동시에 풀면서 기존의 인공지능 기술을 뛰어넘는 성능을 보이는 기술을 개발했는데요.

 

KAIST는 김재철AI대학원 예종철 교수 연구팀이 분자 데이터에 다중 모달리티 학습(multi-modal learning) 기술을 도입해, 분자 구조와 그 생화학적 특성을 동시에 생성하고 예측이 가능해 다양한 화학적 과제에 광범위하게 활용가능한 인공지능 기술을 개발했다고 25일 밝혔습니다.

 

심층신경망 기술을 통한 인공지능의 발달 이래 이러한 분자와 그 특성값 사이의 관계를 파악하려는 시도는 꾸준히 이루어져 왔는데요. 최근 비 지도 학습(unsupervised training)을 통한 사전학습 기법이 떠오르면서 분자 구조 자체로부터 화합물의 성질을 예측하는 인공지능 연구들이 제시되었으나 새로운 화합물의 생성하면서도 기존 화합물의 특성 예측이 동시에 가능한 기술은 개발되지 못했습니다.

 

연구팀은 화학 특성값의 집합 자체를, 분자를 표현하는 데이터 형식으로 간주해 분자 구조의 표현식과 함께 둘 사이의 상관관계를 아울러 학습하는 AI학습 모델을 제안했습니다. 유용한 분자 표현식 학습을 위해 컴퓨터 비전 분야에서 주로 연구된 다중 모달리티 학습 기법을 도입했는데요. 두 다른 형식의 데이터를 통합하는 방식입니다. 이를 통해 바라는 화합물의 성질을 만족하는 새로운 화합물의 구조를 생성하거나 주어진 화합물의 성질을 예측하는 생성 및 성질 특성이 동시에 가능한 모델을 개발했습니다.

제안하는 모델을 활용한 입력 특성값의 분자 구조 변환 결과. (1열) 주어진 기준 분자의 특성값 벡터(PV)를 그대로 입력하여 출력된 분자 구조로, 입력값과 일치하는 특성을 보인다. (2~5열) 기준 분자의 특성값 벡터에서 일부 항목을 임의로 변경하여 입력했을 때의 분자 구조 출력 결과는 바뀐 입력 조건을 반영하면서도 그 외의 특성을 유지한다.출처: KAIST
제안하는 모델을 활용한 입력 특성값의 분자 구조 변환 결과. (1열) 주어진 기준 분자의 특성값 벡터(PV)를 그대로 입력하여 출력된 분자 구조로, 입력값과 일치하는 특성을 보인다. (2~5열) 기준 분자의 특성값 벡터에서 일부 항목을 임의로 변경하여 입력했을 때의 분자 구조 출력 결과는 바뀐 입력 조건을 반영하면서도 그 외의 특성을 유지한다.출처: KAIST

연구팀이 제안한 모델은 50가지 이상의 동시에 주어지는 특성값 입력을 따르는 분자 구조를 예측하는 등 분자의 구조와 특성 모두의 이해를 요구하는 과제를 해결하는 능력을 보였습니다. 이러한 두 데이터 정보 공유를 통해 화학반응 예측 및 독성 예측과 같은 다양한 문제에도 기존의 인공지능 기술을 뛰어넘는 성능을 보이는 것으로 확인됐습니다.

 

이 연구는 독성 예측, 후보물질 탐색과 같이 많은 산업계에서 중요하게 다뤄지는 과제를 포함해, 더 광범위하고 풍부한 분자 양식과 고분자, 단백질과 같은 다양한 생화학적 영역에 적용될 수 있을 것으로 기대됩니다.

 

KAIST 예종철 교수는 “새로운 화합물의 생성과 화합물의 특성 예측 기술을 통합하는 화학분야의 새로운 생성 AI기술의 개척을 통해 생성 AI 기술의 저변을 넓힌 것에 자부심을 갖는다”고 말했습니다.

연구 결과는 국제 학술지 ‘네이처 커뮤니케이션즈(Nature Communications)’지난 3월 14일 자 온라인판에 게재됐습니다.

논문명 : Bidirectional Generation of Structure and Properties Through a Single Molecular Foundation Model

 

#용어설명

[1] 비지도 학습 (Unsupervised learning)

특정 입력에 대해 레이블(label)로 사용할 수 있는 올바른 정답이 존재하지 않는 데이터 집합이 주어진 경우의 학습

[2] 심층신경망 (Deep neural network, DNN)

뇌의 생물학적인 신경 연결망을 모방하여 다층의 인공세포를 구성하고, 빅 데이타를 이용하여 연결망의 강도를 학습시키는 인공지능 알고리즘

[3] 다중 모달리티 학습 (Multi-modal learning)

이미지와 텍스트, 문자열과 오디오 데이터 등 복수의 형식을 가진 데이터들을 동시에 활용하여 이들 사이의 상관관계를 파악하거나 관련 문제를 해결하고자 하는 심층신경망 학습 방법론

[4] SMILES (Simplified Molecular-Input Line-Entry System)

1980년 제안된 알파벳, 숫자, 특수문자 등을 사용하여 분자 내 원자들의 결합 관계를 온전히 묘사하는 문자열 표기 방식


댓글삭제
삭제한 댓글은 다시 복구할 수 없습니다.
그래도 삭제하시겠습니까?
댓글 0
댓글쓰기
계정을 선택하시면 로그인·계정인증을 통해
댓글을 남기실 수 있습니다.

  • 충청남도 보령시 큰오랏3길
  • 법인명 : 이웃집과학자 주식회사
  • 제호 : 이웃집과학자
  • 청소년보호책임자 : 정병진
  • 등록번호 : 보령 바 00002
  • 등록일 : 2016-02-12
  • 발행일 : 2016-02-12
  • 발행인 : 김정환
  • 편집인 : 정병진
  • 이웃집과학자 모든 콘텐츠(영상,기사, 사진)는 저작권법의 보호를 받은바, 무단 전재와 복사, 배포 등을 금합니다.
  • Copyright © 2016-2024 이웃집과학자. All rights reserved. mail to contact@scientist.town
ND소프트