중간 평가 피드백 및 전반적인 방향에 대한 논의.
물성 예측 모델의 목표는 물질 정보와 양을 바탕으로 혼합된 물질의 성질을 예측하는 것이다. 중간 단계에서 제안한 방법은 원료에 대한 표현 벡터를 섞어 혼합물 표현 벡터를 만들고, 딥러닝으로 예측하는 방식이다. 이러한 기본적인 프레임워크에서 믿을 수 있는 모델을 만들기 위해서 세부 분야들을 고도화 해야 한다. 대표적인 세부 분야들은 다음과 같다.
네 가지 요소들은 예측 성능이 우수하고, 신뢰할 수 있고, 가능성이 높은 물성 예측 모델을 만들기 위해서 필요하다. 피드백 당시 거론된 주요 사항은 (1) 성능의 검증에 대한 정확한 잣대, (2) 예측 모델의 성능을 더욱 올려서 기본기에 충실하는 연구의 필요성이었다. 요구사항을 만족하기 위해서는 인공지능 모델의 성능을 올리면서, 믿을 수 있는 방법으로 평가 되어야 한다.
현재 기본 모델 구조에서 혼합물 벡터는 각 원료 벡터를 응축한 형태이므로 무수히 많은 원료가 생겨난다면 표현력이 부족할 수 있다. 이를 개선하기 위해서 모델 구조를 더욱 고도화 해야 한다.
데이터셋에 대한 설계는 모델의 역량을 이해하는데 도움을 준다. 학습 데이터를 보면 정확히 어떤 정보에 대해서 모델이 학습했고, 테스트 데이터를 보면, 어떤 데이터로 평가했는지 제 3자가 쉽게 판단할 수 있다. 명시적인 학습 및 테스트 구분을 위해 두 가지 측면에 대해서 테스트용을 따로 만들어야 한다.
테스트 물질과 테스트 처방은 모델이 관찰하지 않은 물질, 처방에 대해서 얼마나 잘 적응하는지 보여주는 지표이다. 중간 평가 당시 평균적인 에러 수준을 보여줬을 뿐, 샘플이 적은 물성에 대해서 얼마나 잘 예측하는지, 물성 예측이 어려운 처방에 대해서 얼마나 잘 작동하는지 보여주지 못했다. 이를 개선하기 위해서는 테스트용으로 따로 데이터를 구분해야 한다. 따라서 명시적으로 원료와 처방을 검증 및 테스트 (validation and test)로 구분하여 준비해야 한다.
물성 예측 모델의 자동화를 위해서는 1,2,3 단계가 존재하며, 1단계에서는 실무자가 모델을 사용해보고 쓸만한지 판단한다. 2단계에서는 쉬운 부분에 대해서 모델에게 위임한다. 3단계에서는 완전 자동화를 진행한다. 단계적 전환을 위해서는 실제 모델을 사용하여, 모델을 평가하는 것이 중요하다. 일정 기간 모델을 사용해보고 얼마나 믿을만 한지, 시간과 비용을 단축시키는 효과가 있는지 측정하는 것이 중요하다.
index | 피드백 | 수정 및 보완 계획 |
---|---|---|
1 | 기반 기술이 탄탄해야 한다. 현재 모델 성능에 만족하기 보다 성능을 더욱 올릴 필요 있음. | 데이터 학습 방법 및 모델 개선 |
2 | 점도 예측은 불충분함. | 추가적인 예측 목표 설정 |
3 | 실무자의 사용과 병향하는 AI 적용 1,2,3단계 활용을 고려해야 한다. | 실무적인 사용 고려 및 세팅 실행. 주기적인 측정. |
4 | 원료 사용 빈도에 대해서 고민해야 한다. | 학습 및 테스트용 원료를 구분한다. |
5 | 예측이 어려운 것을 AI로 잘 맞추는 데모가 필요하다. | 어려운 예시, 대표되는 처방 선정. |
6 | 원하는 물성에 대해서 비용을 절감하는 물질을 찾을 수 있음 | - |
최종 목표의 세 가지 요소는 (1) 모델 개선, (2) 테스트용 데이터 선정, (3) 예측 물성 확장이다. 세 분야에 대한 연구 및 개발은 필수적으로 이루어진다.
원료 표현 벡터들에 대한 시각화 및 이해는 실무자와 인공지능 모델의 의사소통을 위해서 필수적이다. 그러나, 우선적으로 중요한 점은 예측 모델을 더욱 고도화하고, 유용하도록 학습하고, 다양한 물성을 예측하도록 학습하는 것이다. 성능에 대한 우선적인 보장이 주어진 상태에서 원료 표현들을 해독하고, 대체 원료를 찾거나 원료 표현들을 이해하는 연구가 가능하다. 따라서, 본 원료 표현 벡터 관련된 연구는 앞에서 설정한 세 가지 목표가 달성된 다음에 진행하는 게 맞다.