[연구 11] 전체 프레임워크 및 학습 데이터 구성

원료 기본 표현 벡터부터 예측용 표현 벡터 변환까지 전반적인 프레임워크에 대한 설명.

이전 내용

AI 모델 공부 추가 (Transformer) —> (고도화 🚀)
Feature Vector 초기화로 학습
- Feature Vector 내용 넣을 거 가공 (성상, 기능)
- 경도, 점도, 비중, PH (고도화 🚀)
- 학습데이터는 원료 개수 신경X 만들기
테스트용 처방 몇 개 고르기: (대표적인 샘플) 📌 (검증)
- 테스트 처방 타입 1: 처방의 모든 원료가 학습 데이터에 쓰인 경우 : (2개)
- 테스트 처방 타입 2: 학습에 쓰이지 않은 원료가 1개 포함됨. : (2개)
- 테스트 처방 타입 3: 학습에 쓰이지 않은 원료가 많이 포함됨. : (2개)

원료 표현 학습 전체 파이프 라인

원료에 대한 시작 표현이 존재하며, 각 원료에 대해서 모델이 맞춤형으로 표현을 변화시킨다. 이 때, 만들어지는 원료 표현은 기본 원료 표현으로부터 시작될 수도 있고, 이와 상관없이 초기화 될 수 있다. 원료 표현이 변화되면, 이를 바탕으로 혼합물 표현 벡터를 만드는 모델이 원료 표현들을 섞어서 최종 모델에 집어넣는다.

기본 원료 표현 : 각 원료의 정보를 제공한다.
예측용 원료 표현 : 예측 모델을 위해 원료들의 표현이 변화된 상태이다.
혼합물 표현 : 예측용 원료 표현이 섞여서 혼합물 표현을 만든다.
예측값 : 혼합물 표현을 바탕으로 예측 모델이 예측한다.

새로운 원료에 대한 적응 방법

충분히 많은 원료 표현들을 바탕으로 예측 모델을 학슶시키면, 신규 원료에 대해서 모델 학습 대신에 최적의 원료 표현을 찾기 위해서 튜닝하는 방식을 택한다. 이 때, 기존 학습된 모델과 원료 표현들의 파라미터는 바꾸지 않고, 새로운 원료 표현만 업데이트 한다.

학습 데이터 구성

학습에 포함되는 원료들은 모두 충분히 많은 처방에 사용된 원료들이다. 수많은 원료들을 빈도수로 나눌 경우, 나누는 빈도 수를 키울수록 포함되는 원료들은 적어 진다.

학습용 처방은 학습 원료들이 모두 포함된 처방들을 택한다. 예를 들어서, 빈도수 100번 이상의 원료들을 택하고, 해당 원료들이 모두 포팜된 처방의 수는 적어진다.

이 때, 학습에 포함된 처방이 있고, 학습에서 제외된 처방이 있다. 제외된 처방들은 1개 이상의 원료들이 미포함되었으며, 제외된 원료가 표현학습이 된다면 예측 가능한 처방으로 바뀐다. 따라서, 원료 미포함 개수가 적은 순서대로 처방들을 차례대로 학습해 나가는 순차적 원료 표현 학습 방식이 적합하다.

순차적 원료 표현 학습

제외된 처방에 대해서 몇 개의 원료가 부족한 지 확인하고, 포함된 원료가 가장 적은 처방부터 차례대로 원료 표현을 최적화 한다. 이러한 학습 방법을 순차적 신규 원료 표현 최적화라고 부르자.

제외된 처방을 빈도수로 나타내면 다음과 같다. 아래 그림에서 5개 (파란색) 처방 사용을 기준으로 원료 개수를 제한하면, 300개 정도 처방까지는 단 1개의 신규 원료들이 포함되어 있다. 1개의 원료 표현들을 모두 최적화하면, 이후에는 2개의 신규 물질이 포함된 원료 표현들을 최적화 한다. 이러한 방법을 순차적으로 진행하여 최종적으로 모든 원료에 대한 표현을 최적화 한다.

요구사항

신규 물질 원료 표현을 찾기 위한 검증 데이터 신규 물질 원료 표현을 평가하기 위한 평가 데이터 따라서 최소 2개의 처방이 필요하다. 만일 평가 데이터에 대해서 신규 물질 표현을 최적화한 상태가 더 높은 에러를 보이는 경우, 신규 물질 표현 최적화에 실패한 것으로 간주한다.

최적의 개수 찾기

학습 데이터 처방은 모든 원료들이 충분히 많은 빈도로 나타나며, 또한 학습 데이터 처방 수가 충분해야 한다. 빈도수로 데이터를 나눌 경우, 빈도 수가 증가함에 따라서 데이터 수는 줄어들며, 점도 예측에서 제외되는 원료 수는 늘어난다. 최적의 빈도 수는 두 가지를 만족해야 한다.

충분한 빈도 수를 가질 것.
충분한 처방 수를 가질 것.
적은 수의 추가 원료 학습.

이로부터 구해지는 최적의 빈도수는 아래 그래프에서 구할 수 있다.