원료 기본 표현 벡터부터 예측용 표현 벡터 변환까지 전반적인 프레임워크에 대한 설명.
원료에 대한 시작 표현이 존재하며, 각 원료에 대해서 모델이 맞춤형으로 표현을 변화시킨다. 이 때, 만들어지는 원료 표현은 기본 원료 표현으로부터 시작될 수도 있고, 이와 상관없이 초기화 될 수 있다. 원료 표현이 변화되면, 이를 바탕으로 혼합물 표현 벡터를 만드는 모델이 원료 표현들을 섞어서 최종 모델에 집어넣는다.
충분히 많은 원료 표현들을 바탕으로 예측 모델을 학슶시키면, 신규 원료에 대해서 모델 학습 대신에 최적의 원료 표현을 찾기 위해서 튜닝하는 방식을 택한다. 이 때, 기존 학습된 모델과 원료 표현들의 파라미터는 바꾸지 않고, 새로운 원료 표현만 업데이트 한다.
학습에 포함되는 원료들은 모두 충분히 많은 처방에 사용된 원료들이다. 수많은 원료들을 빈도수로 나눌 경우, 나누는 빈도 수를 키울수록 포함되는 원료들은 적어 진다.
학습용 처방은 학습 원료들이 모두 포함된 처방들을 택한다. 예를 들어서, 빈도수 100번 이상의 원료들을 택하고, 해당 원료들이 모두 포팜된 처방의 수는 적어진다.
이 때, 학습에 포함된 처방이 있고, 학습에서 제외된 처방이 있다. 제외된 처방들은 1개 이상의 원료들이 미포함되었으며, 제외된 원료가 표현학습이 된다면 예측 가능한 처방으로 바뀐다. 따라서, 원료 미포함 개수가 적은 순서대로 처방들을 차례대로 학습해 나가는 순차적 원료 표현 학습 방식이 적합하다.
제외된 처방에 대해서 몇 개의 원료가 부족한 지 확인하고, 포함된 원료가 가장 적은 처방부터 차례대로 원료 표현을 최적화 한다. 이러한 학습 방법을 순차적 신규 원료 표현 최적화라고 부르자.
제외된 처방을 빈도수로 나타내면 다음과 같다. 아래 그림에서 5개 (파란색) 처방 사용을 기준으로 원료 개수를 제한하면, 300개 정도 처방까지는 단 1개의 신규 원료들이 포함되어 있다. 1개의 원료 표현들을 모두 최적화하면, 이후에는 2개의 신규 물질이 포함된 원료 표현들을 최적화 한다. 이러한 방법을 순차적으로 진행하여 최종적으로 모든 원료에 대한 표현을 최적화 한다.
신규 물질 원료 표현을 찾기 위한 검증 데이터 신규 물질 원료 표현을 평가하기 위한 평가 데이터 따라서 최소 2개의 처방이 필요하다. 만일 평가 데이터에 대해서 신규 물질 표현을 최적화한 상태가 더 높은 에러를 보이는 경우, 신규 물질 표현 최적화에 실패한 것으로 간주한다.
학습 데이터 처방은 모든 원료들이 충분히 많은 빈도로 나타나며, 또한 학습 데이터 처방 수가 충분해야 한다. 빈도수로 데이터를 나눌 경우, 빈도 수가 증가함에 따라서 데이터 수는 줄어들며, 점도 예측에서 제외되는 원료 수는 늘어난다. 최적의 빈도 수는 두 가지를 만족해야 한다.
이로부터 구해지는 최적의 빈도수는 아래 그래프에서 구할 수 있다.