[연구 15] 원료 정보를 활용한 모델링

원료 정보를 포함한 실험 결과

1. 처방 물성 예측 문제

처방의 물성을 예측하는 문제는 신경망에 처방의 정보와 예측 물성의 정보를 넣어 기대값을 예측하는 문재이다. 입력으로 들어가는 정보는 원료의 정보와 함량, 그리고 물성에 대한 정보이다. 가장 기본적인 방식은 각 물성마다 신경망을 구성하는 것인데, 이는 확장성이 제한적이다. 새로운 물성을 예측할 때 새로운 신경망이 학습되어야 한다.

학습의 의미 및 에러 타입

처방에 대한 물성을 예측하는 문제에는 “원료”와 함량에 대한 조합을 신경망이 이해하는지 여부가 중요하다. 아래 그림에서 처방으로부터 무엇을 모델이 학습하는지 확인할 수 있다.

원료 조합에 대해서 두 개의 처방을 학습할 때, 공통으로 들어있는 원료는 모든 처방에 적합한 표현으로 학습된다. 학습 이후 모델에게 바라는 점은 임의의 처방에서 원료 조합, 함량에 대해서 잘 적응하는 것을 바란다. 그러나 이 때 3가지 형태의 에러 종류가 나타난다.

안 본 함량에 대한 에러
안 본 학습 원료 조합에 대한 에러
안 본 원료에 대한 에러

세 종류의 에러는 모델이 모든 원료에 대해서 잘하기 위한 단계를 보여준다. 에러는 순서대로 어려우며, 각 에러들은 서로 다른 방식으로 파해되어야 한다. 본 연구에서는 학습 이후 세 종류의 에러의 경향성을 분석하여 “어떤 에러가 현재 모델링으로 해결 가능한지” 확인하고, 추후 연구를 위한 방향을 모색한다.

데이터 분포

먼저 학습 데이터는 다음과 같이 분포되어 있다. Density 는 특정 값에 몰려 있어 정규 분포 형태로 나타나지 않는다.

Memorization with Codes

학습데이터를 암기하는데 있어서 두 개의 모델링의 결과를 비교하였다.

더하는 방식 (ADD_A) : 학습을 진행할수록 암기하는 수준을 지속적으로 올라가며, pH는 어느수준까지만 가능한 것을 확인하였다. 나머지는 더 오랜 시간 학습이 필요하다.
Attention 방식 (CATTN_B) : 학습 자체가 불안정하여 에러가 내려가다 올라가는 경향을 보였다. 따라서 모델 자체를 개선해야 한다.

에러

위에서 언급한 세 종류를 에러를 포함한 전체 에러 수준을 보자.

파랑 : 학습 처방에 대한 에러
노랑 : 원료 함량이 달라지는 경우 생기는 에러
초록 : 다른 조합을 사용하는 경우 발생하는 에러
회색 : 학습에 사용되지 않은 원료가 포함된 경우 에러
검정 : 전체 에러

학습과정에서 에러를 측정해보면, 타입 2,3 번 에러는 학습을 진행하면서 올라가는 경향성을 보인 것을 확인할 수 있따. 이는 모델이 안 본 조합이나 원료에 대해서는 예측 성능이 저하됨을 나타낸다. 반대로 함량에 대해서 학습 할수록 개선된 형태를 보인 것을 확인할 수 있다.

원료 정보는 도움이 되는가?

학습에는 세 종류의 원료가 들어가며, 정보가 없는 원료들은 모두 0 벡터로 나타난다.

WO : 유성 / 수성 여부
Function : 약 40가지 원료 기능
INCI : 6가지 특징 (아래 규칙 참조)

유화제 : '폴리글리세릴', '솔비탄 -', 'PEG-'
폴리올 : '-다이올', '-글라이콜', '글리세린'
water : '-추출물', '-수'
오일 : '-이트', '오일', '-수'
점증제 : '아크릴레이트코폴리머', '카보머' '히알루-', '브이피' '잔탄검', '아크릴레이트-', '셀룰로오스' '소듐하이알루-', '전분' 
왁스 : '-왁스', '알코올'

ADD_A_1

전반적으로 2,3 에러에 대해서 더 나은 성능을 보이도록 만들어 주는 것을 확인할 수 있다. 학습 에러를 낮추는 경우는 viscosity 물성에게 도움이 되었다.

물성	학습	학습 (사용)	1-E	1-E (사용)	2-E	2-E (사용)	3-E	3-E (사용)	eval	eval (사용)
pH	0.017	0.023	0.024	0.024	0.218	0.211	0.220	0.218	0.202	0.200
hardness	0.012	0.012	0.027	0.033	0.223	0.192	0.237	0.282	0.231	0.268
viscosity_4_6	0.026	0.024	0.095	0.096	0.299	0.325	0.390	0.380	0.349	0.346
density	0.016	0.000	0.000	0.001	0.001	0.001	0.001	0.154	0.001	0.108

CATTN_B_1

물성	학습	학습 (사용)	1-E	1-E (사용)	2-E	2-E (사용)	3-E	3-E (사용)	eval	eval (사용)
pH	0.051	0.055	0.032	0.026	0.233	0.230	0.236	0.241	0.217	0.219
hardness	0.044	0.054	0.036	0.085	0.195	0.231	0.301	0.262	0.286	0.255
viscosity_4_6	0.095	0.076	0.207	0.191	0.308	0.298	0.456	0.447	0.411	0.401
density	0.000	0.000	0.001	0.001	0.001	0.001	0.005	0.055	0.004	0.039

어떤 원료 정보는 도움이 되는가?

위 실험은 여러 정보를 모두 사용해서 모델을 학습한 경우이며, 아래는 각 원료 정보를 포함하지 않은 경우와 단 하나만 포함하는 경우, 모두 포함하는 경우를 나눠서 학습한 결과이다. WO정보와 INCI 정보가 에러를 낮추는데 도움을 주는 것을 확인할 수 있따.

동일한 학습 시간 대비 원료 정보 사용에 따른 에러 비교한다.

pH

에러	No	WO	INCI	Function	ALL
학습	0.025	0.024	0.025	0.024	0.024
eval	0.209	0.208	0.204	0.207	0.212
1-E	0.039	0.033	0.036	0.034	0.035
2-E	0.221	0.215	0.206	0.220	0.220
3-E	0.227	0.228	0.224	0.225	0.231

hardness

에러	No	WO	INCI	Function	ALL
학습	0.022	0.020	0.023	0.023	0.022
eval	0.262	0.230	0.270	0.232	0.294
1-E	0.035	0.034	0.038	0.045	0.030
2-E	0.198	0.202	0.164	0.205	0.199
3-E	0.274	0.238	0.286	0.240	0.310

viscosity_4_6

에러	No	WO	INCI	Function	ALL
학습	0.049	0.046	0.049	0.052	0.060
eval	0.366	0.360	0.355	0.363	0.360
1-E	0.124	0.113	0.122	0.115	0.125
2-E	0.328	0.306	0.279	0.298	0.269
3-E	0.403	0.400	0.398	0.405	0.406

density

에러	No	WO	INCI	Function	ALL
학습	0.016	0.016	0.016	0.016	0.003
eval	0.001	0.001	0.002	0.001	0.110
1-E	0.000	0.000	0.001	0.000	0.001
2-E	0.001	0.001	0.001	0.001	0.001
3-E	0.001	0.001	0.003	0.001	0.158

결론

조금씩 적합한 문제를 정의하고, 문제 내 존재하는 에러를 분할하였다. 앞으로는 적합한 모델링을 찾아가며, 에러를 어떻게 더 낮출 것인지, 각 에러들을 어떻게 개선할 것인지 연구해야 한다.

전체 실험 결과 그래프는 링크에서 확인 가능.