원료 정보를 포함한 실험 결과
처방의 물성을 예측하는 문제는 신경망에 처방의 정보와 예측 물성의 정보를 넣어 기대값을 예측하는 문재이다. 입력으로 들어가는 정보는 원료의 정보와 함량, 그리고 물성에 대한 정보이다. 가장 기본적인 방식은 각 물성마다 신경망을 구성하는 것인데, 이는 확장성이 제한적이다. 새로운 물성을 예측할 때 새로운 신경망이 학습되어야 한다.
처방에 대한 물성을 예측하는 문제에는 “원료”와 함량에 대한 조합을 신경망이 이해하는지 여부가 중요하다. 아래 그림에서 처방으로부터 무엇을 모델이 학습하는지 확인할 수 있다.
원료 조합에 대해서 두 개의 처방을 학습할 때, 공통으로 들어있는 원료는 모든 처방에 적합한 표현으로 학습된다. 학습 이후 모델에게 바라는 점은 임의의 처방에서 원료 조합, 함량에 대해서 잘 적응하는 것을 바란다. 그러나 이 때 3가지 형태의 에러 종류가 나타난다.
세 종류의 에러는 모델이 모든 원료에 대해서 잘하기 위한 단계를 보여준다. 에러는 순서대로 어려우며, 각 에러들은 서로 다른 방식으로 파해되어야 한다. 본 연구에서는 학습 이후 세 종류의 에러의 경향성을 분석하여 “어떤 에러가 현재 모델링으로 해결 가능한지” 확인하고, 추후 연구를 위한 방향을 모색한다.
먼저 학습 데이터는 다음과 같이 분포되어 있다. Density 는 특정 값에 몰려 있어 정규 분포 형태로 나타나지 않는다.
학습데이터를 암기하는데 있어서 두 개의 모델링의 결과를 비교하였다.
위에서 언급한 세 종류를 에러를 포함한 전체 에러 수준을 보자.
학습과정에서 에러를 측정해보면, 타입 2,3 번 에러는 학습을 진행하면서 올라가는 경향성을 보인 것을 확인할 수 있따. 이는 모델이 안 본 조합이나 원료에 대해서는 예측 성능이 저하됨을 나타낸다. 반대로 함량에 대해서 학습 할수록 개선된 형태를 보인 것을 확인할 수 있다.
학습에는 세 종류의 원료가 들어가며, 정보가 없는 원료들은 모두 0 벡터로 나타난다.
유화제 : '폴리글리세릴', '솔비탄 -', 'PEG-'
폴리올 : '-다이올', '-글라이콜', '글리세린'
water : '-추출물', '-수'
오일 : '-이트', '오일', '-수'
점증제 : '아크릴레이트코폴리머', '카보머' '히알루-', '브이피' '잔탄검', '아크릴레이트-', '셀룰로오스' '소듐하이알루-', '전분'
왁스 : '-왁스', '알코올'
전반적으로 2,3 에러에 대해서 더 나은 성능을 보이도록 만들어 주는 것을 확인할 수 있다. 학습 에러를 낮추는 경우는 viscosity 물성에게 도움이 되었다.
물성 | 학습 | 학습 (사용) | 1-E | 1-E (사용) | 2-E | 2-E (사용) | 3-E | 3-E (사용) | eval | eval (사용) |
---|---|---|---|---|---|---|---|---|---|---|
pH | 0.017 | 0.023 | 0.024 | 0.024 | 0.218 | 0.211 | 0.220 | 0.218 | 0.202 | 0.200 |
hardness | 0.012 | 0.012 | 0.027 | 0.033 | 0.223 | 0.192 | 0.237 | 0.282 | 0.231 | 0.268 |
viscosity_4_6 | 0.026 | 0.024 | 0.095 | 0.096 | 0.299 | 0.325 | 0.390 | 0.380 | 0.349 | 0.346 |
density | 0.016 | 0.000 | 0.000 | 0.001 | 0.001 | 0.001 | 0.001 | 0.154 | 0.001 | 0.108 |
물성 | 학습 | 학습 (사용) | 1-E | 1-E (사용) | 2-E | 2-E (사용) | 3-E | 3-E (사용) | eval | eval (사용) |
---|---|---|---|---|---|---|---|---|---|---|
pH | 0.051 | 0.055 | 0.032 | 0.026 | 0.233 | 0.230 | 0.236 | 0.241 | 0.217 | 0.219 |
hardness | 0.044 | 0.054 | 0.036 | 0.085 | 0.195 | 0.231 | 0.301 | 0.262 | 0.286 | 0.255 |
viscosity_4_6 | 0.095 | 0.076 | 0.207 | 0.191 | 0.308 | 0.298 | 0.456 | 0.447 | 0.411 | 0.401 |
density | 0.000 | 0.000 | 0.001 | 0.001 | 0.001 | 0.001 | 0.005 | 0.055 | 0.004 | 0.039 |
위 실험은 여러 정보를 모두 사용해서 모델을 학습한 경우이며, 아래는 각 원료 정보를 포함하지 않은 경우와 단 하나만 포함하는 경우, 모두 포함하는 경우를 나눠서 학습한 결과이다. WO정보와 INCI 정보가 에러를 낮추는데 도움을 주는 것을 확인할 수 있따.
동일한 학습 시간 대비 원료 정보 사용에 따른 에러 비교한다.
에러 | No | WO | INCI | Function | ALL |
---|---|---|---|---|---|
학습 | 0.025 | 0.024 | 0.025 | 0.024 | 0.024 |
eval | 0.209 | 0.208 | 0.204 | 0.207 | 0.212 |
1-E | 0.039 | 0.033 | 0.036 | 0.034 | 0.035 |
2-E | 0.221 | 0.215 | 0.206 | 0.220 | 0.220 |
3-E | 0.227 | 0.228 | 0.224 | 0.225 | 0.231 |
에러 | No | WO | INCI | Function | ALL |
---|---|---|---|---|---|
학습 | 0.022 | 0.020 | 0.023 | 0.023 | 0.022 |
eval | 0.262 | 0.230 | 0.270 | 0.232 | 0.294 |
1-E | 0.035 | 0.034 | 0.038 | 0.045 | 0.030 |
2-E | 0.198 | 0.202 | 0.164 | 0.205 | 0.199 |
3-E | 0.274 | 0.238 | 0.286 | 0.240 | 0.310 |
에러 | No | WO | INCI | Function | ALL |
---|---|---|---|---|---|
학습 | 0.049 | 0.046 | 0.049 | 0.052 | 0.060 |
eval | 0.366 | 0.360 | 0.355 | 0.363 | 0.360 |
1-E | 0.124 | 0.113 | 0.122 | 0.115 | 0.125 |
2-E | 0.328 | 0.306 | 0.279 | 0.298 | 0.269 |
3-E | 0.403 | 0.400 | 0.398 | 0.405 | 0.406 |
에러 | No | WO | INCI | Function | ALL |
---|---|---|---|---|---|
학습 | 0.016 | 0.016 | 0.016 | 0.016 | 0.003 |
eval | 0.001 | 0.001 | 0.002 | 0.001 | 0.110 |
1-E | 0.000 | 0.000 | 0.001 | 0.000 | 0.001 |
2-E | 0.001 | 0.001 | 0.001 | 0.001 | 0.001 |
3-E | 0.001 | 0.001 | 0.003 | 0.001 | 0.158 |
조금씩 적합한 문제를 정의하고, 문제 내 존재하는 에러를 분할하였다. 앞으로는 적합한 모델링을 찾아가며, 에러를 어떻게 더 낮출 것인지, 각 에러들을 어떻게 개선할 것인지 연구해야 한다.
전체 실험 결과 그래프는 링크에서 확인 가능.