[5] SIP with BCE for 100 Classes [KSC 2023]

BCE loss를 활용하면 100개의 클래스에 대해서도 학습이 가능함을 확인하였다. 데이터 PG19, Wikitext500, Amazon131K 에 대해서 학습하였고, perplexity, silhouette, probing 을 통해서 문장 이해의 적절한 수준이 있음을 밝힌다.

👨🏻‍💻 Code Release: Tag v23.10.20.1

2. Low Dimensional Distribution

Low Dim 3 Classes

3개의 클래스, 각 클래스 마다 100개 샘플에 대해서 6개의 시드에 대해서 관찰한 분포는 다음과 같다.

가로 : 모델 사이즈 (70m, 160m 1.4B, 6.9B, 12B)
세로 : 데이터 (PG19, Wikipedia500K, Amazon131K)
x-축 : 첫번째 dimension
y-축 : 두번째 dimension

Low Dim 4 Classes

4개의 클래스, 각 클래스 마다 100개 샘플에 대해서 6개의 시드에 대해서 관찰한 분포는 다음과 같다.

3. Perplexity

4. Silhouette Score

5. Probing

Non-linear

Linear

6. Conclusion

이번 실험에서 GPT 모델에 대한 적당한 표현 공간을 가지는 모델은 유사한 원천 클래스에 대해서 서로 군집을 이루는 것을 확인하였다.