BCE loss를 활용하면 100개의 클래스에 대해서도 학습이 가능함을 확인하였다. 데이터 PG19, Wikitext500, Amazon131K 에 대해서 학습하였고, perplexity, silhouette, probing 을 통해서 문장 이해의 적절한 수준이 있음을 밝힌다.
👨🏻💻 Code Release: Tag v23.10.20.1
3개의 클래스, 각 클래스 마다 100개 샘플에 대해서 6개의 시드에 대해서 관찰한 분포는 다음과 같다.
4개의 클래스, 각 클래스 마다 100개 샘플에 대해서 6개의 시드에 대해서 관찰한 분포는 다음과 같다.
이번 실험에서 GPT 모델에 대한 적당한 표현 공간을 가지는 모델은 유사한 원천 클래스에 대해서 서로 군집을 이루는 것을 확인하였다.