2023/03/11 업데이트
- Sentence BERT: 문장 임베딩을 학습하는 모델. RoBERTa-base 모델을 사용하여 만들어졌으며, 각 문장을 벡터 공간에 임베딩하여 유사도를 계산하거나 클러스터링과 같은 작업에 활용됨.
- RoBERTa: BERT 모델을 개선한 모델로, Transformer 모델을 사용하여 양방향으로 문맥을 파악할 수 있는 능력을 가짐.
- BERT 모델의 문제:
- pre-training 단계에서 사용되는 데이터셋에 노이즈가 많아서 모델이 잘못된 정보를 학습할 수 있음.
- 입력 문장의 토큰을 무작위로 마스킹하는 방식을 사용하여 학습되었는데, 이는 문장의 일부분만 보고 학습하는 것이기 때문에 전체 문장을 잘 이해하지 못할 수 있음.
- BERT 모델의 문제:
- 임베딩(Embedding): 텍스트 같은 자연어를 수치화(벡터)하여 컴퓨터가 처리할 수 있게 함.
- 클러스터링(Clustering): 비슷한 특성을 가지는 데이터를 그룹으로 묶는 비지도 학습 방법. 문장 임베딩에서는 비슷한 문장을 비슷한 그룹으로 묶어줌으로써 문장 검색이나 문서 분류 등의 작업에서 유용하게 활용됨.
- 비지도 학습(Unsupervised Learning): 입력 데이터의 레이블이 주어지지 않은 상태에서 데이터의 패턴이나 구조를 찾아내는 기계학습 방법. 입력 데이터에 대한 사전 지식이 없거나 레이블링 작업이 어려운 경우 사용.
위 정리의 예시
어떠한 input 데이터를 sentence BERT 모델을 통해 임베딩한 데이터와 RoBERTa 모델로 임베딩한 제주어 사전의 데이터를 코사인 유사도를 통해 매칭하여 가장 비슷한 제주어를 output하는 모델을 만들 수 있음.
'NLP' 카테고리의 다른 글
NLP Denoising Autoencoder 정리 (1) | 2023.03.19 |
---|---|
NLP 마스킹(Masking) 정리 (0) | 2023.03.19 |
NLP MLM(Masked Language Model) 정리 (0) | 2023.03.19 |
NLP Transformer 아키텍처 (0) | 2023.03.19 |
NLP BART 모델 정리 (2) | 2023.03.18 |