Transformer 아키텍처
- Transformer는 Attention Mechanism을 기반으로 한 딥러닝 아키텍처
- 입력 시퀀스를 처리하면서 문맥 정보를 모두 유지하면서 각각의 위치와 단어들 간의 상호작용을 파악
- Transformer의 핵심 구성 요소는 Encoder와 Decoder로 구성
- 인코더와 디코더 모두에서 Self-Attention 메커니즘을 사용하기 때문에 입력 시퀀스의 길이에 영향을 받지 않는 모델
- Transformer는 자연어 처리 분야에서 기계 번역, 요약, 질문 응답, 이미지 캡셔닝, 텍스트 요약, 기계 번역 등 다양한 태스크에서 활용
용어정리
- Encoder - 입력 시퀀스를 입력받아 내부적으로 다수의 Self-Attention 계층과 Feed-Forward 계층으로 이루어진 인코딩 작업을 수행
- Self-Attention 계층 - 입력 시퀀스의 모든 단어 벡터 간의 상호작용을 파악하여 각각의 단어에 대한 문맥 정보를 생성
- Feed-Forward 계층 - Self-Attention 계층에서 생성된 문맥 정보를 바탕으로 입력 시퀀스를 인코딩하여 특정 차원의 벡터를 출력
- Decoder - Encoder에서 생성된 인코딩 벡터를 입력받아 출력 시퀀스를 생성하는 작업을 수행
- 출력 시퀀스를 생성시 다수의 Self-Attention 계층, Encoder-Decoder Attention 계층, Feed-Forward 계층으로 이루어진 디코딩 작업을 수행
- Self-Attention 계층 - 이전 단어들에 대한 문맥 정보를 생성
- Encoder-Decoder Attention 계층 - 인코더에서 생성된 문맥 정보와 결합하여 문맥 정보를 보완
- Feed-Forward 계층에서는 최종적으로 출력 시퀀스를 생성
'NLP' 카테고리의 다른 글
NLP Denoising Autoencoder 정리 (1) | 2023.03.19 |
---|---|
NLP 마스킹(Masking) 정리 (0) | 2023.03.19 |
NLP MLM(Masked Language Model) 정리 (0) | 2023.03.19 |
NLP BART 모델 정리 (2) | 2023.03.18 |
NLP 용어정리 (0) | 2023.03.11 |