NLP Transformer 아키텍처

Transformer 아키텍처

Transformer는 Attention Mechanism을 기반으로 한 딥러닝 아키텍처
입력 시퀀스를 처리하면서 문맥 정보를 모두 유지하면서 각각의 위치와 단어들 간의 상호작용을 파악
Transformer의 핵심 구성 요소는 Encoder와 Decoder로 구성
인코더와 디코더 모두에서 Self-Attention 메커니즘을 사용하기 때문에 입력 시퀀스의 길이에 영향을 받지 않는 모델
Transformer는 자연어 처리 분야에서 기계 번역, 요약, 질문 응답, 이미지 캡셔닝, 텍스트 요약, 기계 번역 등 다양한 태스크에서 활용
용어정리
Encoder - 입력 시퀀스를 입력받아 내부적으로 다수의 Self-Attention 계층과 Feed-Forward 계층으로 이루어진 인코딩 작업을 수행
Self-Attention 계층 - 입력 시퀀스의 모든 단어 벡터 간의 상호작용을 파악하여 각각의 단어에 대한 문맥 정보를 생성
Feed-Forward 계층 - Self-Attention 계층에서 생성된 문맥 정보를 바탕으로 입력 시퀀스를 인코딩하여 특정 차원의 벡터를 출력
Decoder - Encoder에서 생성된 인코딩 벡터를 입력받아 출력 시퀀스를 생성하는 작업을 수행
출력 시퀀스를 생성시 다수의 Self-Attention 계층, Encoder-Decoder Attention 계층, Feed-Forward 계층으로 이루어진 디코딩 작업을 수행
Self-Attention 계층 - 이전 단어들에 대한 문맥 정보를 생성
Encoder-Decoder Attention 계층 - 인코더에서 생성된 문맥 정보와 결합하여 문맥 정보를 보완
Feed-Forward 계층에서는 최종적으로 출력 시퀀스를 생성

'NLP' 카테고리의 다른 글

NLP Denoising Autoencoder 정리 (1)	2023.03.19
NLP 마스킹(Masking) 정리 (0)	2023.03.19
NLP MLM(Masked Language Model) 정리 (0)	2023.03.19
NLP BART 모델 정리 (2)	2023.03.18
NLP 용어정리 (0)	2023.03.11

hyuntohoon

NLP Transformer 아키텍처

Transformer 아키텍처

용어정리

'NLP' 카테고리의 다른 글

티스토리툴바

NLP Transformer 아키텍처

Transformer 아키텍처

용어정리

'NLP' 카테고리의 다른 글

'NLP' Related Articles

티스토리툴바