본문 바로가기

NLP

NLP BART 모델 정리

BART (Bidirectional and Auto-Regressive Transformer)

BART (Bidirectional and Auto-Regressive Transformer)는 Facebook AI Research (FAIR)에서 개발한 Transformer 아키텍처를 기반으로 한 언어 모델 대량의 텍스트 데이터를 사용하여 사전 학습된 언어 모델(like GPT)

BART의 두 가지 주요 구성 요소

  1. Masked Language Model (MLM)과 같은 auto-regressive 인코더
    인코더는 문장의 각 단어를 하나씩 처리하며, 이전 단어에 대한 정보를 사용하여 다음 단어를 예측함.
    그래서 이 모델은 문장 내의 의미론적인 특성과 구문적인 패턴을 학습할 수 있음.
  2. denoising autoencoder와 같은 bi-directional 디코더
    이 디코더는 입력 문장을 순방향으로 처리하는 것 외에도 역방향으로 처리하여 모델이 문맥을 더 잘 파악하도록 함.
    또한 BART는 임의로 마스크를 적용하여 노이즈가 있는 입력 문장을 생성하고, 이를 모델에 입력하여 정상적인 문장을 생성하도록 학습.
    그래서 BART는 주어진 입력 문장에 대해 양방향 정보를 활용하여 좀 더 정확하게 문맥과 문장의 의미를 파악할 수 있음.
    이 모델은 자연어 이해, 기계 번역, 요약, 질문 응답 등 다양한 NLP 태스크에서 높은 성능을 발휘.

BART 모델의 특징

다목적 모델

BART 모델은 다양한 자연어 처리 태스크에 대해 좋은 성능을 보이는 다목적 모델입니다. 텍스트 생성, 요약, 번역, 질문 응답 등 다양한 NLP 태스크에서 적용 가능합니다.

양방향 및 자기 회귀 방식의 결합

BART 모델은 양방향 및 자기 회귀 방식을 모두 사용하여 예측을 수행합니다. 이를 통해 입력 문장의 전반적인 의미를 파악하고, 이전 단어를 기반으로 다음 단어를 예측하는 능력을 갖추게 됩니다.

MMLM 방식 사용

BART 모델은 Masked Language Model (MLM)이 아닌 다중 문장 마스킹 (Multi-Document Masked Language Model, MMLM) 방식을 사용합니다. 이를 통해 더 많은 정보를 활용하여 더욱 정확한 예측을 할 수 있습니다.

사전 학습된 언어 모델

BART 모델은 대규모 텍스트 데이터를 사용하여 사전 학습된 언어 모델입니다. 이를 통해 높은 성능을 보이며, 작은 데이터셋에서도 좋은 성능을 발휘합니다.

Transfer Learning

BART 모델은 Transfer Learning에 적합합니다. 즉, 다른 NLP 태스크에 대해 적은 양의 데이터를 사용하여 파인튜닝(Fine-tuning)하여 해당 태스크에 대한 예측 능력을 높일 수 있습니다.

Sequence-to-sequence 모델

BART 모델은 Sequence-to-sequence 모델로서, 입력 시퀀스와 출력 시퀀스를 동시에 고려하여 예측합니다. 이를 통해 번역 및 요약과 같은 문제를 다룰 때 높은 성능을 보입니다.

GPT - 마스크 랭기지 모델(Masked Language Model, MLM)

'NLP' 카테고리의 다른 글

NLP Denoising Autoencoder 정리  (1) 2023.03.19
NLP 마스킹(Masking) 정리  (0) 2023.03.19
NLP MLM(Masked Language Model) 정리  (1) 2023.03.19
NLP Transformer 아키텍처  (0) 2023.03.19
NLP 용어정리  (0) 2023.03.11