🚀 트랜스포머란?

lusida 2025. 5. 26. 11:35

2025. 5. 26. 11:35

🚀 트랜스포머란?

**트랜스포머(Transformer)**는 2017년 Google이 발표한 논문
**“Attention is All You Need”**에서 소개된 자연어 처리(NLP) 모델 구조입니다.

기존에는 RNN, LSTM이 주력이었다면, 트랜스포머는 이 구조를 완전히 대체하면서
현재는 GPT, BERT, ChatGPT, Claude, Gemini 등 거의 모든 최신 AI 모델의 기반이 되었습니다.

📦 왜 나왔을까? (기존 방식의 한계)

✅ 기존 방식 (RNN, LSTM)

문장을 단어 순서대로 하나씩 처리 (ex: “나는 → 오늘 → 학교에…”)
과거 단어의 의미를 기억하며 처리하지만, 문장이 길면 앞부분 정보를 잊기 쉬움 (장기 의존성 문제)
계산이 직렬 처리이기 때문에 느림

✅ 트랜스포머의 혁신

순차적으로 처리하지 않고, 모든 단어를 동시에(병렬로) 처리
각 단어가 다른 모든 단어에 주의를 기울이는 구조 (어텐션)

💡 핵심 아이디어: “각 단어가 문장 내 다른 단어들을 보며 스스로 중요도를 판단하자!”

🔧 트랜스포머의 구조

트랜스포머는 크게 2부분으로 나뉩니다:

구조	역할
Encoder	입력 문장을 이해하고 요약
Decoder	이해한 정보를 바탕으로 출력 문장을 생성

각각 여러 층(layer)으로 구성되어 있고, 각 층은 아래와 같은 구성요소를 포함합니다.

✨ 핵심 구성 요소

1. Self-Attention (자기 주의 메커니즘)

각 단어가 문장 내의 다른 모든 단어와 관계를 고려
예: “I ate the apple because it was delicious” → “it”이 가리키는 게 “apple”임을 파악

2. Multi-Head Attention

Self-Attention을 **여러 개의 다른 시선(Head)**으로 병렬로 실행
다양한 문맥 정보를 동시에 학습 가능

3. Feed Forward Network (FFN)

각 단어 벡터에 독립적으로 적용되는 작은 신경망

4. Residual Connection + Layer Normalization

학습 안정화, 성능 향상을 위한 구조

5. Positional Encoding

병렬 처리 때문에 단어의 순서를 따로 표현해줘야 함
단어 위치를 벡터로 더해줌

🧠 어떻게 동작할까? (간단한 흐름)

예: 영어 → 프랑스어 번역

인코더

입력: “How are you”

↓

Positional Encoding 추가

↓

Self-Attention → FFN → Self-Attention → FFN … (반복)

↓

문장의 의미를 담은 벡터 생성

디코더

시작 토큰 <BOS> 입력

↓

Decoder Self-Attention

↓

인코더의 정보 + 어텐션 (Encoder-Decoder Attention)

↓

단어 하나씩 생성 (예: Comment → allez → vous …)

✅ 트랜스포머의 장점

장점	설명
병렬 처리 가능	학습 속도가 RNN/LSTM보다 훨씬 빠름
긴 문장 이해	Self-Attention으로 장기 의존성 문제 해결
유연성	언어, 이미지, 오디오 등 다양한 도메인에 적용 가능
확장성	GPT, BERT 등 다양한 모델 구조로 진화 가능

📚 트랜스포머 기반 모델 예시

모델	목적
BERT	문장 이해 (분류, 질의응답 등)
GPT	문장 생성 (대화, 작문 등)
T5 / BART	인코더-디코더 기반의 문장 변환
ViT	이미지 인식
Whisper	음성 인식
ChatGPT	GPT 모델을 응용한 대화형 AI

📌 결론 요약

트랜스포머는 순차 구조를 제거하고 어텐션만으로 동작하는 모델입니다.
각 단어가 문맥 전체를 보고 스스로 중요도를 판단함으로써 더 풍부한 이해가 가능합니다.
현재 모든 최신 AI 모델의 기본 뼈대이며, NLP뿐 아니라 멀티모달 인공지능의 근간이 되고 있습니다.

'인공지능' 카테고리의 다른 글

인코더만 사용하는 BERT (0)	2025.05.26
🔄 인코더(Encoder)와 디코더(Decoder)란? (0)	2025.05.26
어텐션의 유형 5가지 (0)	2025.05.26
seq2seq와 어텐션 메커니즘을 결합한 모델이 트랜스포머? (0)	2025.05.26
어텐션 메커니즘과 Seq2Seq 모델과의 관계 (0)	2025.05.26

Life