🔠 GPT란?

lusida 2025. 5. 26. 13:29

2025. 5. 26. 13:29

🔠 GPT란?

GPT는 "Generative Pre-trained Transformer"의 약자입니다.

단어	의미
Generative	문장을 생성하는 모델
Pre-trained	미리 대규모 데이터로 학습한 후 다양한 작업에 사용
Transformer	트랜스포머라는 딥러닝 아키텍처를 기반으로 함 (특히 디코더 구조만 사용)

🔧 GPT의 구조: 디코더만 사용하는 트랜스포머

GPT는 트랜스포머(Transformer) 구조 중 디코더만 사용합니다.
이는 다음과 같은 구성 요소로 이루어져 있어요:

📌 GPT 디코더의 구성 요소

Input Tokens: 입력 문장을 토큰화하여 숫자 시퀀스로 변환합니다.
Token Embedding: 각 토큰을 고차원 벡터로 매핑하여 의미를 부여합니다.
Positional Encoding: 토큰의 순서 정보를 추가하여 문맥을 이해할 수 있게 합니다.
Transformer Decoder Blocks: 다수의 디코더 블록으로 구성되며, 각 블록은 다음을 포함합니다:
- Masked Multi-Head Self-Attention: 현재 위치의 토큰이 이전 토큰들만을 참조하도록 마스킹하여 자기 주의 메커니즘을 적용합니다.
- Feed Forward Network (FFN): 각 토큰 위치에서 독립적으로 작동하는 완전 연결 신경망입니다.
- Residual Connections & Layer Normalization: 학습 안정성과 성능 향상을 위해 잔차 연결과 층 정규화를 사용합니다.
Linear Layer: 디코더 블록의 출력을 어휘 크기만큼의 차원으로 변환합니다.
Softmax: 각 단어에 대한 확률 분포를 계산하여 다음에 올 단어를 예측합니다.
Output Probabilities: 각 단어가 다음에 올 확률을 나타내며, 가장 높은 확률을 가진 단어가 선택됩니다.

🔁 이 구조는 여러 층으로 반복 (예: GPT-2는 12층, GPT-3는 96층)

🔍 GPT는 어떻게 작동하나?

🧠 학습 방식: 언어 모델링 (Language Modeling)

GPT는 “앞에 나온 단어들을 보고, 다음 단어를 예측하는 것”을 목표로 학습합니다.

graph TD
  A[Input Tokens] --> B[Token Embedding]
  B --> C[Positional Encoding]
  C --> D[Transformer Decoder Blocks]
  D --> E[Linear Layer]
  E --> F[Softmax]
  F --> G[Output Probabilities]

예시:

입력: 나는 오늘

→ 출력: 날씨가 (예측된 다음 단어)

→ 입력 확장: 나는 오늘 날씨가

→ 출력: 좋다

→ 반복…

이러한 식으로 수많은 텍스트를 학습하면서
단어의 의미, 문법, 문장 구조, 문맥까지 자연스럽게 학습하게 됩니다.

🧪 GPT의 훈련 과정

1. Pre-training (사전 학습)

인터넷, 위키백과, 뉴스 등 방대한 텍스트로 학습
목표: 다음 단어 예측

2. Fine-tuning (미세 조정)

특정 작업(예: 번역, 요약, 대화 등)에 맞게 추가 학습
예: ChatGPT는 대화에 특화되도록 튜닝됨

3. Reinforcement Learning from Human Feedback (RLHF)

(GPT-3.5 이후)

사람이 평가한 결과를 통해 모델의 출력을 더 "사람답게" 다듬음

📈 GPT 시리즈 발전

버전	연도	특징
GPT-1	2018	개념 증명, 117M 파라미터
GPT-2	2019	언어 생성 능력 향상, 1.5B 파라미터
GPT-3	2020	175B 파라미터, 멀티태스크 수행
GPT-3.5	2022	ChatGPT에 사용, 대화 최적화
GPT-4	2023	추론력 증가, 멀티모달 지원 (이미지 포함)
GPT-4o	2024	Omni 모델, 실시간 오디오/비전/텍스트 통합 가능

🧩 GPT vs BERT vs T5

항목	GPT	BERT	T5
구조	디코더	인코더	인코더 + 디코더
방향성	단방향 (왼→오)	양방향	양방향
목적	생성	이해	변환 (입력→출력)
예	작문, 대화, 요약	분류, QA	번역, 요약

📚 GPT의 활용 분야

분야	적용 예시
문서 생성	글쓰기, 보고서 작성, 소설 쓰기
코드 생성	Copilot, 코드 자동완성
대화 AI	ChatGPT, AI 상담사
검색/요약	긴 글 요약, 문서 검색 요약
창의 작업	시, 광고 문구, 아이디어 도출

✅ 정리 요약

항목	설명
GPT란?	텍스트를 생성하는 트랜스포머 기반 언어 모델
구조	트랜스포머 디코더만 사용, Masked Attention 구조
작동 방식	앞 단어를 보고 다음 단어 예측 (언어 모델링)
강점	자연스러운 문장 생성, 문맥 파악, 다양한 작업 적용
사용 예	대화, 작문, 요약, 검색, 코딩 등

참고 : https://jalammar.github.io/illustrated-gpt2/

The Illustrated GPT-2 (Visualizing Transformer Language Models)

Discussions: Hacker News (64 points, 3 comments), Reddit r/MachineLearning (219 points, 18 comments) Translations: Simplified Chinese, French, Korean, Russian, Turkish This year, we saw a dazzling application of machine learning. The OpenAI GPT-2 exhibited

jalammar.github.io

https://dugas.ch/artificial_curiosity/GPT_architecture.html

The GPT-3 Architecture, on a Napkin

HOW DEEP IS THE MACHINE? The Artificial Curiosity Series The GPT-3 Architecture, on a Napkin There are so many brilliant posts on GPT-3, demonstrating what it can do, pondering its consequences, vizualizing how it works. With all these out there, it still

dugas.ch

'인공지능' 카테고리의 다른 글

🔍 RAG란? (0)	2025.05.26
🧠 LangChain이란? (0)	2025.05.26
디코더만 사용하는 GPT (0)	2025.05.26
Variational Encoder (변분 인코더)란? (1)	2025.05.26
인코더만 사용하는 BERT (0)	2025.05.26

Life

🔠 GPT란?

🔠 GPT란?

🔧 GPT의 구조: 디코더만 사용하는 트랜스포머

📌 GPT 디코더의 구성 요소

🔍 GPT는 어떻게 작동하나?

🧠 학습 방식: 언어 모델링 (Language Modeling)

예시:

🧪 GPT의 훈련 과정

1. Pre-training (사전 학습)

2. Fine-tuning (미세 조정)

3. Reinforcement Learning from Human Feedback (RLHF)

📈 GPT 시리즈 발전

🧩 GPT vs BERT vs T5

📚 GPT의 활용 분야

✅ 정리 요약

'인공지능' 카테고리의 다른 글

+ Recent posts

티스토리툴바