๐Ÿ”ง GPT๋Š” ๋””์ฝ”๋” ๊ธฐ๋ฐ˜ ํŠธ๋žœ์Šคํฌ๋จธ ๋ชจ๋ธ

โœ… GPT = ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋” ๊ตฌ์กฐ๋งŒ ์‚ฌ์šฉํ•œ ์–ธ์–ด ์ƒ์„ฑ ๋ชจ๋ธ

๐Ÿง  ๋ชฉ์ ์— ๋”ฐ๋ผ ๊ตฌ์„ฑ ์„ ํƒ:

  • ์ธ์ฝ”๋”: ์ž…๋ ฅ์„ ์ดํ•ดํ•˜๋Š” ๋ฐ ๊ฐ•ํ•จ → ๋ฌธ์žฅ ๋ถ„๋ฅ˜, ์งˆ๋ฌธ์‘๋‹ต ๋“ฑ
  • ๋””์ฝ”๋”: ๋ฌธ์žฅ์„ ์ƒ์„ฑํ•˜๋Š” ๋ฐ ํŠนํ™”๋จ → GPT๋Š” ์ด๊ฑธ ํƒํ•จ!

๐Ÿ“ฆ ๋””์ฝ”๋”๋งŒ ์“ฐ๋Š” GPT์˜ ๊ตฌ์กฐ

GPT์˜ ๊ตฌ์กฐ๋Š” ๋‹ค์Œ๊ณผ ๊ฐ™์€ ๊ธฐ๋ณธ ๋ธ”๋ก์„ ๋ฐ˜๋ณตํ•ฉ๋‹ˆ๋‹ค:

[์ž…๋ ฅ ์ž„๋ฒ ๋”ฉ]
 
 → [ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ ์ถ”๊ฐ€]
 
 → [Masked Self-Attention]
 
 → [Feedforward Layer]
 
 → [Layer Norm + Residual]
 
 → (์ด ๋ธ”๋ก์„ ์—ฌ๋Ÿฌ ๋ฒˆ ๋ฐ˜๋ณต)
 
 → [์ถœ๋ ฅ Softmax]
 
 → ๋‹ค์Œ ๋‹จ์–ด ์˜ˆ์ธก

๐Ÿ” ์™œ ์ธ์ฝ”๋” ์—†์ด ๋””์ฝ”๋”๋งŒ์œผ๋กœ ๊ฐ€๋Šฅํ•œ๊ฐ€?

GPT๋Š” **“๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธก”**ํ•˜๋Š” ๊ฒŒ ๋ชฉ์ ์ž…๋‹ˆ๋‹ค.
์ฆ‰, ๋ฌธ์žฅ ์ƒ์„ฑ๋งŒ ํ•˜๋ฉด ๋˜๋ฏ€๋กœ, ์ž…๋ ฅ์„ ๋ถ„์„ํ•ด์„œ ์š”์•ฝํ•˜๋Š” ์ธ์ฝ”๋”๊ฐ€ ๊ตณ์ด ํ•„์š” ์—†์Šต๋‹ˆ๋‹ค.

๐Ÿง  ํ•ต์‹ฌ ์ „๋žต: ์–ธ์–ด ๋ชจ๋ธ๋ง

  • ์ฃผ์–ด์ง„ ํ…์ŠคํŠธ๋ฅผ ๋ณด๊ณ  ๋‹ค์Œ์— ๋‚˜์˜ฌ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•˜๋Š” ํ›ˆ๋ จ์„ ํ•จ
  • ์˜ˆ :  ์ž…๋ ฅ: “๋‚˜๋Š” ์˜ค๋Š˜”    -> ์˜ˆ์ธก: “๋‚ ์”จ๊ฐ€” (ํ™•๋ฅ ์ ์œผ๋กœ ๊ฐ€์žฅ ๋†’์€ ๋‹จ์–ด)
  • ์ด๋ ‡๊ฒŒ ๋ฌธ์žฅ์„ ํ•˜๋‚˜์”ฉ ์˜ˆ์ธกํ•˜๋ฉฐ ์ƒ์„ฑํ•˜๋ฏ€๋กœ ์ธ์ฝ”๋”๋Š” ํ•„์š” ์—†์Œ

๐Ÿ”’ Masked Self-Attention: ๋””์ฝ”๋”์˜ ํ•ต์‹ฌ

GPT๊ฐ€ ์‚ฌ์šฉํ•˜๋Š” ๋””์ฝ”๋”์—๋Š” **"Masked Self-Attention"**์ด ์ ์šฉ๋ฉ๋‹ˆ๋‹ค.

๋ชฉ์  ์„ค๋ช…
๋ฏธ๋ž˜ ๋‹จ์–ด ์ฐจ๋‹จ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ ์•„์ง ๋‚˜์˜ค์ง€ ์•Š์€ ๋‹จ์–ด๋Š” ๋ชป ๋ณด๊ฒŒ ํ•จ
์™ผ์ชฝ ๋ฌธ๋งฅ๋งŒ ์‚ฌ์šฉ ์ง€๊ธˆ๊นŒ์ง€์˜ ๋‹จ์–ด๋งŒ ์ฐธ๊ณ ํ•ด์„œ ๋‹ค์Œ ๋‹จ์–ด๋ฅผ ๊ฒฐ์ •
 

์˜ˆ: “์˜ค๋Š˜์€ ๋‚ ์”จ๊ฐ€ ์ข‹” → “๋‹ค”๋ฅผ ์˜ˆ์ธกํ•  ๋•Œ “์ข‹๋‹ค”๊ฐ€ ์ •๋‹ต์ด๋ผ๋Š” ๊ฑธ ์•Œ๋ฉด ์•ˆ ๋˜๋ฏ€๋กœ ์•ž ์ •๋ณด๋งŒ ์‚ฌ์šฉ


๐Ÿ“š GPT ๋””์ฝ”๋” ์ž‘๋™ ํ๋ฆ„ ์š”์•ฝ

  1. ๋ฌธ์žฅ์„ ๋ฒกํ„ฐ๋กœ ์ž„๋ฒ ๋”ฉ
  2. ํฌ์ง€์…”๋„ ์ธ์ฝ”๋”ฉ ์ถ”๊ฐ€ (์ˆœ์„œ ์ •๋ณด ์ œ๊ณต)
  3. Masked Self-Attention ์ˆ˜ํ–‰ (์ง€๊ธˆ๊นŒ์ง€ ๋ณธ ๋‹จ์–ด๋งŒ ๋ด„)
  4. ํ”ผ๋“œํฌ์›Œ๋“œ ๋ ˆ์ด์–ด๋กœ ์˜๋ฏธ ํ™•์žฅ
  5. ๋‹ค์Œ ๋‹จ์–ด๋ฅผ Softmax๋กœ ์˜ˆ์ธก
  6. ์˜ˆ์ธก๋œ ๋‹จ์–ด๋ฅผ ์ด์–ด์„œ ๋‹ค์‹œ ์ž…๋ ฅ → ๋ฐ˜๋ณต

โœ… GPT๊ฐ€ ๋””์ฝ”๋”๋งŒ ์จ๋„ ๊ฐ•๋ ฅํ•œ ์ด์œ 

์ด์œ  ์„ค๋ช…
์ž์—ฐ์Šค๋Ÿฌ์šด ์ƒ์„ฑ ์™ผ์ชฝ๋ถ€ํ„ฐ ์˜ค๋ฅธ์ชฝ์œผ๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ๋ฌธ์žฅ ์ƒ์„ฑ
ํ•™์Šต ๋‹จ์ˆœํ™” ์ธ์ฝ”๋” ์—†์ด ํ•™์Šต ๊ตฌ์กฐ ๋‹จ์ˆœํ•จ
๋‹ค์–‘ํ•œ ํ™œ์šฉ ๋Œ€ํ™”, ์š”์•ฝ, ์ž‘๋ฌธ ๋“ฑ ์ฐฝ์˜์  ์ž‘์—…์— ์ ํ•ฉ
์‚ฌ์ „ํ•™์Šต → ์ „์ดํ•™์Šต ๋Œ€๊ทœ๋ชจ ํ…์ŠคํŠธ๋กœ ํ•™์Šต ํ›„ ๋‹ค์–‘ํ•œ ์ž‘์—…์— ์‚ฌ์šฉ ๊ฐ€๋Šฅ
 

๐Ÿงฉ BERT vs GPT ๊ตฌ์กฐ ๋น„๊ต


ํ•ญ๋ชฉ BERT GPT
๊ตฌ์กฐ ์ธ์ฝ”๋”๋งŒ ์‚ฌ์šฉ ๋””์ฝ”๋”๋งŒ ์‚ฌ์šฉ
๋ฐฉํ–ฅ ์–‘๋ฐฉํ–ฅ ๋‹จ๋ฐฉํ–ฅ (์™ผ→์˜ค๋ฅธ์ชฝ)
๋ชฉ์  ๋ฌธ์žฅ ์ดํ•ด ๋ฌธ์žฅ ์ƒ์„ฑ
์˜ˆ ๊ฐ์ • ๋ถ„์„, ๋ฌธ์„œ ๋ถ„๋ฅ˜ ๋Œ€ํ™”, ์ž‘๋ฌธ, ์ฝ”๋”ฉ
 

๐Ÿง  ๊ฒฐ๋ก  ์š”์•ฝ

  • GPT๋Š” ํŠธ๋žœ์Šคํฌ๋จธ์˜ ๋””์ฝ”๋” ๊ตฌ์กฐ๋งŒ ์‚ฌ์šฉํ•˜๋Š” ์–ธ์–ด ์ƒ์„ฑ ๋ชจ๋ธ
  • ๋‹ค์Œ ๋‹จ์–ด ์˜ˆ์ธก์ด๋ผ๋Š” ๋‹จ์ผ ๋ชฉํ‘œ๋กœ ์„ค๊ณ„๋˜์–ด ์ธ์ฝ”๋” ์—†์ด๋„ ์ถฉ๋ถ„
  • Masked Self-Attention์„ ํ†ตํ•ด ๋ฌธ์žฅ์„ ์ˆœ์„œ๋Œ€๋กœ ์ž์—ฐ์Šค๋Ÿฝ๊ฒŒ ์ƒ์„ฑ
  • GPT-2, GPT-3, ChatGPT ๋ชจ๋‘ ์ด ๊ตฌ์กฐ๋ฅผ ๋ฐ”ํƒ•์œผ๋กœ ๋งŒ๋“ค์–ด์กŒ์Šต๋‹ˆ๋‹ค

+ Recent posts