1. 토크나이저란?

토크나이저는 문장을 "토큰(token)"이라는 단위로 분리하는 도구입니다.
토큰은 보통 단어, 부분 단어(subword), 문자 혹은 심볼입니다.
예시:

  • 입력: "나는 학생입니다."
  • 토큰: ["나는", "학생", "입니다", "."] (어떤 토크나이저를 쓰느냐에 따라 달라짐)

2. 토크나이저의 종류

단어 기반 (Word-level)

  • 문장을 단어 단위로 분리
  • 예: "I love AI" → ["I", "love", "AI"]
  • 단점: 신조어나 드문 단어 처리에 약함

문자 기반 (Character-level)

  • 한 글자씩 나눔
  • 예: "AI" → ["A", "I"]
  • 장점: 모든 단어를 커버 가능
  • 단점: 시퀀스 길이가 매우 길어짐

서브워드 기반 (Subword-level) – 현대 모델에서 가장 많이 사용

  • 자주 쓰이는 단어는 통째로, 나머지는 하위 단위로 분리
  • 대표 알고리즘:
    • BPE (Byte Pair Encoding) – GPT 시리즈에서 사용
    • WordPiece – BERT에서 사용
    • Unigram – SentencePiece 토크나이저

예:  "unhappiness" → ["un", "happiness"] 또는 ["un", "hap", "pi", "ness"]


3. GPT 모델의 토크나이저 예시 (BPE 기반)

GPT 계열은 Byte-Pair Encoding을 기반으로 텍스트를 토큰으로 분리합니다.
예: "ChatGPT는 좋아요!"
→ ["Chat", "G", "PT", "는", "좋", "아요", "!"]
(실제로는 byte 단위 변환도 포함되어 있음)


4. 토크나이저의 활용

  • 모델 입력값 변환: 텍스트 → 숫자 시퀀스
  • 디코딩: 숫자 시퀀스 → 다시 텍스트
  • 토큰 개수 세기: 예산, 토큰 제한 확인 (ex. GPT-4는 최대 128k 토큰까지 처리 가능)

Tokenizer - OpenAI API

 

'인공지능' 카테고리의 다른 글

Tavily - 검색기반 툴  (0) 2025.05.26
RAGAS(RAG Assessment)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26

멀티모달 모델은 다양한 형태의 데이터를 동시에 처리하여 인간과 유사한 인식 능력을 갖춘 인공지능 시스템을 구현하는 데 핵심적인 기술입니다. 이러한 모델은 텍스트, 이미지, 음성 등 여러 모달리티의 정보를 통합하여 더 풍부하고 정확한 이해를 가능하게 합니다.


🧠 멀티모달 모델의 기본 구조

멀티모달 모델은 일반적으로 다음과 같은 구성 요소로 이루어져 있습니다:

  1. 입력 모달리티: 텍스트, 이미지, 음성 등 다양한 형태의 데이터
  2. 모달리티별 인코더: 각 모달리티의 특징을 추출하여 벡터 형태로 변환
  3. 융합 모듈: 각 모달리티의 벡터를 통합하여 공동 표현 공간 생성
  4. 디코더 또는 출력 모듈: 통합된 표현을 기반으로 최종 결과 생성

이러한 구조를 통해 모델은 다양한 형태의 입력을 효과적으로 처리하고, 복합적인 작업을 수행할 수 있습니다.

 


 1. 멀티모달 모델 개발 방법

📌 기본 개념:

멀티모달 모델은 서로 다른 **입력 유형(텍스트, 이미지, 음성 등)**을 받아 **공통된 의미 표현(latent space)**으로 통합한 뒤,
그에 맞는 **출력(텍스트, 분류 결과 등)**을 생성합니다.

🏗️ 개발 단계별 구성:

단계 설명
① 입력 정리 서로 다른 형태의 데이터를 준비 (예: 이미지 + 텍스트 + 음성)
② 모달별 인코더 각 입력을 처리하는 별도 모델 사용 (예: CNN, BERT, Whisper 등)
③ 멀티모달 융합 벡터 형태로 변환된 정보를 하나의 공간으로 통합 (cross-attention 등 활용)
④ 디코더 구성 최종 출력(답변, 분류 등)을 생성하는 구조 연결 (예: LLM 디코더)
⑤ 공동 학습 다양한 입력 조합을 동시에 학습하여 일반화된 표현 학습
⑥ 튜닝/평가 특정 태스크에 맞게 파인튜닝 or zero-shot 성능 평가

💡 훈련에는 멀티모달 데이터셋 (예: 이미지 + 설명 텍스트)이 필요합니다.


🌟 2. 대표 멀티모달 모델

모델 설명
GPT-4o 텍스트 + 이미지 + 음성까지 하나의 모델에서 실시간 처리 가능 (OpenAI)
Gemini Google의 멀티모달 LLM. 검색, 비전, 영상 이해 특화
CLIP OpenAI의 이미지-텍스트 연결 모델 (검색 및 분류에 강함)
LLaVA 이미지 + 텍스트 질의응답 특화 모델 (Lightweight)
Flamingo DeepMind의 Few-shot 멀티모달 모델
Kosmos-1 Microsoft, multimodal reasoning + vision-grounded text
 

**멀티모달 모델 대표 논문 정리

다음 표는 텍스트, 이미지, 음성 등 다양한 모달리티를 융합하거나 활용하는 대표적인 AI 멀티모달 모델들의 핵심 논문을 정리한 것입니다. 각 행에는 논문 제목, 발표 연도, 주요 저자, 모델 이름, 기여 요약, 그리고 관련 링크를 포함하고 있습니다.

 

논문 제목 발표 연도 주요 저자  모델 이름    기여 요약  관련 링크
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 2019 Jiasen Lu et al. ViLBERT BERT 구조를 확장하여 이미지와 텍스트를 각각 처리하면서 공동 주의 메커니즘으로 결합한 비전-언어 모델을 제안하였다. 대규모 이미지-캡션 데이터셋(Conceptual Captions)으로 사전학습한 후 VQA, 이미지 설명, 이미지 검색 등 다양한 비전-언어 과제에 미세 튜닝만으로 당시 최고 성능을 달성하여, 시각-언어 결합 표현의 사전학습 효과를 입증하였다. arXiv:1908.02265
Learning Transferable Visual Models From Natural Language Supervision 2021 Alec Radford et al. CLIP 인터넷에서 수집한 4억 쌍 이상의 이미지-텍스트 데이터를 활용하여 이미지와 텍스트를 공동 임베딩 공간에 맵핑하는 대규모 대비학습(multimodal contrastive learning) 모델을 제시하였다. 사전 학습된 CLIP 모델은 추가 학습 없이(zero-shot) 텍스트 설명만으로 다양한 시각 인식 과제에 적용 가능하며, 30여 개의 벤치마크에서 지도학습 모델에 필적하는 성능을 보였다. arXiv:2103.00020
Flamingo: a Visual Language Model for Few-Shot Learning 2022 Jean-Baptiste Alayrac et al. Flamingo 사전학습된 비전 전용 모델언어 모델을 결합하고, 이미지와 텍스트가 임의로 섞인 시퀀스를 입력으로 처리할 수 있는 멀티모달 모델을 개발하여 few-shot 학습 능력을 구현하였다. 하나의 Flamingo 모델이 시각 질의응답, 이미지 캡션 생성 등 다양한 비전-언어 과제에서 몇 개의 예시만으로 새로운 최고 성능을 달성하여, 대량의 특화 데이터로 미세 튜닝된 모델보다 우수한 결과를 보였다. arXiv:2204.14198
GPT-4 Technical Report 2023 OpenAI et al. GPT-4 OpenAI가 공개한 초대형 멀티모달 언어 모델로, 텍스트뿐 아니라 이미지까지 입력으로 받아들여 텍스트로 출력할 수 있는 것이 특징이다. 다양한 전문 자격시험 및 학업 벤치마크에서 인간에 준하는 성능을 보였으며 (예: 미국 변호사시험 모의고사에서 상위 10% 수준 점수 달성), 멀티모달 입력에 대한 고차원 추론 능력을 입증했다. arXiv:2303.08774
Language Is Not All You Need: Aligning Perception with Language Models 2023 Shaohan Huang et al. Kosmos-1 Microsoft가 제안한 멀티모달 **대형 언어 모델(MLLM)**로, 텍스트와 이미지 등 여러 모달리티를 입력받아 맥락 학습(few-shot)지시 이행(zero-shot) 능력을 갖추도록 훈련되었다. 웹 규모의 텍스트-이미지 혼합 데이터 및 캡션 corpora로 처음부터 멀티모달 학습을 하여, 추가 미세튜닝 없이도 일반 자연어 처리 과제(이미지 문서 입력을 통한 OCR 없이 바로 언어 이해 등), 시각-언어 과제(멀티모달 대화, 이미지 설명, VQA 등), 그리고 순수 시각 과제(이미지 분류 등)에서 두루 뛰어난 성능을 보였다. arXiv:2302.14045
Visual Instruction Tuning 2023 Haotian Liu et al. LLaVA GPT-4를 활용해 생성한 이미지-설명 지시 따르기 데이터로 대규모 언어모델을 튜닝하여 탄생한 멀티모달 어시스턴트 모델이다. 이렇게 개발된 LLaVA 모델은 보이지 않은 이미지에 대해서도 GPT-4에 가까운 대화형 응답 능력을 보였으며(특정 평가에서 GPT-4의 약 85% 수준), 과학 QA 벤치마크에서는 GPT-4와의 협업을 통해 **최고 정확도(92.5%)**를 달성하였다. arXiv:2304.08485
ImageBind: One Embedding Space To Bind Them All 2023 Rohit Girdhar et al. ImageBind Meta AI에서 발표한 모델로, 이미지, 텍스트, 오디오, 깊이(Depth), 열화상, IMU여섯 가지 모달리티 데이터를 하나의 임베딩 공간에 연결하여 표현 학습을 달성했다. 흥미롭게도 이미지와 다른 모달리티 간 쌍(pair) 정보만으로 학습해도 나머지 모달리티들을 성공적으로 결합할 수 있음을 보였으며, 이를 통해 모달리티 간 자유로운 검색과 조합, 교차 모달 탐지 및 생성 등의 새로운 응용을 가능케 했다. 그 결과 여러 모달리티 조합의 zero-shot 인식 실험에서 특화 모델들을 뛰어넘는 최고 성능을 기록하였다. arXiv:2305.05665
Gemini: A Family of Highly Capable Multimodal Models 2023 Rohan Anil et al. Gemini Google DeepMind가 발표한 멀티모달 모델 계열로, 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리하는 초거대 멀티모달 모델Ultra, Pro, Nano 세 가지 규모로 제공한다. 가장 강력한 Gemini Ultra 모델은 광범위한 벤치마크에서 32개 중 30개 항목의 최고 성능을 달성했고, 특히 MMLU 시험에서는 처음으로 인간 전문가 수준(human-expert)의 점수를 기록했으며, 실험된 20개의 멀티모달 벤치마크 모두에서 기존 최고치를 경신하였다. 이러한 강력한 모달 간 추론 및 언어 이해 능력을 바탕으로, Gemini 모델은 향후 다양한 응용 분야에서 활용될 것으로 기대된다. arXiv:2312.11805

⚠️ 3. 멀티모달 모델의 문제점 및 한계

문제점 설명
📊 데이터 부족 텍스트는 많지만 “이미지+텍스트” 같이 동기화된 멀티모달 데이터는 적음
⚙️ 모달 융합 복잡성 서로 다른 타입의 정보를 어떻게 조화롭게 연결할지 어려움
🧠 추론 난이도 모달 간 정보가 충돌하거나 혼동될 수 있음 (예: 이미지 설명과 텍스트 질문 불일치 등)
연산량/속도 문제 영상/음성은 처리량이 커서 실시간 처리 어려움
💾 메모리 비용 모달마다 별도 인코더가 있어 파라미터 수 증가
 

📉 4. 개발 난이도

요소 난이도
텍스트-only LLM ⭐ (쉬움 - 데이터 많고 라이브러리 풍부)
이미지 + 텍스트 (예: CLIP) ⭐⭐ (중간 - open dataset 많음)
음성 + 텍스트 (예: Whisper + LLM) ⭐⭐⭐ (데이터 정제 필요)
음성 + 이미지 + 텍스트 통합 (GPT-4o급) ⭐⭐⭐⭐ (고난도 - 통합 설계 및 최적화 필수)
 

🔧 멀티모달 모델 개발에 활용되는 기술/도구

분야 기술 예시
텍스트 GPT, BERT, T5 등
이미지 ResNet, ViT (Vision Transformer), CLIP
음성 Whisper, Wav2Vec
멀티모달 라이브러리 HuggingFace Transformers + Datasets, OpenFlamingo, LLaVA
학습 가속화 LoRA, PEFT, DeepSpeed 등
융합 전략 Cross-Attention, Late Fusion, Early Fusion, Adapter Fusion 등
 

 


✅ 정리 요약

항목 설명
정의 다양한 모달리티(텍스트, 이미지, 음성 등)를 동시에 처리하고 이해하는 AI 모델
개발 방식 모달별 인코더 + 융합 레이어 + 디코더 구조
대표 모델 GPT-4o, Gemini, CLIP, LLaVA, Flamingo 등
문제점 데이터 부족, 융합 어려움, 메모리/속도 부담
개발 난이도 중상~고급 (모달 조합 수에 비례해 복잡도 증가)

 

**멀티 모달 모델 요약

모델 이름 하는 일 예시 설명
ViLBERT 이미지와 문장을 동시에 이해해요 강아지 사진을 보며 “이게 어떤 동물이야?”라고 물으면, 이미지를 보고 “강아지”라고 대답
CLIP 이미지와 설명이 연결된 세상을 배웠어요 “검은 고양이”라고 썼을 때, 고양이 사진 중에 정확히 고를 수 있음 (검색, 분류에 강함)
Flamingo 문장과 이미지가 섞여 나와도 자연스럽게 이해해요 “이 사진에서 고양이 몇 마리 있어?”처럼 텍스트 + 이미지 섞인 질문에 답함
GPT-4 글뿐 아니라 이미지도 이해할 수 있어요 수학 문제를 사진으로 보여줘도 풀 수 있어요
Kosmos 글+그림+웹페이지까지 처리할 수 있는 똑똑한 모델 이미지가 포함된 문서나 웹사이트를 읽고 요약 가능
LLaVA GPT에게 그림을 설명하는 법을 배운 모델이에요 “이 사진에 뭐가 나와?” 하면, “햇살 좋은 공원에서 뛰는 아이”처럼 GPT 스타일로 답해요
ImageBind 다양한 감각(소리, 사진, 온도, 움직임...)을 하나로 연결 예를 들어 “불타는 장작 사진”을 보면 → 그 장작 타는 소리를 떠올릴 수 있어요
Gemini Google의 만능 멀티모달 모델 그림, 소리, 말, 심지어 영상까지 이해하는 차세대 AI (GPT-4보다 더 강력한 분야도 있어요)

'인공지능' 카테고리의 다른 글

RAGAS(RAG Assessment)  (0) 2025.05.26
토크나이저(tokenizer)  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26

MCP는 AI 모델이 외부 세계와 구조화된 방식으로 소통하기 위한 프로토콜입니다.

기존의 GPT, Claude, LLaMA 등은 뛰어난 생성 능력을 가지고 있지만,

  • 파일을 읽거나
  • 실제 계산을 수행하거나
  • 실시간 데이터베이스에 접근하는 것에는 한계가 있었습니다.

👉 **MCP는 이 한계를 뛰어넘기 위한 “모델-외부 시스템 간 인터페이스 표준”**입니다.


🔧 MCP의 목적

목적 설명
🌐 도구 호출 표준화 LLM이 계산기, 웹 검색, API 호출 등 다양한 툴을 직접 사용할 수 있게 해줌
📂 컨텍스트 관리 대화 세션, 사용자 정보, 문서 정보 등 **맥락(context)**을 기억하고 관리 가능
🔗 LLM ↔ 애플리케이션 연결 외부 앱(예: 캘린더, 이메일, DB)과 AI가 양방향으로 연결
📦 확장 가능한 플러그인 구조 개발자는 다양한 기능을 “도구 모듈”로 추가할 수 있음 (예: 파일 브라우저, 계산기 등)
 

🔁 MCP 작동 흐름 예시

  1. 사용자가 AI에게 요청:
  2. “지난주 회의록 파일을 읽고 요약해줘.”
  3. LLM은 스스로 판단:
    • “파일을 열기 위한 도구 필요하네”
    • → tools.file.open("회의록.pdf") 호출
  4. MCP 인터페이스를 통해 해당 도구 호출 → 파일 내용 반환
  5. LLM은 반환된 내용을 이용해 요약 생성 → 사용자에게 응답

🧩 MCP의 주요 구성 요소

구성요소 역할
Tool LLM이 사용할 수 있는 도구 (예: 웹 검색, 파일 로드, 계산기 등)
Context 세션 정보, 사용자 상태, 과거 응답 등 지속적 맥락
Schema 입력과 출력의 데이터 형식을 JSON 형태로 구조화
Function Calling ChatGPT와 같은 기능 호출 구조를 더욱 정교하게 구현
Server / Runtime 실제로 MCP 호출을 받고 실행해주는 백엔드 서비스
 

🎯 MCP를 통해 가능한 활용 예

사용 시나리오 설명
💬 대화형 에이전트 사용자 질의에 따라 적절한 도구를 선택해서 응답 (계산기, 메모 등)
📄 문서 기반 챗봇 파일 시스템과 연결된 도구를 통해, 특정 문서 검색 및 요약
🔄 업무 자동화 CRM, 캘린더, 이메일 등과 연동하여 일정 자동 추가, 회신 생성
🧠 지속형 AI 비서 사용자 프로필, 대화 이력 등 “컨텍스트”를 유지하며 장기적 대화 가능
 

 


✅ MCP의 장점 요약

장점 설명
🧱 표준화 다양한 LLM과 시스템이 쉽게 통합될 수 있는 구조
🔍 투명성 어떤 도구를 언제 호출했는지 추적 가능 (보안, 감사에 유리)
💡 확장성 새로운 도구나 기능을 쉽게 추가 가능
🤝 모델 독립성 Claude, GPT, Mistral 등 모델에 상관없이 공통 적용 가능
 

🧠 요약 정리

항목 설명
정의 AI 모델이 외부 도구, 데이터, 컨텍스트와 상호작용할 수 있도록 만든 통신 프로토콜
개발사 Anthropic 주도 (Claude AI)
적용 모델 Claude 3 계열 중심, GPT-style 시스템에서도 개념 확장 중
핵심 기능 도구 호출, 문맥 유지, 표준화된 응답 구조, 플러그인화
활용 분야 AI 비서, 자동화 시스템, RAG 연동, SaaS 통합형 챗봇 등

 

'인공지능' 카테고리의 다른 글

토크나이저(tokenizer)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26
LLM Fine-Tuning이란?  (0) 2025.05.26

+ Recent posts