인공지능이 로봇 분야에 빠르게 접목되면서 파운데이션 모델, 임바디드 AI (Embodied AI), 멀티모달 모델 등이 큰 주목을 받고 있습니다. 여기서는 2024년 이후 주요 학회와 저널에 발표된 관련 연구들을 쉽고 간략하게 정리합니다. 

로보틱스 파운데이션 모델 (범용 로봇 AI 모델)

파운데이션 모델이란 GPT-4처럼 방대한 데이터로 미리 학습되어 여러 과제에 범용적으로 적용될 수 있는 AI 모델을 말합니다. 로봇 분야에서도 하나의 거대 모델로 여러 로봇 임무를 수행하려는 시도가 늘고 있습니다. 대표적인 연구들은 다음과 같습니다:

  • RoboCat (딥마인드, 2024): 서로 다른 여러 로봇 팔과 다양한 작업에서 얻은 경험 데이터를 한 모델에 모아 학습한 범용 로봇 조작 모델입니다. 예를 들어, 로봇 팔 세 종류가 시도한 집기, 놓기 등의 시演 데이터를 합쳐 이 모델(RoboCat)을 훈련했습니다. 그 결과 RoboCat은 새로운 작업이나 새로운 로봇 종류에도 빠르게 적응할 수 있었는데, 추가로 시범을 몇 개(수십~수백 개)만 보여줘도 금방 새로운 임무를 해내거나 심지어 추가 학습 없이도 어느 정도 해내는 모습까지 보였습니다. 또 한 번 학습된 모델이 스스로 데이터를 더 생성하여 성능을 향상시키는 **자기 개선(self-improvement)**도 시도되었는데, 이는 마치 인간이 여러 경험을 종합해 새로운 기술을 익히고, 시행착오를 통해 실력을 높여가는 과정과 유사합니다. 이 연구는 한 가지 AI 두뇌로 여러 로봇을 유연하게 운용할 가능성을 보여주었습니다.
  • GR00T N1 (엔비디아, 2025): 엔비디아가 주도한 이 연구는 **휴머노이드(사람처럼 팔과 다리가 있는 로봇)**를 위한 오픈소스 파운데이션 모델을 선보였습니다. GR00T N1은 Vision-Language-Action (VLA) 모델이라고 불리는데, 카메라 영상과 사람의 언어 지시를 받아들이는 모듈과, 로봇의 움직임을 실시간 생성하는 모듈이 하나로 통합된 구조입니다. 방대한 다양한 데이터로 학습했는데, 실제 로봇이 물체를 조작한 시연 데이터, 사람 동작을 담은 비디오, 시뮬레이션으로 만든 가상 데이터까지 혼합해訓練했습니다. 그 결과 이 모델은 시뮬레이션 상 다양한 로봇에서 기존 방법들을 능가하는 성능을 보였고, 실제 휴머노이드 로봇(포이어 GR-1 모델)으로 두 팔을 이용한 복잡한 작업(예: 양손으로 물건 집어 옮기기 등)을 수행할 때도 높은 성공률과 효율을 보였습니다. 이 연구는 범용 로봇 모델을 공개해 더 많은 연구자들이 활용할 수 있도록 했다는 점에서도 의미가 있습니다. 궁극적으로 이렇게 학습된 모델이 탑재된 휴머노이드 로봇은 일상 가정이나 작업장에서 사람 명령을 이해하고 다양한 작업을 척척 해내는 만능 로봇으로 발전할 잠재력이 있습니다.
  • V-GPS: 파운데이션 모델 성능 향상 기법 (UC 버클리, 2024): 파운데이션 로봇 정책 모델들은 대개 대량의 시범 데이터로 학習됩니다. 그런데 이 데이터에는 사람이 시행착오한 흔적이나 불완전한 시演도 섞이기 마련입니다. UC 버클리 연구진은 이렇게 품질이 제각각인 데이터로 학習된 거대 모델의 한계를 보완하는 아이디어를 제시했습니다. 가치 함수(value function)를 별도로 학習시켜, 로봇이 매 순간 할 수 있는 여러 행동 중 가장 좋은 선택을 하도록 조언해주는 방식입니다. 일종의 두뇌 보조 장치가 실시간으로 “이 행동이 성공에 얼마나 유리한지” 점수를 매겨주는 셈입니다. 흥미롭게도, 이렇게 학習한 하나의 가치 평가 모듈이 있으면 내부 구조나 훈련 데이터가 서로 다른 여러 종류의 로봇 AI 모델에도 두루 적용되어 성능을 끌어올릴 수 있었습니다. 실험에서는 서로 다른 5가지 최신 로봇 모델(예: 여러 연구팀의 파운데이션 정책들)에 이 방법을 적용해, 로봇 팔 플랫폼 여러 대에서 12개 작업의 성공률을 고르게 개선해냈습니다. 이 연구는 대형 AI 모델의 신뢰도와 성공률을 높이는 현실적 방법으로 주목받고 있습니다. 향후 로봇을 실제 가정이나 산업현장에 투입할 때, 이런 가치 함수 모듈이 안전장치나 성능 향상 도구로 활용될 수 있습니다.
  • RT-2 (구글 딥마인드, 2023): 2023년 말 발표된 RT-2 모델은 비록 2024년 이전이지만 로보틱스 파운데이션 모델 논의에 큰 영향을 준 연구로 자주 언급되므로 간략히 소개합니다. RT-2는 웹에서 학習된 거대 비전-언어 모델로봇 행동 데이터를 접목시켜, 인터넷 지식과 시각 이해능력을 그대로 로봇 제어에 활용한 사례입니다. 핵심 아이디어는 로봇의 행동도 일종의 “언어”로 취급하여, 이미지 설명이나 질의응답 데이터를 학習하던 모델에 로봇 제어 시퀀스를 텍스트 토큰 형태로 함께 학習시키는 것입니다. 그 결과 단일 모델이 로봇 센서 입력을 받아 행동을 결정하면서도, 웹 학習을 통해 얻은 상식과 추론 능력을 발휘할 수 있게 되었어요. 예컨대 RT-2는 훈련 때 보지 못한 새로운 물체를 식별하고 다룬다거나, 훈련 데이터에 없었던 새로운 지시도 이해하는 등 일반화 능력이 향상되었습니다. 사용자가 “가장 작은 물건을 집어 들어”와 같이 조건이 있는 명령을 내리면 사전 지식에 기반한 추론으로 그 요구를 수행하고, 심지어 “졸린 사람에게 어떤 음료가 좋을까?”처럼 맥락이 필요한 질문에 에너지 드링크를 집어주는 식의 반응도 가능했죠. RT-2는 비전-언어-액션(VLA) 모델이라는 개념을 대중화하며, 이후 많은 로봇 연구에 영감을 주었습니다.

로보틱스와 임바디드 AI 시스템 (몸을 가진 지능형 로봇)

임바디드 AI물리적인 몸을 갖춘 인공지능을 뜻하며, 로봇이 대표적입니다. 최근에는 **대형 언어 모델(LLM)**이나 생성형 AI를 로봇에 접목해, 단순히 프로그래밍된 동작만 하는 게 아니라 스스로 상황을 인식하고 계획하도록 만드는 연구가 활발합니다. 이러한 AI+로봇 통합 시스템 중 주목받는 사례들은 다음과 같습니다:

  • ELLMER 프레임워크 (Nature Machine Intelligence, 2025): 2025년 Nature 자매지에 공개된 연구로, GPT-4 같은 거대 언어 모델을 로봇 두뇌로 활용하여 예측 불가능한 환경에서도 복잡한 일을 해내는 시스템을 선보였습니다. 연구팀은 이를 **“임바디드 대형 언어 모델 로봇”**이라고 부르며, 간단히 ELLMER라고 명명했습니다. 이 로봇의 두뇌인 GPT-4에는 사전에 요리법이나 도구 사용법 등 방대한 지식이 들어있습니다. 여기에 추가로, 필요한 정보를 그때그때 찾아주는 검색 장치(예: 데이터베이스에서 적절한 예시를 불러오는 RAG; Retrieval Augmented Generation 기법)와, 실시간 센서 피드백(카메라 영상, 물체를 잡을 때 힘 센서 등)을 결합했습니다. 쉽게 말해 기억력 좋고 똑똑한 로봇 비서를 만든 셈입니다. 이 시스템을 통해 긴 연속 작업도 수행했는데, 예를 들어 “커피를 만들어서 손님에게 대접하고, 접시에 장식 그림을 그려라” 같은 복잡한 부탁을 사람의 개입 없이 로봇 혼자 완료했습니다. 실험에서 로봇 팔(Kinova Gen3 모델)은 서랍을 열고 컵을 꺼내 커피를 내리고, 아이싱 펜으로 접시에 그림을 그리는 등 일련의 행동을 유기적으로 해냈습니다. 사람처럼 중간에 상황이 바뀌어도 (예: 물건 위치 변경, 예상과 다른 저항 느낌 등) 센서 정보를 토대로 GPT-4가 계획을 수정하면서 임무를 완수했지요. 이는 복잡하고 유동적인 현실 환경에서 로봇이 자율적으로 일할 수 있는 가능성을 보여준 사례로 큰 의미가 있습니다. 향후 가정용 서비스 로봇이나 간호 로봇 등이 이런 기술로 사용자의 모호한 지시도 이해해서 창의적으로 수행하는 모습을 상상해볼 수 있습니다.
  • 일본 연구진이 개발한 GPT-4 기반 시스템으로 명령을 받은 휴머노이드 Alter3 로봇이 '헤비 메탈 음악 연주' 동작(에어 기타)을 수행하는 모습. 일본 도쿄대와 스타트업 Alternative Machine의 연구자들은 오픈AI의 GPT-4 모델을 이용해 휴머노이드 로봇을 자연어로 제어하는 실험을 2024년에 선보였습니다. 사람처럼 머리·팔·몸통을 가진 로봇 Alter3에게 “휴대폰을 꺼내서 셀카를 찍어”와 같은 평범한 문장으로 명령하면, GPT-4가 그 의미를 이해하고 로봇 동작 시퀀스로 변환해줍니다. 예컨대 “록 음악에 맞춰 에어 기타를 쳐 봐”라고 하면, 로봇이 기타를 치는 흉내를 내는 일련의 관절 움직임을 GPT-4가 생성해주고, 그 동작 리스트를 로봇 제어 코드로 자동 변환하여 실제 로봇이 해당 포즈를 취합니다. 기존에는 이런 휴머노이드에게 특정 행동을 가르치려면 43개 관절을 일일이 수동 조작하며 프로그래밍해야 했는데, 이 방법을 쓰면 한 줄의 문장만으로도 로봇에게 새로운 동작을 가르칠 수 있어 훈련 과정이 크게 단축됩니다. 실제로 연구진은 GPT-4가 만들어낸 동작 지시들이 전문가가 수작업으로 만든 동작보다滑らか하고 자연스러울뿐 아니라, 사람의 상상 속 행동(유령 흉내, 뱀처럼 꿈틀거리기 등)까지 창의적으로 구현해낸다는 점을 보여주었습니다. 이는 언어로 로봇을 직관적으로 프로그래밍하는 시대를 앞당긴 연구로 평가됩니다. 가까운 미래에는 일반인이 “로봇아, 방 좀 치워줘”라고 말하면 로봇이 알아듣고 알아서 청소까지 해내는 일이 현실화될 수 있겠습니다.
  • GPT-4를 활용한 로봇 시각 학습 (MSR, 2024): 마이크로소프트 연구소(MSR)는 GPT-4의 시각 기능(GPT-4V)을 응용하여 “로봇이 사람 시범을 한 번 보고 따라하게 만드는” 흥미로운 방식을 선보였습니다. 사람에게 어떤 작업을 가르칠 때 시범을 보여주듯이, 로봇에게도 영상으로 가르치자는 것입니다. 구체적으로는 사람이 어떤 물체를 잡고 조립하는 시연 비디오를 GPT-4V가 분석하여, 거기서 환경과 행동에 대한 설명을 텍스트로 뽑아냅니다. 그러면 일반 GPT-4 모델이 그 설명을 읽고 로봇이 따라할 행동 계획(예: “1단계: 오른손으로 컵을 집어 올린다. 2단계: 컵을 물병 위에 기울인다…”)을 만들어냅니다. 마지막으로 컴퓨터 비전 모듈이 영상 속 사람 손동작을 분석해 **구체적인 좌표나 물체 잡는 방법(affordance)**을 파악하고, 이를 로봇 명령으로 변환하여 실제로 로봇이 실행하게 합니다. 요약하면, 한 번의 시범 영상만으로 로봇을 가르치는 원샷 학습을 구현한 것이죠. 여러 가지 일상 시나리오로 시험한 결과, 이 방법으로 실제 로봇들이 사람 시범을 보고 유사한 작업을 성공적으로 수행했습니다. 다만 현 단계의 GPT-4V는 가끔씩 영상 내용을 잘못 이해하는 환각 현상도 보여, 인간의 검수나 피드백이 여전히 필요하다고 지적합니다. 그럼에도 불구하고 이 연구는 복잡한 로봇 프로그래밍 없이 카메라로 시범만 보여줘서 가르치는 미래형 로봇 훈련 방식을 제시했다는 점에서 큰 관심을 끌었습니다. 장차 제조 현장에서 작업자가 시범을 보이며 로봇에게 새 작업을 가르치거나, 가정에서 부모가 어떤 집안일을 해보이며 가사로봇을 교육하는 모습도 기대해볼 수 있습니다.

멀티모달 모델의 로봇 적용 (시각-언어-행동 통합 AI)

멀티모달 모델여러 종류의 입력과 출력을 한꺼번에 다루는 AI를 말합니다. 예를 들어 **시각 정보(카메라 영상)**와 언어를 동시에 이해하고, 거기에 맞춰 움직임을 만들어내는 모델이죠. 로봇 분야에서는 이런 비전-언어-액션(VLA) 모델을 활용해 보다 똑똑한 로봇을 만들려는 연구가 많습니다. 앞서 소개한 RT-2, GR00T N1, ChatVLA 같은 모델들이 이러한 흐름에 속합니다. 특히 2024년에는 멀티모달 AI를 로봇의 이해력상황 대응력을 높이는 데 활용한 흥미로운 결과들이 나왔습니다:

  • NaviLLM (CVPR 2024): 중국 CUHK 연구진은 여러 가지 로봇 길찾기/내비게이션 과제를 한꺼번에 잘 해내는 범용 내비게이션 AI를 발표했습니다. 기존의 로봇 내비게이션 모델들은 주로 특정 임무(예: 특정 방 찾아가기, 질문에 답하며 이동하기 등)에 맞춰 개별적으로 개발되었는데, NaviLLM은 하나의 거대 언어 모델(LLM)을 다양한 이동 시나리오에 적응시킨 것이 특징입니다. 비결은 **“스키마 기반 지시어”**라는 방법으로, 여러 작업들을 하나의 **일관된 문제형식(텍스트 생성 문제)**으로 통합한 것입니다. 쉽게 말해, 로봇이 해야 할 다양한 임무를 공통의 언어 틀로 표현해주면, 하나의 AI가 그 틀을 따라 답을 내놓도록 훈련할 수 있다는 뜻입니다. 이를 통해 지도 따라 방 찾기, 사람 질문에 답하며 이동하기, 3D 환경 묘사하기 등 각기 다른 Embodied AI 과제들이 모두 NaviLLM 하나의 모델로 해결 가능해졌습니다. 실제 여러 벤치마크 테스트에서 NaviLLM은 이전 최고 성능 모델들을 크게 능가했고, 처음 접하는 유형의 새로운 과제(예: 3D 공간 Q&A시각-언어 기반 설명)에도 놀라운 범용 적응력을 보였습니다. 한 예로, 사람이 “부엌에 가서 노란 물체 옆에 있는 빨간 컵을 가져와”라고 하면, NaviLLM은 주변 시각 환경을 파악해 그 지시를 이해하고 차근차근 이동 경로를 생성하여 임무를 완수합니다. 이 연구는 한 개의 LLM 기반 두뇌로 로봇의 길찾기, 질문응답, 관찰 설명까지 모두 수행하게 한 것으로, 서비스 로봇이 여러 임무를 통합 수행하는 방향에 중요한 진전을 보여주었습니다.
  • 시각-언어-액션 통합모델을 활용한 로봇 대화/조작 (ChatVLA, 2024): 복잡한 멀티모달 학習 과정에서 시각언어 이해 능력로봇 조작 능력을 모두 잃지 않고 잡아내는 것은 큰 도전입니다. 2024년 발표된 ChatVLA 프레임워크는, 대화형 AI의 언어이해력로봇의 물체 조작 능력을 하나의 모델에 통합하기 위해 **단계적 학習(Phased Learning)**과 전문가 혼합(MoE) 구조를 도입했습니다. 먼저 로봇 조작 데이터로 기본 동작 컨트롤을 학습시킨 후, 추가로 시각-텍스트 멀티모달 데이터를 점진적으로 주입하여 모델이 언어/시각 이해력을 회복하도록 했습니다. 또한 모듈별 전문가 네트워크를 둬서 작업 간 간섭을 줄였습니다. 그 결과 ChatVLA 모델은 이미지 묘사나 시각 질의응답 같은 언어적 이해 과제에서도 기존 멀티모달 모델 대비 훨씬 높은 성능을 내면서, 동시에 실제 로봇 25가지 조작 작업에서도 다른 VLA 방법들을 뛰어넘는 성공률을 보였습니다. 요컨대 말도 잘 통하고 일도 잘하는 일종의 만능 로봇 비서 AI의 가능성을 엿보인 것입니다. 이런 기술이 발전하면, 향후 로봇이 인간과 자연스럽게 대화로 소통하면서도, 대화 내용에 따라 실제 물리적 작업까지 척척 수행하는 모습을 기대해볼 수 있습니다.

上述한 연구들처럼, 거대 언어 모델과 시각 AI를 로봇에 접목하는 흐름은 로봇을 더욱 유연하고 똑똑하게 만들고 있습니다. 예를 들어, 로봇 청소기가 단순히 방안을 돌아다니는 것을 넘어 사용자 음성 명령을 이해하고, 집 안 물건을 식별하며, 필요하면 인터넷 지식까지 참고하여 최적의 행동을 결정하는 미래를 그리고 있습니다. 물론 이런 멀티모달 로봇 AI들이 실제 생활에 쓰이려면 신뢰성안전성 등의 과제가 남아 있지만, 2024년 이후의 연구 성과들은 그 잠재력을 분명히 보여주고 있습니다. 앞으로 로봇이 우리의 일상 속 파트너로서 더욱 똑똑하게 상호작용하게 될 날을 기대해도 좋을 것 같습니다.

1. Tavily란?

Tavily Search API는 대형 언어 모델이 사용할 수 있도록 설계된 LLM-friendly 웹 검색 API입니다.
기본적으로, 사용자가 제시한 쿼리를 바탕으로 관련성 높은 웹 문서를 검색하고, 정제된 결과를 반환합니다.

용도 요약:

  • 최신 정보 기반의 검색 결과 제공
  • RAG 시스템의 "retriever" 역할
  • LangChain, LlamaIndex 같은 프레임워크와 통합 가능

2. 특징 및 기능

기능  설명
빠르고 관련성 높은 검색 Google 수준의 검색 정확도
요약 포함 응답 결과에 대한 핵심 요약도 함께 제공 가능
RAG 통합 친화적 LangChain 등과 쉽게 통합되어 LLM 응답의 품질을 높임
Simple REST API Python, JS 등 다양한 언어로 쉽게 호출 가능
사이트 필터링 특정 도메인 포함/제외 기능 제공
 

3. API 사용 예시 (Python)

설치:

pip install tavily-python

 

간단한 사용 예:

from tavily import TavilyClient
client = TavilyClient(api_key="YOUR_TAVILY_API_KEY")
response = client.search(query="OpenAI ChatGPT 최신 업데이트", search_depth="advanced", include_answer=True) print(response)
 
 

응답 예시 (요약 포함):

{ "answer": "ChatGPT는 최근에 GPT-4o 모델을 출시하였습니다...", "results": [ {"url": "...", "content": "..."}, ... ] }

4. LangChain과의 통합

Tavily는 LangChain의 검색 툴로 쉽게 통합됩니다:

from langchain.tools import TavilySearchResults
tool = TavilySearchResults(api_key="YOUR_API_KEY")
results = tool.run("2025년 AI 트렌드는?")
 
 

→ 이 결과는 LangChain의 Agent가 외부 지식 검색 시 자동으로 활용할 수 있습니다.


📈 5. 활용 시나리오

  • 최신 뉴스 기반 챗봇 구축
  • 실시간 금융, 기술, 정치 정보 검색
  • RAG 시스템의 웹 검색 소스로 사용
  • LLM Agent가 외부 문서를 참조해야 할 때

🆚 6. Tavily vs 기존 검색 API

항목TavilyGoogle/Bing Search API
LLM 친화성 ✅ 매우 높음 ❌ 낮음
요약 제공 ✅ 가능 ❌ 미제공
도메인 필터링 ✅ 지원 ✅ 지원
LLM/RAG 통합 ✅ LangChain, LlamaIndex 지원 ❌ 직접 구현 필요
 

📎 참고 링크

'인공지능' 카테고리의 다른 글

RAGAS(RAG Assessment)  (0) 2025.05.26
토크나이저(tokenizer)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26

📌 1.   Ragas 란? 

RAGAS는 Retrieval-Augmented Generation 시스템을 평가하는 오픈소스 프레임워크로, 단일 문항 단위의 평가부터 전체 시스템 수준의 평가까지 지원합니다.
특히, 참조 없는 평가(Reference-free evaluation) 방식으로, 사람이 직접 평가 데이터셋을 구축하지 않아도 자동으로 성능을 측정할 수 있다는 장점이 있습니다.

주요 목적:

  • RAG 시스템의 성능을 세분화된 지표로 측정
  • 검색 (retriever) 및 생성 (generator) 모듈의 품질 파악
  • LLM 파이프라인의 진단 및 개선

🔍 2. 평가 지표 (Metrics)

RAGAS는 크게 다음 4가지 주요 지표를 제공합니다:

Faithfulness (정확성)

  • 생성된 응답이 검색된 컨텍스트와 얼마나 잘 일치하는지를 측정
  • 거짓 정보나 맥락 외 정보가 있을 경우 낮은 점수를 줌
  • 사용 기술: LLM 기반 평가 또는 자연어 추론(NLI)

Answer Relevancy (응답 관련성)

  • 질문에 대해 생성된 응답이 실제로 유의미한지를 평가
  • 대답이 질문과 무관하면 낮은 점수

Context Precision (문맥 정밀도)

  • 검색된 문서 중에서 질문에 실제로 유용한 문서가 포함되었는지를 평가
  • 검색기(retriever)의 품질을 측정하는 데 활용

Context Recall (문맥 재현율)

  • 응답 생성에 필요한 문서가 검색 결과에 빠짐없이 포함되었는지를 평가

[보조 지표]

  • Context RecallContext Precision은 retrieval 부분에 집중
  • FaithfulnessAnswer Relevancy는 generation 부분에 집중

⚙️ 3. RAGAS 평가 구성요소

평가를 위해 아래와 같은 정보가 필요합니다:

필드 설명
question 사용자 질문
contexts 검색된 문서 리스트
answer 모델이 생성한 응답
ground_truth (선택) 정답(참조 응답, 선택적)
 

🧪 4. RAGAS 사용 방법 (Python 예시)

설치:

pip install ragas
 
 

평가 코드 예시:

from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall
 
from ragas import evaluate
 
from datasets import Dataset
 
 
# 평가용 데이터 생성
data = Dataset.from_dict({
       "question": [...],
       "contexts": [...], # List of strings
       "answer": [...], # 모델 생성 응답
       "ground_truth": [...] # 선택 사항
})
 
 
# 평가 실행
results = evaluate(data, metrics=[
        faithfulness,
answer_relevancy,
context_precision,
context_recall
 
])
 
print(results)
 
 

 

결과 예시:

 
{
'faithfulness': 0.83,
'answer_relevancy': 0.91,
'context_precision': 0.75,
'context_recall': 0.65
}

 

 


💡 5. RAGAS의 장점

장점설명
참조 없이 평가 가능 정답이 없는 QA 시스템에서도 활용 가능
구성 요소별 평가 Retrieval과 Generation 성능을 구분하여 분석 가능
확장성 HuggingFace, LangChain, LlamaIndex 등 다양한 파이프라인에 적용 가능
시각화 및 디버깅 가능 특정 쿼리의 문제를 쉽게 추적 가능
 

📚 6. 주요 활용 사례

  • ChatGPT Plugin이나 LangChain Agent의 성능 진단
  • 내부 QA 챗봇의 응답 품질 분석
  • RAG 파이프라인 개선 전/후 비교

📎 참고 링크

'인공지능' 카테고리의 다른 글

Tavily - 검색기반 툴  (0) 2025.05.26
토크나이저(tokenizer)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26

1. 토크나이저란?

토크나이저는 문장을 "토큰(token)"이라는 단위로 분리하는 도구입니다.
토큰은 보통 단어, 부분 단어(subword), 문자 혹은 심볼입니다.
예시:

  • 입력: "나는 학생입니다."
  • 토큰: ["나는", "학생", "입니다", "."] (어떤 토크나이저를 쓰느냐에 따라 달라짐)

2. 토크나이저의 종류

단어 기반 (Word-level)

  • 문장을 단어 단위로 분리
  • 예: "I love AI" → ["I", "love", "AI"]
  • 단점: 신조어나 드문 단어 처리에 약함

문자 기반 (Character-level)

  • 한 글자씩 나눔
  • 예: "AI" → ["A", "I"]
  • 장점: 모든 단어를 커버 가능
  • 단점: 시퀀스 길이가 매우 길어짐

서브워드 기반 (Subword-level) – 현대 모델에서 가장 많이 사용

  • 자주 쓰이는 단어는 통째로, 나머지는 하위 단위로 분리
  • 대표 알고리즘:
    • BPE (Byte Pair Encoding) – GPT 시리즈에서 사용
    • WordPiece – BERT에서 사용
    • Unigram – SentencePiece 토크나이저

예:  "unhappiness" → ["un", "happiness"] 또는 ["un", "hap", "pi", "ness"]


3. GPT 모델의 토크나이저 예시 (BPE 기반)

GPT 계열은 Byte-Pair Encoding을 기반으로 텍스트를 토큰으로 분리합니다.
예: "ChatGPT는 좋아요!"
→ ["Chat", "G", "PT", "는", "좋", "아요", "!"]
(실제로는 byte 단위 변환도 포함되어 있음)


4. 토크나이저의 활용

  • 모델 입력값 변환: 텍스트 → 숫자 시퀀스
  • 디코딩: 숫자 시퀀스 → 다시 텍스트
  • 토큰 개수 세기: 예산, 토큰 제한 확인 (ex. GPT-4는 최대 128k 토큰까지 처리 가능)

Tokenizer - OpenAI API

 

'인공지능' 카테고리의 다른 글

Tavily - 검색기반 툴  (0) 2025.05.26
RAGAS(RAG Assessment)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26

멀티모달 모델은 다양한 형태의 데이터를 동시에 처리하여 인간과 유사한 인식 능력을 갖춘 인공지능 시스템을 구현하는 데 핵심적인 기술입니다. 이러한 모델은 텍스트, 이미지, 음성 등 여러 모달리티의 정보를 통합하여 더 풍부하고 정확한 이해를 가능하게 합니다.


🧠 멀티모달 모델의 기본 구조

멀티모달 모델은 일반적으로 다음과 같은 구성 요소로 이루어져 있습니다:

  1. 입력 모달리티: 텍스트, 이미지, 음성 등 다양한 형태의 데이터
  2. 모달리티별 인코더: 각 모달리티의 특징을 추출하여 벡터 형태로 변환
  3. 융합 모듈: 각 모달리티의 벡터를 통합하여 공동 표현 공간 생성
  4. 디코더 또는 출력 모듈: 통합된 표현을 기반으로 최종 결과 생성

이러한 구조를 통해 모델은 다양한 형태의 입력을 효과적으로 처리하고, 복합적인 작업을 수행할 수 있습니다.

 


 1. 멀티모달 모델 개발 방법

📌 기본 개념:

멀티모달 모델은 서로 다른 **입력 유형(텍스트, 이미지, 음성 등)**을 받아 **공통된 의미 표현(latent space)**으로 통합한 뒤,
그에 맞는 **출력(텍스트, 분류 결과 등)**을 생성합니다.

🏗️ 개발 단계별 구성:

단계 설명
① 입력 정리 서로 다른 형태의 데이터를 준비 (예: 이미지 + 텍스트 + 음성)
② 모달별 인코더 각 입력을 처리하는 별도 모델 사용 (예: CNN, BERT, Whisper 등)
③ 멀티모달 융합 벡터 형태로 변환된 정보를 하나의 공간으로 통합 (cross-attention 등 활용)
④ 디코더 구성 최종 출력(답변, 분류 등)을 생성하는 구조 연결 (예: LLM 디코더)
⑤ 공동 학습 다양한 입력 조합을 동시에 학습하여 일반화된 표현 학습
⑥ 튜닝/평가 특정 태스크에 맞게 파인튜닝 or zero-shot 성능 평가

💡 훈련에는 멀티모달 데이터셋 (예: 이미지 + 설명 텍스트)이 필요합니다.


🌟 2. 대표 멀티모달 모델

모델 설명
GPT-4o 텍스트 + 이미지 + 음성까지 하나의 모델에서 실시간 처리 가능 (OpenAI)
Gemini Google의 멀티모달 LLM. 검색, 비전, 영상 이해 특화
CLIP OpenAI의 이미지-텍스트 연결 모델 (검색 및 분류에 강함)
LLaVA 이미지 + 텍스트 질의응답 특화 모델 (Lightweight)
Flamingo DeepMind의 Few-shot 멀티모달 모델
Kosmos-1 Microsoft, multimodal reasoning + vision-grounded text
 

**멀티모달 모델 대표 논문 정리

다음 표는 텍스트, 이미지, 음성 등 다양한 모달리티를 융합하거나 활용하는 대표적인 AI 멀티모달 모델들의 핵심 논문을 정리한 것입니다. 각 행에는 논문 제목, 발표 연도, 주요 저자, 모델 이름, 기여 요약, 그리고 관련 링크를 포함하고 있습니다.

 

논문 제목 발표 연도 주요 저자  모델 이름    기여 요약  관련 링크
ViLBERT: Pretraining Task-Agnostic Visiolinguistic Representations for Vision-and-Language Tasks 2019 Jiasen Lu et al. ViLBERT BERT 구조를 확장하여 이미지와 텍스트를 각각 처리하면서 공동 주의 메커니즘으로 결합한 비전-언어 모델을 제안하였다. 대규모 이미지-캡션 데이터셋(Conceptual Captions)으로 사전학습한 후 VQA, 이미지 설명, 이미지 검색 등 다양한 비전-언어 과제에 미세 튜닝만으로 당시 최고 성능을 달성하여, 시각-언어 결합 표현의 사전학습 효과를 입증하였다. arXiv:1908.02265
Learning Transferable Visual Models From Natural Language Supervision 2021 Alec Radford et al. CLIP 인터넷에서 수집한 4억 쌍 이상의 이미지-텍스트 데이터를 활용하여 이미지와 텍스트를 공동 임베딩 공간에 맵핑하는 대규모 대비학습(multimodal contrastive learning) 모델을 제시하였다. 사전 학습된 CLIP 모델은 추가 학습 없이(zero-shot) 텍스트 설명만으로 다양한 시각 인식 과제에 적용 가능하며, 30여 개의 벤치마크에서 지도학습 모델에 필적하는 성능을 보였다. arXiv:2103.00020
Flamingo: a Visual Language Model for Few-Shot Learning 2022 Jean-Baptiste Alayrac et al. Flamingo 사전학습된 비전 전용 모델언어 모델을 결합하고, 이미지와 텍스트가 임의로 섞인 시퀀스를 입력으로 처리할 수 있는 멀티모달 모델을 개발하여 few-shot 학습 능력을 구현하였다. 하나의 Flamingo 모델이 시각 질의응답, 이미지 캡션 생성 등 다양한 비전-언어 과제에서 몇 개의 예시만으로 새로운 최고 성능을 달성하여, 대량의 특화 데이터로 미세 튜닝된 모델보다 우수한 결과를 보였다. arXiv:2204.14198
GPT-4 Technical Report 2023 OpenAI et al. GPT-4 OpenAI가 공개한 초대형 멀티모달 언어 모델로, 텍스트뿐 아니라 이미지까지 입력으로 받아들여 텍스트로 출력할 수 있는 것이 특징이다. 다양한 전문 자격시험 및 학업 벤치마크에서 인간에 준하는 성능을 보였으며 (예: 미국 변호사시험 모의고사에서 상위 10% 수준 점수 달성), 멀티모달 입력에 대한 고차원 추론 능력을 입증했다. arXiv:2303.08774
Language Is Not All You Need: Aligning Perception with Language Models 2023 Shaohan Huang et al. Kosmos-1 Microsoft가 제안한 멀티모달 **대형 언어 모델(MLLM)**로, 텍스트와 이미지 등 여러 모달리티를 입력받아 맥락 학습(few-shot)지시 이행(zero-shot) 능력을 갖추도록 훈련되었다. 웹 규모의 텍스트-이미지 혼합 데이터 및 캡션 corpora로 처음부터 멀티모달 학습을 하여, 추가 미세튜닝 없이도 일반 자연어 처리 과제(이미지 문서 입력을 통한 OCR 없이 바로 언어 이해 등), 시각-언어 과제(멀티모달 대화, 이미지 설명, VQA 등), 그리고 순수 시각 과제(이미지 분류 등)에서 두루 뛰어난 성능을 보였다. arXiv:2302.14045
Visual Instruction Tuning 2023 Haotian Liu et al. LLaVA GPT-4를 활용해 생성한 이미지-설명 지시 따르기 데이터로 대규모 언어모델을 튜닝하여 탄생한 멀티모달 어시스턴트 모델이다. 이렇게 개발된 LLaVA 모델은 보이지 않은 이미지에 대해서도 GPT-4에 가까운 대화형 응답 능력을 보였으며(특정 평가에서 GPT-4의 약 85% 수준), 과학 QA 벤치마크에서는 GPT-4와의 협업을 통해 **최고 정확도(92.5%)**를 달성하였다. arXiv:2304.08485
ImageBind: One Embedding Space To Bind Them All 2023 Rohit Girdhar et al. ImageBind Meta AI에서 발표한 모델로, 이미지, 텍스트, 오디오, 깊이(Depth), 열화상, IMU여섯 가지 모달리티 데이터를 하나의 임베딩 공간에 연결하여 표현 학습을 달성했다. 흥미롭게도 이미지와 다른 모달리티 간 쌍(pair) 정보만으로 학습해도 나머지 모달리티들을 성공적으로 결합할 수 있음을 보였으며, 이를 통해 모달리티 간 자유로운 검색과 조합, 교차 모달 탐지 및 생성 등의 새로운 응용을 가능케 했다. 그 결과 여러 모달리티 조합의 zero-shot 인식 실험에서 특화 모델들을 뛰어넘는 최고 성능을 기록하였다. arXiv:2305.05665
Gemini: A Family of Highly Capable Multimodal Models 2023 Rohan Anil et al. Gemini Google DeepMind가 발표한 멀티모달 모델 계열로, 텍스트, 이미지, 오디오, 비디오 등 다양한 입력을 처리하는 초거대 멀티모달 모델Ultra, Pro, Nano 세 가지 규모로 제공한다. 가장 강력한 Gemini Ultra 모델은 광범위한 벤치마크에서 32개 중 30개 항목의 최고 성능을 달성했고, 특히 MMLU 시험에서는 처음으로 인간 전문가 수준(human-expert)의 점수를 기록했으며, 실험된 20개의 멀티모달 벤치마크 모두에서 기존 최고치를 경신하였다. 이러한 강력한 모달 간 추론 및 언어 이해 능력을 바탕으로, Gemini 모델은 향후 다양한 응용 분야에서 활용될 것으로 기대된다. arXiv:2312.11805

⚠️ 3. 멀티모달 모델의 문제점 및 한계

문제점 설명
📊 데이터 부족 텍스트는 많지만 “이미지+텍스트” 같이 동기화된 멀티모달 데이터는 적음
⚙️ 모달 융합 복잡성 서로 다른 타입의 정보를 어떻게 조화롭게 연결할지 어려움
🧠 추론 난이도 모달 간 정보가 충돌하거나 혼동될 수 있음 (예: 이미지 설명과 텍스트 질문 불일치 등)
연산량/속도 문제 영상/음성은 처리량이 커서 실시간 처리 어려움
💾 메모리 비용 모달마다 별도 인코더가 있어 파라미터 수 증가
 

📉 4. 개발 난이도

요소 난이도
텍스트-only LLM ⭐ (쉬움 - 데이터 많고 라이브러리 풍부)
이미지 + 텍스트 (예: CLIP) ⭐⭐ (중간 - open dataset 많음)
음성 + 텍스트 (예: Whisper + LLM) ⭐⭐⭐ (데이터 정제 필요)
음성 + 이미지 + 텍스트 통합 (GPT-4o급) ⭐⭐⭐⭐ (고난도 - 통합 설계 및 최적화 필수)
 

🔧 멀티모달 모델 개발에 활용되는 기술/도구

분야 기술 예시
텍스트 GPT, BERT, T5 등
이미지 ResNet, ViT (Vision Transformer), CLIP
음성 Whisper, Wav2Vec
멀티모달 라이브러리 HuggingFace Transformers + Datasets, OpenFlamingo, LLaVA
학습 가속화 LoRA, PEFT, DeepSpeed 등
융합 전략 Cross-Attention, Late Fusion, Early Fusion, Adapter Fusion 등
 

 


✅ 정리 요약

항목 설명
정의 다양한 모달리티(텍스트, 이미지, 음성 등)를 동시에 처리하고 이해하는 AI 모델
개발 방식 모달별 인코더 + 융합 레이어 + 디코더 구조
대표 모델 GPT-4o, Gemini, CLIP, LLaVA, Flamingo 등
문제점 데이터 부족, 융합 어려움, 메모리/속도 부담
개발 난이도 중상~고급 (모달 조합 수에 비례해 복잡도 증가)

 

**멀티 모달 모델 요약

모델 이름 하는 일 예시 설명
ViLBERT 이미지와 문장을 동시에 이해해요 강아지 사진을 보며 “이게 어떤 동물이야?”라고 물으면, 이미지를 보고 “강아지”라고 대답
CLIP 이미지와 설명이 연결된 세상을 배웠어요 “검은 고양이”라고 썼을 때, 고양이 사진 중에 정확히 고를 수 있음 (검색, 분류에 강함)
Flamingo 문장과 이미지가 섞여 나와도 자연스럽게 이해해요 “이 사진에서 고양이 몇 마리 있어?”처럼 텍스트 + 이미지 섞인 질문에 답함
GPT-4 글뿐 아니라 이미지도 이해할 수 있어요 수학 문제를 사진으로 보여줘도 풀 수 있어요
Kosmos 글+그림+웹페이지까지 처리할 수 있는 똑똑한 모델 이미지가 포함된 문서나 웹사이트를 읽고 요약 가능
LLaVA GPT에게 그림을 설명하는 법을 배운 모델이에요 “이 사진에 뭐가 나와?” 하면, “햇살 좋은 공원에서 뛰는 아이”처럼 GPT 스타일로 답해요
ImageBind 다양한 감각(소리, 사진, 온도, 움직임...)을 하나로 연결 예를 들어 “불타는 장작 사진”을 보면 → 그 장작 타는 소리를 떠올릴 수 있어요
Gemini Google의 만능 멀티모달 모델 그림, 소리, 말, 심지어 영상까지 이해하는 차세대 AI (GPT-4보다 더 강력한 분야도 있어요)

'인공지능' 카테고리의 다른 글

RAGAS(RAG Assessment)  (0) 2025.05.26
토크나이저(tokenizer)  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26

MCP는 AI 모델이 외부 세계와 구조화된 방식으로 소통하기 위한 프로토콜입니다.

기존의 GPT, Claude, LLaMA 등은 뛰어난 생성 능력을 가지고 있지만,

  • 파일을 읽거나
  • 실제 계산을 수행하거나
  • 실시간 데이터베이스에 접근하는 것에는 한계가 있었습니다.

👉 **MCP는 이 한계를 뛰어넘기 위한 “모델-외부 시스템 간 인터페이스 표준”**입니다.


🔧 MCP의 목적

목적 설명
🌐 도구 호출 표준화 LLM이 계산기, 웹 검색, API 호출 등 다양한 툴을 직접 사용할 수 있게 해줌
📂 컨텍스트 관리 대화 세션, 사용자 정보, 문서 정보 등 **맥락(context)**을 기억하고 관리 가능
🔗 LLM ↔ 애플리케이션 연결 외부 앱(예: 캘린더, 이메일, DB)과 AI가 양방향으로 연결
📦 확장 가능한 플러그인 구조 개발자는 다양한 기능을 “도구 모듈”로 추가할 수 있음 (예: 파일 브라우저, 계산기 등)
 

🔁 MCP 작동 흐름 예시

  1. 사용자가 AI에게 요청:
  2. “지난주 회의록 파일을 읽고 요약해줘.”
  3. LLM은 스스로 판단:
    • “파일을 열기 위한 도구 필요하네”
    • → tools.file.open("회의록.pdf") 호출
  4. MCP 인터페이스를 통해 해당 도구 호출 → 파일 내용 반환
  5. LLM은 반환된 내용을 이용해 요약 생성 → 사용자에게 응답

🧩 MCP의 주요 구성 요소

구성요소 역할
Tool LLM이 사용할 수 있는 도구 (예: 웹 검색, 파일 로드, 계산기 등)
Context 세션 정보, 사용자 상태, 과거 응답 등 지속적 맥락
Schema 입력과 출력의 데이터 형식을 JSON 형태로 구조화
Function Calling ChatGPT와 같은 기능 호출 구조를 더욱 정교하게 구현
Server / Runtime 실제로 MCP 호출을 받고 실행해주는 백엔드 서비스
 

🎯 MCP를 통해 가능한 활용 예

사용 시나리오 설명
💬 대화형 에이전트 사용자 질의에 따라 적절한 도구를 선택해서 응답 (계산기, 메모 등)
📄 문서 기반 챗봇 파일 시스템과 연결된 도구를 통해, 특정 문서 검색 및 요약
🔄 업무 자동화 CRM, 캘린더, 이메일 등과 연동하여 일정 자동 추가, 회신 생성
🧠 지속형 AI 비서 사용자 프로필, 대화 이력 등 “컨텍스트”를 유지하며 장기적 대화 가능
 

 


✅ MCP의 장점 요약

장점 설명
🧱 표준화 다양한 LLM과 시스템이 쉽게 통합될 수 있는 구조
🔍 투명성 어떤 도구를 언제 호출했는지 추적 가능 (보안, 감사에 유리)
💡 확장성 새로운 도구나 기능을 쉽게 추가 가능
🤝 모델 독립성 Claude, GPT, Mistral 등 모델에 상관없이 공통 적용 가능
 

🧠 요약 정리

항목 설명
정의 AI 모델이 외부 도구, 데이터, 컨텍스트와 상호작용할 수 있도록 만든 통신 프로토콜
개발사 Anthropic 주도 (Claude AI)
적용 모델 Claude 3 계열 중심, GPT-style 시스템에서도 개념 확장 중
핵심 기능 도구 호출, 문맥 유지, 표준화된 응답 구조, 플러그인화
활용 분야 AI 비서, 자동화 시스템, RAG 연동, SaaS 통합형 챗봇 등

 

'인공지능' 카테고리의 다른 글

토크나이저(tokenizer)  (0) 2025.05.26
멀티모달 모델  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26
LLM Fine-Tuning이란?  (0) 2025.05.26

Adapter는 "기존 대규모 언어 모델(LLM)을 모두 수정하지 않고도, 중간에 작고 가벼운 네트워크를 덧붙여서 파인튜닝하는 방식"입니다.

즉, 원래 모델은 그대로 두고, 작은 덧붙임 모듈만 학습해서 모델을 바꾸는 방식이에요.

🎒 비유: 새로운 옷을 전부 갈아입는 대신, 기존 옷 위에 얇은 조끼(조정기)를 덧입는 것입니다.

 


🧠 Adapter가 필요한 이유

기존방식 문제점
Full Fine-Tuning 모델 전체 학습 → 비용 비쌈, 메모리 큼
Adapter 전체 모델 유지 + 일부만 훈련 → 효율적, 빠름

LLM을 수백 개, 다양한 목적에 맞게 쓰려면 매번 전체 학습은 너무 무거워요.
→ Adapter 방식으로 효율적인 다목적 튜닝이 가능해집니다.


🔧 Adapter의 구조와 작동 방식

Transformer 블록 내부에 **작은 추가 계층(레이어)**을 삽입합니다:

[Input] → [Transformer Layer]
                             ↓
                [Adapter Module]
                             ↓
                     [출력값 보정]
 
 

Adapter는 보통 다음 구조를 가집니다:

 
Linear ↓ (줄이기: down-projection)
ReLU
Linear ↑ (늘리기: up-projection)
  • 입력 벡터의 차원을 잠깐 줄였다가 다시 늘리면서,
  • 그 사이에서 도메인 특화 정보를 학습합니다.
  • 전체 파라미터 중 극히 일부만 훈련 대상이 됩니다.

 

🧠 작동 방식 비교 (비유로 설명)

🧪 Adapter 비유

“기존 Transformer 사이에 **보조 장치(컨버터 박스)**를 끼워 넣는 느낌”

  • 원래 길을 그대로 두고,
  • 중간에 짧게 우회로를 만들어, 그 길에서만 학습을 수행

⚙️ LoRA 비유

“기존 가중치 행렬 옆에 작은 벡터(조정기)를 덧붙여 살짝 방향만 틀어주는 방식

  • 기존 가중치는 그대로 두고,
  • 작은 방향 조정 행렬을 덧붙여 응답 스타일이나 도메인 특성을 보정

✅ Adapter의 특징 요약

항목 설명
🧠 기존 모델 유지 원래 모델 파라미터는 수정하지 않음 (freeze)
📦 추가 모듈만 학습 Adapter Layer만 업데이트
💾 경량화 파라미터 수 매우 적음 (1% 미만 가능)
🔁 유연성 다양한 Task마다 adapter만 교체 가능

 

 


💡 예시

예: GPT 모델을 의료 상담용으로 튜닝하고 싶을 때

  • 원래 GPT는 그대로 둔 채,
  • “의료 도메인 정보”만 반영하는 Adapter Layer를 삽입
  • 결과:
    • ✅ 원래 문법/문장력 유지
    • ✅ 의료 용어/문장 스타일 반영

🔁 Adapter vs LoRA vs Full Fine-Tuning

구분 Adapter LoRA
🎯 개념 Transformer 블록 사이에 추가 모듈(layer) 삽입 기존 가중치에 저랭크 행렬을 덧붙여 보정
🏗 삽입 위치 Transformer의 각 층 중간에 새 레이어 삽입 기존 가중치(W)의 곱셈 연산 위치에 직접 연결
🎯 학습 대상 추가된 Adapter Layer만 학습 새로 추가된 A, B 행렬만 학습
💾 메모리 효율 높음 (1~5% 파라미터) 더 높음 (0.1~2% 파라미터)
🔄 기본 모델 수정 ❌ 기존 가중치는 고정 ❌ 기존 가중치는 고정
성능/효율 균형 비교적 일반적 성능 향상 고속·고효율에서 강점
💼 도입 난이도 상대적으로 간단 Hugging Face 기반 시 사용 용이

 

항목 Full FT Adapter LoRA
수정 대상 전체 파라미터 Adapter 모듈 저랭크 보정 행렬
메모리 ❌ 매우 큼 ✅ 적음 ✅ 매우 적음
성능 ✅ 최고 ✅ 높음 ✅ 높음
유연성 ❌ 낮음 ✅ 높음 ✅ 높음
훈련 파라미터 수 100% ~1–5% 0.1–2%
 

📊 기술적 구조 요약

항목 Adapter LoRA
수식 형태 추가 레이어: x → down → ReLU → up → output 가중치 수정: W → W + A·B
메모리 높음 (~5%) 매우 낮음 (~0.1%)
병렬성 높음 높음
LoRA보다 유연한가? ✅ 다양한 구조 설계 가능 ❌ 구조 고정적
프레임워크 AdapterHub, Transformers Hugging Face PEFT, QLoRA 등
 

🧩 언제 어댑터를 쓰면 좋을까?

  • 💼 기업별/부서별로 다양한 특화 모델이 필요한 경우
  • 💾 모델 저장 공간이 부족하거나, GPU 리소스가 제한적일 때
  • 🔁 하나의 LLM에 다양한 Adapter 모듈만 갈아 끼워서 사용하고 싶을 때

 

실제 사용 선택 기준
상황 추천방식
파인튜닝 효율성과 경량화가 중요할 때 LoRA
여러 작업을 동시에 지원하고 싶을 때 Adapter
GPU 메모리 매우 부족한 경우 LoRA
다양한 모듈을 독립적으로 실험하고 조합하고 싶을 때 Adapter

 


🧠 Adapter 정리 요약

항목 설명
무엇인가요? 기존 모델은 그대로 두고, 중간에 조정 모듈을 삽입하여 학습하는 방식
어떤 상황에 유리한가요? 빠르고 경량화된 튜닝, 다목적 확장, 비용 절감
장점은? 메모리/속도 효율, 파라미터 절감, 멀티태스킹 유연성
대표 활용 Hugging Face AdapterHub, LLM 튜닝, 개인화 AI

'인공지능' 카테고리의 다른 글

멀티모달 모델  (0) 2025.05.26
MCP(Model Context Protocol)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26
LLM Fine-Tuning이란?  (0) 2025.05.26
🔍 RAG란?  (0) 2025.05.26

PEFT(Parameter-Efficient Fine-Tuning)에서 가장 널리 사용되는 기법인 **LoRA(Low-Rank Adaptation)**

 

LoRA = Low-Rank Adaptation
즉, 기존 모델의 무거운 파라미터는 고정해두고, 아주 작은(저랭크) 행렬만 학습하는 방식의 파인튜닝 기법입니다.

GPT, BERT 같은 대규모 모델은 수억~수천억 개의 파라미터를 갖고 있는데,
모델을 파인튜닝하려면 원래는 이 모든 파라미터를 수정해야 했어요.

하지만 LoRA는 이렇게 말합니다:

❝ 기존 모델은 그대로 두고, 그 옆에 아주 작은 보정 모듈만 붙여서 학습하자! ❞


🔧 LoRA의 작동 원리

📌 기존 방식 (Full Fine-Tuning)

  • 모델의 모든 파라미터를 업데이트 (매우 비쌈, 느림)

📌 LoRA 방식

  • 기존의 가중치 행렬 W를 그대로 둠 
  • 대신, 두 개의 저차원 행렬 A, B를 만들어 이렇게 보정:    W’ = W + ΔW (ΔW = B @ A)

       즉, 학습 시 A와 B만 학습하고, 기존 W는 고정(freeze)

🧮 A: 낮은 차원으로 축소하는 행렬
🧮 B: 다시 원래 차원으로 확장하는 행렬


📦 구조 예시

예를 들어, W가 1024×1024 행렬이라면:

  • A는 1024×4 (저차원)
  • B는 4×1024
    → 총 8,000개만 학습! (기존 1백만 → 0.8% 수준)

✅ 왜 LoRA가 강력한가?

장점 설명
💾 파라미터 수 절감 전체의 0.1~2%만 학습
🚀 GPU 메모리 절약 대규모 모델도 1~2 GPU로 학습 가능
빠른 학습 짧은 시간에 파인튜닝 가능
🔁 모듈화 원래 모델은 고정이므로, LoRA 모듈만 교체하거나 공유 가능
 

🎯 언제 LoRA를 사용하면 좋을까?

  • 🔹 리소스가 부족할 때 (1-2 GPU, 노트북 환경)
  • 🔹 모델을 계속 재사용하고 싶을 때
  • 🔹 여러 작업에 맞춰 빠르게 미세조정할 때
  • 🔹 다양한 스타일, 성격, 언어 등에 맞춘 커스터마이징

🧪 실전 예시

예: 고객지원 챗봇에 LoRA 적용

  1. 기본 GPT 모델 사용 (학습된 사전 지식 유지)
  2. 회사 고객응대 스타일 데이터로 LoRA 학습 (1~2시간이면 가능)
  3. LoRA 모듈만 붙여서 배포 (원본 GPT는 그대로)

→ 일반 GPT는 “공손하게 말하지만 일반적인 응답”
→ LoRA 모델은 “회사 스타일로 친절하게, 약관대로 설명”


🧠 LoRA vs Full Fine-Tuning vs Adapter

항목 Full FT Adapter LoRA
학습 파라미터 100% 10%~ 0.1~2%
성능 유지 ✅ 높음 ✅ 중간~높음 ✅ 매우 높음
메모리/속도 ❌ 높음 보통 ✅ 매우 효율적
원래 모델 수정 ❌ O ❌ (freeze)
 

🔧 사용 도구

  • Hugging Face 🤗 PEFT + LoRA
  • 🤗 Transformers + bitsandbytes + QLoRA
  • OpenChatKit, LLaMA-LoRA, Alpaca-LoRA 등 수많은 오픈소스 기반 LoRA 적용 사례 존재

✅ 요약 정리

항목 설명
목적 대규모 모델을 가볍고 빠르게 파인튜닝하기 위함
핵심 방식 기존 가중치는 고정, 저랭크 행렬 A, B만 학습
장점 💾 메모리 절약, 🚀 속도 향상, 🧩 모듈화 가능
적용 분야 고객지원, 금융/의료 도메인 특화, 스타일 커스터마이징 등
대표 기술 Hugging Face PEFT + LoRA, QLoRA 등

 

PEFT = Parameter-Efficient Fine-Tuning
즉, 전체 모델을 학습하지 않고도 효과적으로 파인튜닝하는 기법입니다.

기존의 Fine-Tuning은 모델 전체(수십~수백 억 개의 파라미터)를 업데이트해야 해서,
💸 학습 비용이 크고 느리며, 🧠 오버피팅 위험도 있었습니다.

→ 그래서 등장한 것이 PEFT입니다.


🧠 왜 PEFT가 필요할까?

문제점 설명
✅ LLM은 너무 큼 GPT-3.5는 175B 파라미터. 모두 학습시키기엔 비용이 💸
✅ 대부분 쓸데없이 바뀜 Fine-Tuning에 필요한 변화는 일부 구조에만 집중됨
✅ 빠르게 반복하기 어려움 GPU 메모리 부족, 훈련 시간 증가
 

💡 PEFT는 전체 모델을 건드리지 않고, 소수의 파라미터만 추가·조정하여도 효과적인 결과를 얻을 수 있도록 합니다.


🔧 PEFT의 주요 기법

1. LoRA (Low-Rank Adaptation) 🥇 가장 널리 쓰임

  • 원래 모델은 그대로 고정 (freeze)
  • 일부 작은 행렬만 추가해서 학습
  • 기존 가중치에 저차원(작은 크기) 행렬을 곱해서 보정

📦 장점:

  • GPU 메모리 사용 절감
  • 학습 속도 증가
  • 훈련 파라미터 수 감소 (~0.1% 수준)

2. Prefix Tuning

  • 각 입력에 **“프리픽스 벡터”**를 앞에 붙여서 모델 행동을 조절
  • 모델 파라미터는 고정

예: 질문 앞에 "법률 전문가로 답해주세요"처럼 특별한 입력 토큰을 추가하는 것과 유사


3. Adapter Tuning

  • 각 Transformer 블록 사이에 **작은 추가 네트워크(layer)**를 삽입
  • 이 adapter만 학습

기존 모델은 그대로 유지하되, adapter가 역할을 학습함


4. Prompt Tuning / Prompt Injection

  • 학습 가능한 임베딩 벡터를 입력에 붙이는 방식
  • 가장 가볍지만, 다소 성능은 제한적

📊 비교표

방식 학습 파라미터 성능 속도 구현 난이도
Full Fine-Tuning 전체 ⭐⭐⭐⭐ ❌ 느림 🧠 복잡
LoRA 0.1~2% ⭐⭐⭐⭐ ✅ 빠름 ⚙️ 쉬움
Prefix Tuning ~0.01% ⭐⭐⭐ ✅ 매우 빠름 ⚙️ 쉬움
Prompt Tuning ~0.001% ⭐⭐ ✅ 매우 빠름 ⚙️ 매우 쉬움
 

🧩 실제 적용 예시

분야 활용
고객지원 사내 스타일에 맞춘 응답 fine-tuning (LoRA)
의료/법률 특정 문장/형식에 맞춘 LLM 파인튜닝
소형 디바이스 메모리 적은 환경에서도 튜닝 적용 가능
다국어 챗봇 언어별 adapter만 분리해 유지 가능
 

✅ PEFT의 장점 정리

항목설명
항목 설명
💾 메모리 절약 수백 배 적은 학습 파라미터
🧠 성능 유지 전체 학습과 비슷한 품질
🚀 빠른 반복 실험 모델 수정 없이 빠른 실험 가능
🔄 모델 공유 용이 LoRA 가중치만 별도로 저장/배포 가능
 

🧠 결론 요약

  • PEFT는 LLM을 빠르고 저렴하게 Fine-Tuning할 수 있는 방법입니다.
  • 특히 LoRA는 가장 널리 쓰이며, GPU 리소스가 부족한 환경에서도 매우 효과적입니다.
  • PEFT는 RAG, LangChain, Hugging Face Transformers와도 잘 연동되어 실무에서 매우 유용합니다.

'인공지능' 카테고리의 다른 글

MCP(Model Context Protocol)란?  (0) 2025.05.26
🔍 어댑터(Adapter)란?  (0) 2025.05.26
LLM Fine-Tuning이란?  (0) 2025.05.26
🔍 RAG란?  (0) 2025.05.26
🧠 LangChain이란?  (0) 2025.05.26

Fine-Tuning
이미 많은 데이터를 학습한 LLM(예: GPT, BERT 등)을 **당신이 원하는 목적이나 분야에 맞게 '추가로 학습시키는 과정'**입니다.

🎯 비유: 
GPT는 이미 “백과사전”을 다 외운 똑똑한 사람
Fine-Tuning은 그 사람에게 “법률 지식”이나 “회사 내부 규칙” 같은 특정 분야를 집중적으로 다시 가르치는 것입니다.


🧠 왜 Fine-Tuning을 할까?

일반 GPT Fine-Tuned GPT
광범위한 상식은 많지만 특정 도메인에 약할 수 있음
일반적인 말은 잘하지만 회사 전용 용어, 고객 데이터는 모름
창의적인 답변은 가능하지만 포맷, 스타일, 문체 요구에는 한계
 

따라서, 특정 목적에 맞게 정확하고 일관된 응답을 위해 Fine-Tuning이 필요합니다.


🧱 Fine-Tuning의 구성요소

1. 기존 LLM (Base Model)

  • 이미 사전학습(pre-trained)된 언어 모델 (ex: GPT-3, LLaMA, FLAN-T5 등)

2. 학습 데이터

  • 보통 다음 형식:
  • json
    { "input": "고객이 반품 요청했을 때 응답 메시지를 작성해줘", "output": "고객님, 불편을 드려 죄송합니다. 반품 절차는 아래와 같습니다..." }

3. Fine-Tuning 툴킷

  • Hugging Face Transformers
  • OpenAI Fine-tuning API (GPT-3.5 etc.)
  • LoRA, QLoRA (경량 파인튜닝 기법)
  • LangChain + PEFT

🔁 Fine-Tuning의 작동 방식 

[1단계] 기존 GPT는 책 수천 권을 외운 상태
 
[2단계] 당신이 원하는 문장 스타일, 도메인 지식, 응답 형식을 데이터로 제공
 
[3단계] 모델이 그 데이터를 반복 학습
 
[4단계] 이제 질문을 하면 "당신 스타일대로" 말할 수 있음!

🎯 언제 Fine-Tuning이 효과적일까?

상황 Fine-Tuning 적합도
일반 지식 답변 ❌ 필요 없음 (기본 LLM으로 충분)
특정 산업/전문 분야 지식 ✅ 매우 적합 (법률, 의료, 금융 등)
포맷 맞춤 (예: 이메일, 보고서) ✅ 적합
프롬프트만으로 안 되는 작업 ✅ 필요
대화의 문체/성격 통일 ✅ 유용 (예: 친절한 고객 상담 챗봇)
 

🔬 Fine-Tuning vs Prompt Engineering vs RAG

방식설명장점단점
방식 설명 장점  단점
Prompt Engineering 프롬프트만 잘 짜기 빠르고 간단 한계 있음
RAG 외부 문서를 검색해서 사용 지식 최신화 가능 검색 성능 의존
Fine-Tuning 아예 스타일/지식 자체를 학습 정확도·일관성 높음 데이터와 비용 필요
 

👉 실제로는 Prompt → 안 되면 RAG → 그래도 안 되면 Fine-Tuning 순으로 시도하는 게 일반적입니다.


✅ Fine-Tuning의 장점 요약

항목 설명
🧠 전문화 특정 산업, 기업, 도메인에 특화된 응답
🧩 일관성 스타일, 톤, 포맷을 통일성 있게 유지
🏆 정확성 향상 복잡한 업무 지식이나 프로세스를 정확하게 반영
💼 비즈니스 맞춤형 FAQ, 고객응대, 내부 문서 생성에 최적화 가능

 

 

📁 실제 데이터 예시

json
{ "input": "이직 사유를 작성해줘.", "output": "더 넓은 시야와 도전을 위해 새로운 환경을 찾고자 합니다." }

 

 

이런 데이터를 수천~수만 개 준비해서 GPT를 훈련시키면,
이제 "이직 사유"를 물으면 자동으로 회사 스타일에 맞는 문장을 만들어줍니다.


📦 대표적인 Fine-Tuning 도구

도구설명
도구 설명
Hugging Face Trainer 커스텀 모델 파인튜닝에 최적
OpenAI API GPT-3.5/4의 API 기반 fine-tuning
PEFT / LoRA 효율적 파인튜닝을 위한 경량 기술
LangChain 체인/프롬프트 조합과 연계 가능
Google Vertex AI, Amazon SageMaker 엔터프라이즈용 fine-tuning 플랫폼
 

🧠 요약 정리

항목 설명
무엇? 기존 LLM을 특정 목적에 맞게 추가 학습하는 것
왜? 더 정확하고 일관된, 도메인 특화된 응답을 얻기 위해
어떻게? 예시 질문-응답 쌍을 대량 준비하고 모델을 훈련
언제? 프롬프트나 검색으로는 부족한 경우에 매우 효과적
도구? Hugging Face, OpenAI API, PEFT, LoRA 등

'인공지능' 카테고리의 다른 글

🔍 어댑터(Adapter)란?  (0) 2025.05.26
PEFT란? Parameter-Efficient Fine-Tuning  (0) 2025.05.26
🔍 RAG란?  (0) 2025.05.26
🧠 LangChain이란?  (0) 2025.05.26
🔠 GPT란?  (0) 2025.05.26

+ Recent posts