RAGAS(RAG Assessment)

lusida 2025. 5. 26. 16:07

2025. 5. 26. 16:07

📌 1. Ragas 란?

RAGAS는 Retrieval-Augmented Generation 시스템을 평가하는 오픈소스 프레임워크로, 단일 문항 단위의 평가부터 전체 시스템 수준의 평가까지 지원합니다.
특히, 참조 없는 평가(Reference-free evaluation) 방식으로, 사람이 직접 평가 데이터셋을 구축하지 않아도 자동으로 성능을 측정할 수 있다는 장점이 있습니다.

주요 목적:

RAG 시스템의 성능을 세분화된 지표로 측정
검색 (retriever) 및 생성 (generator) 모듈의 품질 파악
LLM 파이프라인의 진단 및 개선

🔍 2. 평가 지표 (Metrics)

RAGAS는 크게 다음 4가지 주요 지표를 제공합니다:

① Faithfulness (정확성)

생성된 응답이 검색된 컨텍스트와 얼마나 잘 일치하는지를 측정
거짓 정보나 맥락 외 정보가 있을 경우 낮은 점수를 줌
사용 기술: LLM 기반 평가 또는 자연어 추론(NLI)

② Answer Relevancy (응답 관련성)

질문에 대해 생성된 응답이 실제로 유의미한지를 평가
대답이 질문과 무관하면 낮은 점수

③ Context Precision (문맥 정밀도)

검색된 문서 중에서 질문에 실제로 유용한 문서가 포함되었는지를 평가
검색기(retriever)의 품질을 측정하는 데 활용

④ Context Recall (문맥 재현율)

응답 생성에 필요한 문서가 검색 결과에 빠짐없이 포함되었는지를 평가

[보조 지표]

Context Recall과 Context Precision은 retrieval 부분에 집중
Faithfulness와 Answer Relevancy는 generation 부분에 집중

⚙️ 3. RAGAS 평가 구성요소

평가를 위해 아래와 같은 정보가 필요합니다:

필드	설명
question	사용자 질문
contexts	검색된 문서 리스트
answer	모델이 생성한 응답
ground_truth (선택)	정답(참조 응답, 선택적)

🧪 4. RAGAS 사용 방법 (Python 예시)

설치:

pip install ragas

평가 코드 예시:

from ragas.metrics import faithfulness, answer_relevancy, context_precision, context_recall

from ragas import evaluate

from datasets import Dataset

# 평가용 데이터 생성

data = Dataset.from_dict({

"question": [...],

"contexts": [...], # List of strings

"answer": [...], # 모델 생성 응답

"ground_truth": [...] # 선택 사항

})

# 평가 실행

results = evaluate(data, metrics=[

faithfulness,

answer_relevancy,

context_precision,

context_recall

])

print(results)

결과 예시:

{

'faithfulness': 0.83,

'answer_relevancy': 0.91,

'context_precision': 0.75,

'context_recall': 0.65

}

💡 5. RAGAS의 장점

장점설명

참조 없이 평가 가능	정답이 없는 QA 시스템에서도 활용 가능
구성 요소별 평가	Retrieval과 Generation 성능을 구분하여 분석 가능
확장성	HuggingFace, LangChain, LlamaIndex 등 다양한 파이프라인에 적용 가능
시각화 및 디버깅 가능	특정 쿼리의 문제를 쉽게 추적 가능

📚 6. 주요 활용 사례

ChatGPT Plugin이나 LangChain Agent의 성능 진단
내부 QA 챗봇의 응답 품질 분석
RAG 파이프라인 개선 전/후 비교

📎 참고 링크

공식 GitHub: https://github.com/explodinggradients/ragas
문서: https://docs.ragas.io

'인공지능' 카테고리의 다른 글

Tavily - 검색기반 툴 (0)	2025.05.26
토크나이저(tokenizer) (0)	2025.05.26
멀티모달 모델 (0)	2025.05.26
MCP(Model Context Protocol)란? (0)	2025.05.26
🔍 어댑터(Adapter)란? (0)	2025.05.26

Life