AI & Statistics Lab

Projects

“사람처럼 스스로 검증·수정하며 사실적 글을 만드는 LLM” 설계 로드맵

AIStat 2025. 5. 24. 22:31

 

1단계 — 지식 기반(코퍼스) 설계 & 데이터 파이프라인

구성 요소 설계 포인트 이유

다층 지식 저장소· 기성 대규모 텍스트(웹+도서+학술)· 도메인별 레퍼런스(논문·코드·법령 등)· 동적 웹 검색 커넥터 · 원천 문서에 고유 ID·메타데이터 부여· chunk ↔ citation 양방향 매핑 테이블 구축 “출처 태그”가 살아있어야 후단(메타인지·사실 검증)에서 근거를 확인·인용 가능 (ACM 통신)
데이터 품질 루프 · 다단계 필터: 저품질·중복·허위 제거· 검증 실패 사례를 주기적으로 추가 학습 데이터 노이즈가 “학습-->믿음(=망상)”으로 굳는 것을 차단 (arXiv)

2단계 — 기본 언어모델(Encoder-Decoder) & “빠른 사고” 회로

  1. 모델 크기·토크나이저: 7B~34B 토큰 단위로 실험 → 도메인 특화일수록 compact 모델 + 강한 retrieval 가 유리
  2. 예비 학습(Pre-training): 품질 필터된 대규모 코퍼스 → 언어·추론·요약 일반 능력 확보
  3. Instruction Fine-tuning: QA·요약·논증 프롬프트 + chain-of-thought(CoT) 라벨 병행
    • CoT 공개 학습: 모델이 “중간 생각”을 말로 드러내는 습관 형성 → 후단 자기검열에 사용 (aperio-intelligence.com)
  4. LoRA/QLoRA 슬롯: 도메인·언어별 경량 어댑터 삽입 → 파라미터 효율 보존

3단계 — 느린 사고(Reasoning) 모듈: 검색·트리 서치·토론

하위 모듈 기능 구현 제안

Retrieval-Augmented Generation (RAG) 질의-응답 전, 벡터+키워드 혼합 검색 → 관련 문서 n개 삽입 다중 패스 검색(“보오트스트랩”)으로 누락 완화 (Eden AI)
Tree-of-Thought / MCTS 후보 답변을 분기-평가-선택 → “느린 탐색” HaluSearch·HSP 류 알고리즘 적용 (arXiv, 스프링거링크)
Self-Debate / Reflection 동일 모델 두 인스턴스가 상호 비판·재귀적 수정 메타인지 능력 증진, 오류 확률↓ (arXiv, GitHub)

4단계 — 메타인지 & 불확실성 추정 계층

  1. Confidence Head: Transformer 최종 hidden → 로지스틱 회귀로 “p(correct)” 예측
  2. Source-Agreement Score: 생성 토큰별로 근거 문서와 embedding 유사도·attention 가중치 계산 → 낮으면 꺾인 밑줄 표시(UX)
  3. Contradiction Detector: 미니 BERT-NLI를 탑재, 출력 ↔ 근거 간 entailment 검사; contradict면 재생성 트리거

5단계 — 출력 후 실시간 사실 검증 & 인용 삽입

  1. Span-level Alignment: 문장별로 근거 chunk id 삽입 → 인용 가능성 ≥ τ만 노출 (유사 HSP)
  2. 외부 체크 API: SciFact·WikiFact 등 DB와 실시간 크로스 체크 → “근거 미확인” 태그 달기
  3. Post-generation RARR: 자체 편집기로 오류 부분만 부분 재생성 → 품질 회복 (lilianweng.github.io)

6단계 — 학습 후 강화 루프(RLAIF + 자기 교정)

단계 신호 목적

RLAIF (RL with AI Feedback) 자동 비평 모델이 주는 “사실성·근거성” 보상 RLHF 대비 인력↓, 편향↓; factual reward shaping
Hard-negative Mining 시스템이 틀린 케이스 → retriever 학습에 역샘플 검색 회수율·정확도 동시 개선
Curriculum 쉬운→난해→모호 순으로 fact-sensitive 샘플 투입 메타인지·자신감 추정 안정화

7단계 — 평가·모니터링 체계

지표 설명

Intrinsic: Faithfulness F1, Knowledge-F1, HALUEval, TruthfulQA-style “거짓률” 답변 자체의 사실 적합성
Extrinsic: 사용자 신뢰도 투표, 수정 요청율, 평균 확인 링크 클릭율 실제 서비스 품질
리그레션 Test Farm: 버전마다 1만+ 골드 Q/A 자동 비교 배포 전 회귀 방지

통합 아키텍처 도식 (고수준)

         ┌──────────────────────────┐
User Q → │  Orchestrator / Router   │
         └────┬─────────┬───────────┘
              │         │
      ┌───────▼───┐ ┌───▼────────┐
      │ Fast LLM  │ │ Retriever  │ (multi-index)
      └───────┬───┘ └───┬────────┘
              │         │
              ▼         ▼
        [Slow-ToT / Debate / MCTS]  ←→  Evidence DB
              │
              ▼
      [Verifier & RARR Editor]
              │
              ▼
        Final Answer + Citations + Confidence

실행 우선순위 체크리스트

  1. 데이터→RAG 파이프라인 확보 (기반 시설이 사실성의 60 %)
  2. Verifier + Confidence Head 같이 붙이기 (메타인지 토대)
  3. Tree-of-Thought / Self-Debate: 서버 비용 고려해 선택적 활성화
  4. RLAIF 반복: 초기엔 소량 인력 HF, 이후 AI Feedback 확대
  5. 정량 지표 대시보드 자동화 → 릴리스 전 Stop-Ship 기준 설정

마무리

사람처럼 “입력→재구성→검증→수정”을 계층적으로 흉내 내면, LLM도 사실 기반·자기-검열·근거 제시 능력을 갖출 수 있습니다.
위 7단계 로드맵을 모듈화해서 점진 도입하면, 기존 오픈소스 모델도 현실적인 비용으로 신뢰 가능한 대화·저술 엔진으로 발전시킬 수 있습니다.