이 보고서는 "Context Rot: How Increasing Input Tokens Impacts LLM Performance"라는 제목의 Chroma 기술 보고서로, 대규모 언어 모델(LLM)이 입력 토큰 수가 증가함에 따라 컨텍스트를 처리하는 방식이 얼마나 비균일하고 신뢰할 수 없는지를 심층적으로 평가합니다. 일반적으로 LLM은 100번째 토큰과 10,000번째 토큰을 동일하게 안정적으로 처리할 것으로 예상되지만, 이 보고서는 실제로는 그렇지 않다는 것을 밝혀냈습니다.
최근 LLM 개발의 추세는 입력 토큰 수가 수백만 개에 달하는 더 긴 컨텍스트 창으로 향하고 있습니다. Needle in a Haystack (NIAH)과 같은 널리 사용되는 벤치마크에서 이 모델들이 거의 완벽한 점수를 달성함에 따라, 긴 컨텍스트 작업에서 성능이 균일할 것이라고 흔히 가정됩니다. 그러나 NIAH는 단순히 알려진 문장("바늘")을 관련 없는 긴 문서("건초더미")에 배치하고 모델이 이를 검색하도록 요구하는 근본적으로 단순한 검색 작업입니다. 이 보고서는 NIAH와 같은 벤치마크가 실제 애플리케이션의 복잡성을 제대로 반영하지 못한다고 주장하며, 에이전트 작업이나 요약과 같은 실제 애플리케이션은 훨씬 더 많은 처리 및 추론을 요구한다고 강조합니다.
보고서의 핵심 기여는 다음과 같습니다:
- 최신 GPT-4.1, Claude 4, Gemini 2.5, Qwen3 모델을 포함한 18개 LLM에 대한 광범위한 평가를 통해 입력 길이가 증가함에 따른 비균일한 성능 저하를 밝혀냈습니다.
- 모델이 방해물(distractor)을 처리하고 질문-답변 유사성을 변경할 때 나타나는 모델별 행동 패턴을 분석했습니다.
- 입력 길이만이 성능에 미치는 영향을 직접 측정하기 위해 작업 복잡성을 일정하게 유지하면서 입력 길이만 변화시키는 실험을 설계했습니다.
보고서의 주요 실험과 발견은 다음과 같습니다.
1. 바늘-질문 유사성 (Needle-Question Similarity)
이 실험은 모델이 정확한 어휘 일치에 의존하지 않고 모호한 작업을 처리하고 관련 정보를 식별하는 능력을 평가합니다.
- 실험 설정: "바늘"과 "질문" 쌍의 유사성을 임베딩의 코사인 유사도를 사용하여 정량화했습니다. Paul Graham 에세이와 arXiv 논문이라는 두 가지 다른 도메인에서 건초더미 콘텐츠를 사용하고, 각 주제에 맞는 질문과 바늘을 작성하여 질문에 대한 답이 건초더미에 없음을 수동으로 확인했습니다.
- 핵심 발견:
- 바늘-질문 유사성이 낮아질수록 모델 성능은 입력 길이가 증가함에 따라 더 빠르게 저하되는 분명한 패턴이 관찰되었습니다. 이는 실제 시나리오에서 정확한 질문-답변 일치가 드물고 의미론적 모호성이 긴 입력 처리의 어려움을 가중시키는 현실을 반영합니다.
- 짧은 입력 길이에서는 모델이 유사성이 낮은 쌍에서도 잘 작동했지만, 긴 입력 길이에서는 성능 저하가 나타났습니다.
- 특정 NIAH 작업에서는 바늘 위치가 성능에 눈에 띄는 변화를 주지 않았습니다.
2. 방해물의 영향 (Impact of Distractors)
이 실험은 입력 길이가 증가함에 따라 최신 LLM이 방해물을 얼마나 잘 처리하는지 조사합니다.
- 정의:
- 방해물(Distractors): 바늘과 주제적으로 관련이 있지만, 질문에 정확히 답하지 않는 내용.
- 무관한 콘텐츠(Irrelevant content): 바늘 및 질문과 무관한 내용.
- 실험 설정: 높은 바늘-질문 유사성을 가진 바늘을 사용하여, 바늘만 있는 기준선, 바늘과 무작위로 배치된 하나의 방해물, 바늘과 무작위로 배치된 네 개의 방해물 등 세 가지 조건을 비교했습니다.
- 핵심 발견:
- 단 하나의 방해물만으로도 기준선(바늘만 있을 때)에 비해 성능이 저하되며, 네 개의 방해물을 추가하면 이러한 저하가 더욱 심해집니다.
- 방해물은 균일하지 않은 영향을 미치며, 그 영향과 비균일성은 입력 길이가 길어질수록 증폭됩니다.
- 모델별 행동 차이도 관찰되었습니다. 예를 들어, Claude 모델(특히 Claude Sonnet 4 및 Opus 4)은 모호한 상황에서 불확실할 때 응답을 회피하는 경향이 있어 가장 낮은 환각률을 보였습니다. 반면, GPT 모델은 방해물이 있을 때 가장 높은 환각률을 보이며 자신감 있지만 부정확한 응답을 생성하는 경향이 있었습니다.
3. 바늘-건초더미 유사성 (Needle-Haystack Similarity)
이 실험은 무관한 컨텍스트의 내용이 작업 난이도에 영향을 미치는지에 대한 가정을 검증합니다.
- 실험 설정: 바늘-질문 유사성 실험에서 사용된 바늘을 사용하여, 건초더미를 임베딩하고 각 바늘에 대해 가장 유사한 상위 5개 청크를 검색하여 평균 코사인 유사성 점수를 측정하는 방식으로 바늘-건초더미 유사성을 측정했습니다. Paul Graham 에세이와 arXiv 논문이라는 두 가지 주제적으로 다른 건초더미를 사용했습니다.
- 핵심 발견:
- 바늘-건초더미 유사성이 모델 성능에 비균일한 영향을 미친다는 것이 밝혀졌습니다.
- Paul Graham 에세이 건초더미에서는 arXiv 바늘이 PG 에세이 바늘에 비해 훨씬 더 나은 성능을 보였습니다. 즉, 바늘이 건초더미의 내용과 의미론적으로 섞이지 않을 때 모델이 더 나은 성능을 보였습니다.
- 그러나 arXiv 건초더미에서는 arXiv 바늘과 PG 에세이 바늘 사이에 최소한의 성능 차이만 관찰되었습니다.
- 이 결과는 긴 컨텍스트 처리의 비균일한 특성을 강조하며, 건초더미 내용의 중요성과 추가 연구의 필요성을 시사합니다.
4. 건초더미 구조 (Haystack Structure)
이 실험은 건초더미의 논리적 흐름이나 구조가 모델 성능에 미치는 영향을 탐구합니다.
- 실험 설정:
- 원본(Original): 각 발췌문의 자연스러운 아이디어 흐름을 보존.
- 섞음(Shuffled): 문장이 건초더미 전체에 무작위로 재정렬되어 전체 주제는 유지하되 논리적 연속성은 제거.
- 핵심 발견:
- 놀랍게도, 구조적 일관성이 모델 성능을 일관되게 저해한다는 것을 발견했습니다.
- 건초더미의 문장을 무작위로 섞어 지역적 일관성을 제거하면 일관되게 성능이 향상되었습니다.
- 이 결과는 모델의 내부 처리, 특히 어텐션 메커니즘이 입력 구조의 영향을 받을 수 있음을 시사합니다.
5. LongMemEval (대화형 질문-답변)
이 평가는 모델이 긴 대화 기록에서 관련 정보를 검색하고 추론하는 능력을 테스트하는 보다 현실적인 시나리오를 사용합니다.
- 실험 설정: 모델은 사용자 및 비서 간의 채팅 기록에서 특정 부분과 관련된 질문에 답해야 합니다.
- 집중 입력(Focused input): 관련 부분만 포함되어 모델은 단순히 추론에 집중하면 됩니다.
- 전체 입력(Full input): 무관한 컨텍스트를 포함하는 전체 채팅 기록을 사용하여 모델이 추론 외에 검색도 수행해야 합니다.
- 핵심 발견:
- 모든 모델에서 집중 입력에서 전체 입력보다 현저히 높은 성능을 보였습니다. 이는 무관한 컨텍스트를 추가하여 추가 검색 단계를 요구하는 것이 모델의 안정적인 성능 유지 능력에 크게 영향을 미친다는 것을 시사합니다.
- Claude 모델은 집중 입력과 전체 입력 간의 성능 격차가 가장 두드러졌는데, 이는 모호함으로 인해 발생하는 회피(abstention) 때문입니다.
- 생각 모드(thinking mode)를 지원하는 모델의 경우, 이 모드를 활성화하면 성능이 향상되지만 여전히 입력 길이에 따른 성능 격차가 존재했습니다.
6. 반복 단어 (Repeated Words)
이 실험은 입력 길이뿐만 아니라 출력 길이도 함께 확장될 때 모델 성능에 어떤 영향을 미치는지 조사합니다.
- 실험 설정: 모델이 특정 위치에 고유한 단어가 삽입된 반복 단어 시퀀스를 정확히 복제하도록 지시하는 제어된 작업을 설계했습니다. 단어 수와 고유 단어의 인덱스를 다양하게 조합하여 총 1090가지 변형을 만들었습니다. Levenshtein 거리를 사용하여 점수를 계산했습니다.
- 핵심 발견:
- 컨텍스트 길이(입력 + 출력 길이)가 증가함에 따라 모든 모델에서 성능이 일관되게 저하되었습니다.
- 모델이 작업을 시도하지 않거나(거부율), 오답을 생성하거나, 과도하게/과소하게 단어를 생성하거나, 심지어 입력에 없는 무작위 단어를 생성하는 패턴이 관찰되었습니다.
- 고유 단어의 위치 정확도는 고유 단어가 시퀀스 시작 부분에 배치될 때 가장 높았고, 특히 입력 길이가 길어질수록 더욱 두드러졌습니다.
- Claude Opus 4는 가장 느린 성능 저하율을 보였지만, 저작권 자료 생성 위험이나 반복 시퀀스의 불일치와 같은 이유로 작업을 거부하는 경향이 있었습니다.
- GPT 모델은 거부율이 낮지만, 무작위 단어를 생성하거나 과도하게/과소하게 단어를 생성하는 등의 가변적인 출력을 보였습니다.
한계 및 향후 연구
이 보고서의 실험은 실제 사용 사례를 완전히 포괄하지 않습니다. 실제 긴 컨텍스트 애플리케이션은 종종 합성 또는 다단계 추론을 요구하며, 이러한 조건에서는 성능 저하가 더욱 심각할 것으로 예상됩니다. 또한, 이 보고서는 성능 저하의 메커니즘을 설명하지는 않습니다. 관찰 결과는 컨텍스트의 구조적 속성(관련 정보의 배치 또는 반복)이 모델 동작에 영향을 미칠 수 있음을 시사하지만, 그 원인에 대한 확정적인 답변은 제공하지 않습니다.
이러한 한계에도 불구하고, 보고서는 컨텍스트 엔지니어링의 중요성을 강조합니다. 모델의 컨텍스트 창에 정보가 어디에, 어떻게 제시되는지가 작업 성능에 강력한 영향을 미치며, 이는 모델 성능 최적화를 위한 중요한 방향입니다.
결론
이 보고서는 LLM이 입력 길이에 걸쳐 일관된 성능을 유지하지 못한다는 것을 명확히 보여줍니다. 비어휘 검색이나 텍스트 복제와 같은 단순한 작업에서도 입력 길이가 증가함에 따라 성능의 비균일성이 증가하는 것을 확인할 수 있습니다. 이 연구는 현재 벤치마크를 넘어선 보다 엄격한 긴 컨텍스트 평가와 효과적인 컨텍스트 엔지니어링의 필요성을 강조합니다. 모델의 컨텍스트에 관련 정보가 존재하느냐가 중요한 것이 아니라, 그 정보가 어떻게 제시되는가가 훨씬 더 중요하다는 점을 입증하며, 가장 유능한 모델조차도 이에 민감하다는 것을 보여줍니다.
마치 잘 정리된 도서관에서 원하는 책을 쉽게 찾는 것과 같습니다. 책이 아무리 많아도(긴 컨텍스트), 책들이 체계적으로 분류되고 제자리에 놓여 있다면(효과적인 컨텍스트 엔지니어링) 필요한 정보를 훨씬 쉽게 찾을 수 있습니다. 그러나 책들이 뒤죽박죽 섞여 있거나(무질서한 건초더미), 비슷하게 생긴 가짜 책들이 곳곳에 숨어 있다면(방해물), 아무리 유능한 사서라도(LLM) 책을 찾는 것이 훨씬 어려워지고, 심지어 잘못된 책을 가져올 수도 있습니다.