논문 리뷰: Test-Time 컴퓨팅의 역 스케일링 (Inverse Scaling in Test-Time Compute)이 논문은 대규모 추론 모델(Large Reasoning Models, LRMs)이 추론 길이를 늘릴수록 성능이 저하되는 '역 스케일링(inverse scaling)' 현상을 평가하는 새로운 과제들을 제시하고 그 결과를 분석합니다. 이는 일반적으로 더 많은 테스트 시간 컴퓨팅(추론 과정에서 생성되는 토큰 수)이 모델의 능력과 견고성을 향상시킨다는 기존의 긍정적인 스케일링 관계(예: Jaech et al., 2024; Guo et al., 2025; Anthropic, 2025b 등)와 대조됩니다. 이 연구는 더 길어진 추론이 비효율성(overthinking)을 넘어 오히려 문제적인 추론..