링크
https://arxiv.org/abs/2505.10475
Parallel Scaling Law for Language Models
It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling par
arxiv.org
https://github.com/QwenLM/ParScale
GitHub - QwenLM/ParScale: Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling
Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling - QwenLM/ParScale
github.com
https://huggingface.co/ParScale
ParScale (ParScale)
🏠 ParScale-1.8B Base models trained on 1T high-quality tokens, demonstrating strong competitiveness among existing SOTA small models (<2B).
huggingface.co
0. Abstract
- 문제 제기: 기존 LLM 성능 확장 방식인 '파라미터 스케일링'과 '추론 시간 스케일링'은 각각 막대한 공간(메모리) 및 시간(지연 시간) 비용 발생.
- 제3의 패러다임 제안: 병렬 스케일링 (Parallel Scaling, PARSCALE).
- 핵심 아이디어: 기존 모델 파라미터를 재사용하여 병렬 연산을 확장.
- 입력에 P개의 학습 가능한 변환 적용 → 단일 모델에서 P번 병렬 처리 → 결과 동적 통합.
- 주요 발견 (병렬 스케일링 법칙):
- P개의 병렬 스트림 사용 ≈ 파라미터 수를 O(log P)배 늘리는 효과.
- 추론 효율성 월등: 동일 성능 목표 달성 시, 파라미터 확장 대비 메모리 증가 최대 22배, 지연 시간 증가 최대 6배 적음.
- 실용성:
- 사전 학습된 모델에 짧은 후속 학습만으로 적용 가능 → 학습 비용 절감.
- 저자원 환경에서 고성능 모델 배포 가능성 제시.
- Figure 1
- (1) 세 가지 스케일링 접근법
- Parameter Scaling (매개변수 스케일링):
- 개념: 모델의 크기 자체를 키우는 전통적인 방법
- 비용: 모델이 커질 수록 더 많은 GPU 메모리와 저장 공간을 차지
- Inference-Time Scaling (추론 시간 스케일링):
- 개념: 추론 시 모델이 Chain-of-Thought과 같이 더 긴 Reasoning Tokens를 생성하도록 유도하여 최종 답변의 품질을 높이는 방법
- 비용: 추가적인 토큰을 생성하는 데 걸리는 시간만큼 latency 증가
- Parallel Scaling (PARSCALE, 병렬 스케일링):
- 개념:
- Learnable Transformation: 하나의 입력을 P개의 서로 다른 관점으로 변환 (변환 방식은 모델이 학습을 통해 최적화)
- Parallel Forward: P개의 변환된 입력을 동시에 모델에 통과 (모델을 재사용)
- Learnable Aggregation: 병렬 처리로 나온 P개의 결과를 지능적으로 종합하여 최종 답변을 생성 (집계 방식은 학습을 통해 최적화)
- 비용: 공간과 시간 비용을 모두 최적화하는 것을 목표
- 개념:
(2) 병렬 스케일링 법칙
“PARSCALE을 쓰면 얼마나 성능이 좋아지는가?”
- 그래프 설명
- X축 (Parameters): 모델의 크기
- Y축 (Loss): 모델의 손실 값
- 선 색깔/모양 (P): 병렬 스트림의 수. 파란색 원(P=1)을 기준으로, 빨간색 별(P=8)로 갈수록 병렬 계산을 많이 사용
- 해석
- P에 따른 Loss 변화: 동일한 모델 크기(예: 1.6B)에서 수직으로 아래를 보면, P가 1에서 8로 증가할수록 Loss가 크게 감소
- 매개변수 절약 효과: 약 1.05의 Loss 값을 달성하는 방법을 비교
- P=1 (파란선): 약 2.8B 크기의 모델이 필요
- P=8 (빨간선): 약 1.1B 크기의 모델만으로 동일 성능 달성
(3) 추론 공간 및 시간 비용과의 스케일링
- 그래프 설명
- Y축 (Loss): 성능
- 왼쪽 X축: GPU 메모리 (GB)
- 오른쪽 X축: 지연 시간 (Latency, 초)
- 파란색 화살표 (Parameter Scaling): 모델 크기를 1.6B → 2.8B → 4.4B로 키워 성능을 높이는 경로.
- 회색 화살표 (Parallel Scaling): 1.6B 모델을 고정한 채 P를 1 → 2 → 4 → 8로 늘려 성능을 높이는 경로.
- 해석
- 메모리 효율성: Loss를 약 1.08에서 1.04로 낮추고 싶다고 가정
- 매개변수 스케일링 경로: 1.6B 모델 → 2.8B 모델
- PARSCALE 경로: 1.6B 모델에서 P=1 → P=4
- 동일 성능 향상을 위해 PARSCALE이 필요로 하는 추가 메모리는 7배 적음
- 시간 효율성: 같은 성능 향상 목표에 대해,
- 매개변수 스케일링 경로: 더 커진 모델을 돌려야 하므로 지연 시간이 상당히 증가합니다.
- PARSCALE 경로: 병렬 처리로 인해 지연 시간이 소폭 증가합니다.
- PARSCALE의 추가 지연 시간이 1.7배 더 적음
- 메모리 효율성: Loss를 약 1.08에서 1.04로 낮추고 싶다고 가정
1. Introduction
- 기존 스케일링의 한계:
- 파라미터 스케일링: 막대한 메모리 비용, 엣지 디바이스 배포 거의 불가능.
- 추론 시간 스케일링: 높은 지연 시간, 특정 시나리오에 국한, '과잉 사고' 문제.
- 핵심 가설:
- 영감: 분류기 없는 안내(CFG) 기법. 성능 향상의 원인은 정교한 규칙이 아닌 '2배의 연산량' 자체일 수 있음.
- 가설: 파라미터를 거의 유지하며 병렬 연산을 확장하는 것은 파라미터 확장과 유사한 성능 향상 효과를 낳는다.
- PARSCALE 소개 및 주요 발견:
- 새로운 스케일링 법칙: 병렬 연산(P)과 파라미터(N)의 정량적 관계(O(logP)) 규명.
- 추론 집약적 작업 강점: 코딩, 수학 등에서 효과가 더 커 '연산'이 '추론 능력'과 관련 깊음을 시사.
- 추론 효율성: 저자원 환경 배포 가능성.
- 2단계 학습 전략: 전체 데이터의 2%만으로 PARSCALE을 적용해 학습 비용 해결.
- 동적 병렬 스케일링: 추론 시나리오에 따라 P값을 동적으로 조절 가능.
- Table 1
- 추론 시간 (Inference Time): 😐 보통 (Moderate)
- 병렬 처리로 인한 시간 증가가 크지 않아 Inference-Time Scaling보다 빠름
- 추론 공간 (Inference Space): 😐 보통 (Moderate)
- 모델 크기는 그대로이고 KV 캐시만 늘어나기 때문에 Dense나 MoE 모델보다 효율적
- 훈련 비용 (Training Cost): 😄 낮음 (Pre- or Post-training)
- 처음부터 훈련할 수도 있고, 기존 모델에 적용하는 것도 가능
- 특화 전략 (Specialized Strategy): 😄 없음 (No)
- 다른 방법들처럼 복잡한 부하 분산이나 특수한 보상 데이터가 필요 없이 범용적으로 적용
- 추론 시간 (Inference Time): 😐 보통 (Moderate)
- Parallel Scaling (PARSCALE, 병렬 스케일링)
2. Background and Methodology
- 개념적 기원 (CFG에서 PARSCALE로):
- CFG의 성능 향상 원인을 '연산량 증가'로 재해석.
- CFG의 고정된 규칙을 P개의 스트림을 사용하는 학습 가능하고 확장 가능한 프레임워크로 일반화.
- 구현 세부사항:
- 입력 변환:
- 목표: 각 병렬 스트림이 입력에 대해 서로 다른 "관점"을 갖도록 유도.
- 채택 방식: 접두사 튜닝(Prefix Tuning). 각 스트림에 고유한 접두사를 할당하여 다양한 출력 생성.
- 핵심: 특정 구현 방식보다 '병렬 연산' 원리 자체가 중요.
- 출력 집계:
- 목표: P개의 출력을 동적으로 통합.
- 채택 방식: MLP 네트워크를 통해 각 스트림의 가중치를 동적으로 계산 후 가중 평균.
- 문제 해결: 학습 초기 '로드 불균형' 현상은 레이블 스무딩(label smoothing)으로 해결.
- 입력 변환:
3. Parallel Scaling Law
3.1 Theoretical Analysis: Can PARSCALE Achieve Similar Effects as Parameter Scaling?
- 이론적 분석:
- Chinchilla 스케일링 법칙 확장.
- 모델 성능은 병렬 스트림 수(P)와 스트림 간의 다양성(DIVERSITY)에 의해 결정.
- Figure 2두 개의 데이터셋에 대해, 모델의 크기와 병렬 스트림 수(P)를 바꿔가며 훈련했을 때의 최종 손실 값
- 모델 크기와 병렬 스트림 수에 따른 Loss
- 그래프
- 왼쪽 그래프: Stack-V2-Python 데이터셋에서의 결과. (주로 코딩과 논리적 추론 능력)
- 오른쪽 그래프: The Pile 데이터셋에서의 결과. (일반 상식과 암기 능력)
- X축 (Parameters): 모델의 크기
- Y축 (Loss): 훈련 후의 손실 값
- 선 (Lines): 이 점들을 바탕으로 논문에서 제안한 스케일링 법칙 수식(Equation 5)에 맞춰 피팅(fitting)한 예측선입니다. 점들이 선에 가깝게 붙어있을수록 예측이 정확하다는 의미입니다.
- 해석
- PARSCALE이 실제로 모델 성능을 향상시킨다는 것에 대한 실험적 증명
- 스케일링 법칙의 높은 정확도 (Goodness: R²)
- Goodness: R² = 0.9978 (왼쪽), R² = 0.9987 (오른쪽)
- 저자들이 제안한 병렬 스케일링 법칙이 실제 실험 결과를 거의 완벽하게 예측하고 있음을 제시
- 데이터셋 종류에 따른 PARSCALE 효과의 차이
- k 값의 비교:
- Stack-V2-Python: k = 0.3935
- Pile: k = 0.3345
- k 값이 더 크다는 것은 P를 키웠을 때 Loss 감소의 폭이 더 크다는 것을 의미
- 따라서, 코딩과 추론 능력을 요구하는 Stack-V2-Python 데이터셋이 일반 상식을 요구하는 Pile 데이터셋보다 PARSCALE의 효과를 더 크게 받는다
- k 값의 비교:
- 두 그래프의 피팅된 매개변수(E, A, k, α)를 비교
- 계산은 추론 능력을, 매개변수는 암기 능력을 향상시킨다
- 병렬 계산: 논리적 추론(reasoning) 능력을 향상시키는 데 효과적
- 매개변수: 암기(memorization) 능력을 향상시키는 데 효과적
3.2 Practical Parallel Scaling Laws
- 실질적인 병렬 스케일링 법칙:
- 대규모 실험 결과, P가 증가할수록 손실이 로그(log) 형태로 감소.
- 법칙 수립: L = (A / N⋅(klogP+1))^a + E
- 의미: P개의 병렬 스트림 사용 ≈ 유효 파라미터 $(k \log P + 1)$배 증가 효과.
k값의 의미: 병렬 연산의 이점. 추론/코딩 데이터(Stack-V2)에서 일반 데이터(Pile)보다 k값이 높게 나옴.- 시사점: 파라미터(N)는 '기억력', 병렬 연산(P)은 '추론 능력'에 더 큰 영향.
- Figure 3
- PARSCALE의 Loss 등고선 그래프
- 그래프
- X축 (Scaling Parameters): 모델의 크기
- Y축 (Scaling Computation): 병렬 계산
- 등고선 (Contour Lines): 같은 수준의 성능(Loss 값)을 내는 (매개변수, P) 조합들을 연결한 선
- 색상: 색이 밝을수록(오른쪽 위로 갈수록) Loss가 낮아져 성능이 더 좋음, 색이 어두울수록(왼쪽 아래로 갈수록) Loss가 높아 성능이 더 나쁨.
- 해석
- 성능 달성을 위한 두 가지 경로: '매개변수' vs '계산'
- 예시) 왼쪽(Stack-V2-Python) 그래프에서 Loss 약
1.02을 달성하고 싶다고 가정- 방법 A (계산을 적게 쓰는 대신 모델을 키우기): 크기=2.0B, P=2
- 방법 B (모델을 작게 쓰는 대신 계산을 늘리기): 크기=1.1B, P=8
- 작은 모델 (예: 0.7B): 등고선이 매우 가파름. (Y축(계산)을 조금만 올려도(P를 1에서 2로) 성능이 크게 향상됨)
- 큰 모델 (예: 4.4B): 등고선이 점점 완만해짐. (Y축을 올릴 때 성능 향상 폭이 훨씬 더 커진다는 것을 의미)
- 같은 P 증가라도 더 큰 모델일 수록 훨씬 더 큰 성능 향상을 가져온다.
- 데이터셋에 따른 효과 차이 재확인
- Stack-V2-Python (추론): 등고선들이 Y축 방향으로 더 넓게 퍼져 있음 → 계산(P)을 늘리는 것이 성능 향상에 더 큰 기여
- Pile (암기): 등고선들이 상대적으로 더 촘촘함 → 왼쪽 그래프만큼 극적이지는 않음
- Table 2 & 3다운스트림 태스크 평균 성능
- 표 구성
- 가로축 (N): 모델의 크기
- 세로축 (P): 병렬 스트림의 수
- 숫자: 각 태스크에서의 성능 점수(%)
- 배경색: 점수가 높을수록 파란색이 진해짐
- 표2 해석 (HumanEval(+), MBPP(+) 두 가지의 코드 생성 벤치마크 평균 점수)
- 병렬 계산의 효과가 매우 크다
- 1.6B (P=8) 모델의 성능(39.1)은 4.4B (P=1) 모델의 성능(39.2)과 거의 동일
- 즉, 1.6B 모델에 PARSCALE (P=8)을 적용하면, 그보다 약 3배 더 큰 4.4B 모델과 맞먹는 코드 생성 능력을 갖게 됨을 의미
- 추론 능력이 중요한 태스크에서 병렬 계산의 효과가 매우 강력하다는 것을 뒷받침
- 병렬 계산의 효과가 매우 크다
- 표3 해석 (6가지 lm-evaluation-harness 일반 상식 태스크 평균 성능)
- 병렬 계산의 효과가 상대적으로 작음
- 1.6B (P=8) 모델의 성능 (55.7)을 보면, 이 점수는 2.8B (P=1) 모델의 성능 (55.2)과 비슷함
- 표 2(코드 생성)에서는 1.6B(P=8)이 4.4B(P=1) 모델과 맞먹었던 반면, 여기서는 2.8B 모델 수준에 그침
- 일반 상식이나 암기가 중요한 태스크에서는 병렬 계산의 효과가 추론 태스크만큼 크지는 않다는 것을 의미
- 병렬 계산의 효과가 상대적으로 작음
- 종합
- 추론 집약적 태스크 (표 2, 코드 생성): 병렬 계산(P 증가)의 효과가 매우 커서, 작은 모델도 큰 모델의 성능을 따라잡을 수 있음
- 암기 집약적 태스크 (표 3, 일반 상식): 병렬 계산의 효과가 여전히 존재하지만, 추론 태스크만큼은 아님. 모델의 크기(더 많은 지식을 저장할 공간)를 늘리는 것이 여전히 중요
3.3 Inference Cost Analysis
- 추론 비용 분석:
- 메모리 효율성: 파라미터 재사용으로 메모리 증가 미미.
- 지연 시간 효율성: GPU 친화적 병렬 연산으로 지연 시간 증가 최소화.
- 결론: 동일 성능 달성 시, 파라미터 스케일링 대비 압도적으로 효율적.
- Figure 4위쪽 4개는 메모리 효율성을, 아래쪽 4개는 시간(지연 시간) 효율성
- 각 열은 배치 사이즈가 1, 2, 4, 8일 때의 상황
- 추론 시공간 비용에 따른 모델 성능 스케일링
- 그래프 구성
- Y축 (Loss): 모델의 성능
- X축:
- (a)-(d) 그래프: GPU 메모리 (GB) 사용량
- (e)-(h) 그래프: 지연 시간 (Latency, 초)
- 파란색 화살표: 매개변수 스케일링(Parameter Scaling) 경로. 즉, 모델 크기를 1.6B → 2.8B → 4.4B로 키우는 전략
- 회색 화살표: 병렬 스케일링(Parallel Scaling) 경로. 즉, 모델 크기는 1.6B, 2.8B, 4.4B 중 하나로 고정한 채, 병렬 스트림(P)을 1 → 2 → 4 → 8로 늘리는 전략
- 그래프 해석: 위쪽 줄 (a-d) - 메모리 효율성
- 배치 사이즈 1 (a):
- 목표: Loss를 약 1.08에서 1.04로 낮추기.
- 매개변수 스케일링: 1.6B 모델(약 3.5GB) → 2.8B 모델(약 5.8GB), 약 2.3GB의 메모리가 추가로 필요
- PARSCALE: 1.6B 모델에서 P=1 → P=4, 메모리 사용량이 거의 변하지 않음 (약 0.1GB 증가, 추가되는 KV 캐시의 크기는 모델 가중치 증가량에 비해 무시할 만큼 작음)
- 배치 사이즈 증가 (b, c, d):
- 배치 사이즈가 커질수록 모든 경로에서 메모리 사용량이 전반적으로 증가
- 어떤 배치 사이즈에서도 PARSCALE 경로(회색 화살표)는 거의 수직으로 아래로 향함 → ****P를 늘려도 메모리 증가량이 매우 작다는 사실이 배치 사이즈에 관계없이 유지된다.
- 반면 파란색 화살표는 항상 오른쪽으로 크게 이동하므로, 매개변수 스케일링은 항상 막대한 메모리 비용을 수반한다.
- 배치 사이즈 1 (a):
- 그래프 해석: 아래쪽 줄 (e-h) - 지연 시간 비용
- 배치 사이즈 1 (e):
- 목표: Loss를 약 1.08에서 1.04로 낮추기.
- 매개변수 스케일링: 1.6B 모델(약 0.45초) → 2.8B 모델(약 0.85초), 지연 시간이 약 0.4초 증가
- PARSCALE: 1.6B 모델에서 P=1 → P=4, 지연 시간이 약 0.45초에서 0.52초로 약 0.07초 증가
- 배치 사이즈 증가 (f, g, h):
- 배치 사이즈가 1일 때는 회색 화살표(PARSCALE)가 거의 수직에 가까웠지만, 배치 사이즈가 8로 커지면 회색 화살표도 오른쪽으로 더 많이 이동하며 기울기가 완만해짐
- 이유: 작은 배치 사이즈에서는 추론 병목이 메모리 대역폭(memory-bound)에 있어, 계산을 늘려도(P 증가) GPU의 남는 계산 능력을 활용하므로 시간 증가가 적음. 하지만 배치 사이즈가 커지면 병목이 순수 계산 능력(compute-bound)으로 전환. 이 상태에서는 계산량을 늘리는(P 증가) 것이 직접적으로 시간 증가로 이어짐.
- 결론: 그럼에도 불구하고, 배치 사이즈 8까지도 여전히 PARSCALE이 매개변수 스케일링보다 더 나은 시간 효율성을 보임
- 배치 사이즈 1 (e):
- 결론 및 시사점
- PARSCALE이 자원이 제한적인 환경에서 매우 강력한 잠재력을 가지고 있음을 증명 (예: 저자원 엣지 디바이스)
- 이러한 환경은 메모리가 매우 제한적이고, 보통 배치 사이즈 1로 작동
- (a)와 (e)는 이 시나리오에서 PARSCALE이 최소한의 메모리와 시간 비용으로 성능을 극대화할 수 있는 거의 유일한 선택지
4. Scaling Training Data
4.1 Two-Stage Pretraining
- 2단계 사전 학습 전략:
- 문제: 학습 시 연산량 P배 증가로 인한 비용.
- 해결책:
- 1단계: 대부분의 데이터로 표준 학습(P=1).
- 2단계: 소량의 데이터(2%)로 PARSCALE 학습(P>1).
- 결과: 매우 효과적. 적은 데이터로도 병렬 추론 능력을 빠르게 학습.
- Table 4→ "그래서 실제 상용 모델 수준의 대규모 데이터(1T 토큰)로 훈련해도 PARSCALE이 효과가 있는가?"이 표는 1.8B 크기의 모델들을 1조(1T) 개의 토큰으로 훈련시킨 후, 다양한 벤치마크에서의 성능을 비교
- Two-Stage 전략으로 1T 토큰 학습 후 1.8B 모델 성능 비교
- PARSCALE의 실용성과 확장성을 검증.
- 표 구성
- 위쪽: 일반(General) 언어 능력 벤치마크 점수. MMLU, WinoGrande 등의 태스크를 포함
- 아래쪽: 수학(Math) 및 코드(Code) 생성 능력 벤치마크 점수. GSM8K, HumanEval 등 추론 능력을 평가
- 행:
- 위쪽 그룹 (gemma, Llama, ...): Baseline 비교군
- 아래쪽 그룹 (Baseline, PARSCALE): 동일한 1.8B 모델과 1T 토큰 데이터로 훈련하되, 병렬 스트림(P)만 1, 2, 4, 8로 늘렸을 때의 성능 변화
- 열:
- Tokens: 훈련에 사용된 총 토큰 수
- Data: 훈련 데이터의 Public / Private 여부
- Average (General, Math, Code): 각 카테고리의 평균 점수
- 개별 벤치마크 (MMLU, GSM8K, ...): 각 벤치마크의 세부 점수(
@1은 한 번에,@10은 10번 시도 중 한 번이라도 맞춘 비율)
- 표 해석
- 대규모 데이터에서도 PARSCALE의 효과는 일관됨
- Average 점수:
- General: P=1(56.0) → P=8(58.6)으로 2.6%p 상승
- Math: P=1(25.5) → P=8(32.8)으로 7.3%p 상승
- Code: P=1(45.6) → P=8(49.9)으로 4.3%p 상승
- P가 1에서 8로 증가함에 따라 모든 카테고리에서 성능이 꾸준히 향상됨
- Average 점수:
- 계산은 추론 능력을 향상시킨다.
- 성능 향상 폭 비교: 일반 능력(General)이 2.6%p 향상될 때, 수학(Math) 능력은 7.3%p로 훨씬 더 극적으로 향상됨. 코드(Code) 능력도 4.3%p로 유의미하게 향상됨.
- 세부 벤치마크 보기 (GSM8K)
- GSM8K는 초등학교 수학 문제로, 복잡한 단계적 추론을 요구함.
Baseline (P=1)의 점수는 28.7점인데,PARSCALE (P=8)은 38.4점으로 약 10%p (상대적 성능 향상 34%) 급상승
- 추론 시간 스케일링과의 시너지 효과
- GSM8K vs GSM8K+CoT
PARSCALE (P=8)모델의 GSM8K 점수는 38.4점입니다.- 여기에 추론 시간 스케일링 기법 CoT을 추가로 적용하자, 점수가 43.7점으로 더 상승
- PARSCALE과 CoT가 서로 배타적인 관계가 아니라, 함께 사용될 때 더 큰 시너지 효과를 낼 수 있음을 시사
- GSM8K vs GSM8K+CoT
- 2단계 훈련 전략의 실용성 검증
- Figure 5 & Table 5
- 대규모 데이터에서도 PARSCALE의 효과는 일관됨
- "PARSCALE의 높은 훈련 비용을 어떻게 해결할 것인가?”
- "PARSCALE은 Pre-training뿐만 아니라, Instruction Tuning 단계에서도 효과적인가?"
- Figure 5: two-stage training의 loss curve
- 그래프 구성:
- X축 (Training Tokens): 훈련에 사용된 토큰
- Y축 (Loss): 모델의 손실 값
- Stage 1: normal pre-training (1T tokens):
- 전체 훈련 과정의 대부분(1조 토큰, 전체의 98%)을 차지하는 첫 번째 단계이다. 이 단계에서는 일반적인 방식(P=1)으로 모델을 훈련한다. (그래프에서 0.0T부터 1.0T까지 파란색 단일 선으로 표시)
- Stage 2: parallel scaling training (20B tokens):
- 전체 훈련 과정의 마지막 일부(200억 토큰, 전체의 2%)를 차지하는 두 번째 단계이다. 1단계에서 훈련된 모델을 가져와서, PARSCALE 방식(P>1)으로 추가 훈련을 진행한다.
- 확대된 그래프:
- 2단계가 시작되는 1.0T 지점을 확대한 것으로, P=1, 2, 4, 8에 대한 손실 곡선을 각각 다른 색으로 시각화
- 그래프 해석:
- 적은 데이터로 빠른 적응
- 2단계 시작 직후(확대된 그래프의
1.0002T지점), P>1 모델들의 손실(Loss)이 P=1 모델보다 일시적으로 급증하는데, 이는 무작위로 초기화된 PARSCALE 관련 파라미터(Prefix Token) 때문에 발생하는 현상 - 하지만 매우 적은 양의 데이터(0.0002T = 0.2B)만으로 새로운 파라미터에 빠르게 적응하고, 손실 곡선은 안정적으로 다시 내려옴
- 2단계 시작 직후(확대된 그래프의
- 로그 성능 향상 패턴 유지
- 안정화된 이후, 손실 곡선은 P가 클수록 더 낮아지는 로그(logarithmic) 성능 향상 패턴을 그대로 유지 (빨간선(P=8)이 가장 낮음)
- 2단계 전략이 비용을 크게 절감하면서도, 처음부터 PARSCALE로 훈련한 것과 유사한 성능 향상 효과를 얻을 수 있음을 시사Table 5: Instruct Model 성능 비교
- 적은 데이터로 빠른 적응
- 사전 훈련을 마친 모델들을 "Instruction Following" 데이터로 파인튜닝했을 때의 성능
- 표 구성
- 행
- SmolLM-1.7B-Inst: 베이스라인 모델
- Baseline-Inst (P=1): 2단계 전략으로 훈련된 모델을 일반적인 방식으로 파인튜닝한 결과
- PARSCALE-Inst (P=2, 4, 8): 2단계 전략으로 훈련된 각 PARSCALE 모델을 파인튜닝한 결과
- 열: 세 가지 대표적인 벤치마크 점수
- IFEval: 모델이 지시를 얼마나 정확하게 따르는지 평가
- MMLU: 종합적인 문제 해결 능력을 평가
- GSM8K: 수학 추론 능력을 평가
- 행
- 표 해석
- 파인튜닝 단계에서도 PARSCALE의 효과는 강력하다
- P가 1에서 8로 증가함에 따라 모든 벤치마크에서 성능이 꾸준히 향상
- IFEval: 54.1 → 59.5 (5.4%p 상승)
- MMLU: 34.2 → 41.7 (7.5%p 상승)
- GSM8K: 50.3 → 56.1 (5.8%p 상승)
- PARSCALE의 범용성
- 특정 훈련 단계나 방식에 국한되지 않고, 사전 훈련부터 파인튜닝에 이르기까지 모델의 성능을 일관되게 향상시키는 범용적인 기술임을 보여줌
- 특히 복잡한 지시를 이해하고 따르는 능력(IFEval)과 추론 능력(GSM8K, MMLU) 모두에서 큰 폭의 성능 향상을 이끌어냄
- 파인튜닝 단계에서도 PARSCALE의 효과는 강력하다
4.2 Applying to the Off-the-Shelf Pre-Trained Model
- 기존 상용 모델에 적용:
- 지속적 사전 학습: 이미 잘 학습된 모델(Qwen-2.5)도 성능 향상.
- PEFT: 모델의 핵심 가중치를 고정한 채 PARSCALE 모듈만 미세 조정해도 효과적.
- 가능성: '동적 병렬 스케일링' 패러다임 제시. 하나의 백본 모델로 다양한 성능/비용 요구에 유연하게 대응.
- Figure 6기존 모델에 대한 PARSCALE 적용 결과
Qwen-2.5-3B모델에 PARSCALE을 적용했을 때의 결과- "이미 잘 훈련된 기존 모델에 PARSCALE을 '플러그인'처럼 꽂아 성능을 향상시킬 수 있는가?"라는 활용 가능성
- 그래프 (a) & (b): Continual Pre-training
- 18T 토큰으로 훈련된
Qwen-2.5-3B모델을 가져와서, Stack-V2-Python(a)과 Pile(b) 데이터셋으로 Continual Pre-training을 진행했을 때의 Loss 곡선 - X축 (Training Tokens): 추가 훈련에 사용된 토큰의 양
- Y축 (Training Loss): 훈련 손실 값
- 해석:
- 성능 향상 여지:
Qwen-2.5-3B는 이미 매우 많은 데이터로 훈련되었음에도 불구하고, 추가 훈련을 통해 손실 값이 계속해서 감소함 → 어떤 모델이든 특정 데이터셋에 대해 추가 학습을 통해 더 개선될 여지가 있음 - PARSCALE의 일관된 효과: 이 추가 훈련 과정에서도, P가 클수록(빨간선 P=8) 손실 값이 가장 낮게 유지됨
- 성능 향상 여지:
- 18T 토큰으로 훈련된
- 그래프 (c): 모델 고정 후 파인튜닝 (Freezing the Model)
- PARSCALE의 '동적 병렬 스케일링(Dynamic Parallel Scaling)' 가능성을 보여주는 부분
Qwen-2.5-3B모델의 backbone 가중치는 freeze, PARSCALE을 적용하면서 새롭게 추가된 아주 작은 파라미터(접두사 토큰, 집계 가중치)만 파인튜닝했을 때의 코드 생성 성능을 보여줌- X축 (P): 병렬 스트림의 수
- Y축 (Performance %): 코드 생성 벤치마크(HumanEval+, MBPP+)의 평균 성능 점수
- Pass@1 / Pass@10: 각각 한 번의 시도 / 열 번의 시도에서의 성공률
- 해석:
- 극적인 성능 향상: 모델의 99.9% 이상을 차지하는 거대한 본체를 전혀 건드리지 않고, 단지 0.1%도 안 되는 작은 파라미터만 훈련했음에도 불구하고 성능이 극적으로 향상
- Pass@1: P=1일 때 47.4%였던 성능이 P=8에서는 53.0%로 상승
- Pass@10: P=1일 때 73.1%였던 성능이 P=8에서는 78.2%로 상승
- P가 클수록 성능이 좋다: 이 파인튜닝 방식에서도 P가 증가함에 따라 성능이 꾸준히 향상되는 일관된 패턴을 보임
- 극적인 성능 향상: 모델의 99.9% 이상을 차지하는 거대한 본체를 전혀 건드리지 않고, 단지 0.1%도 안 되는 작은 파라미터만 훈련했음에도 불구하고 성능이 극적으로 향상
- 동적 병렬 스케일링 (Dynamic Parallel Scaling)이처럼, 여러 개의 다른 크기 모델을 유지하고 관리할 필요 없이, 단일 모델로 상황에 따라 '일반 모드'와 '고성능 모드'를 자유롭게 오갈 수 있다. 이는 모델 배포와 운영의 유연성과 효율성을 극대화할 수 있다.
"하나의 잘 훈련된 모델만 배포해두고, 실제 서비스 환경의 요구에 따라 P 값을 실시간으로 바꿔가며 모델의 성능 수준을 동적으로 조절할 수 있다."
- 결론
- 이미 존재하는 강력한 모델을 추가적으로 더 강하게 만들 수 있고,
- 심지어 기존 모델을 전혀 수정하지 않고 '부가 기능'처럼 장착하여 성능을 크게 향상시킬 수 있으며,
- 이를 통해 하나의 모델로 다양한 성능 수준을 동적으로 제공하는 유연한 서비스가 가능
5. Related Work
- Inference Time Scaling: 직렬적 연산 확장과 달리 PARSCALE은 병렬적 확장으로 지연 시간 최소화.
- Classifier Free Guidance(CFG): PARSCALE은 CFG의 일반화되고 학습 가능한 버전.
- Model Ensemble: PARSCALE은 파라미터를 공유하는 앙상블 형태로, 비용 효율적.
- LLM Scaling Raw: 기존의 파라미터(N), 데이터(D)에 병렬 연산(P)이라는 제3의 변수 추가.
6. Discussion and Future Work
- 추론 최적 모델: 주어진 '추론' 예산 하에서 최적의 (N,P) 조합을 찾는 연구.
- 이론적 심화: klogP 관계의 근본 원인 및 성능 상한선 탐구.
- PARSCALE과 MoE 결합: 메모리 효율적인 PARSCALE과 지연 시간 효율적인 MoE의 장점을 결합한 하이브리드 아키텍처 연구.
- 타 도메인 확장: 컴퓨터 비전, 음성 인식 등 다른 분야로의 적용.
7. Conclusions
- 핵심 요약: PARSCALE은 기존 파라미터를 재사용하여 병렬 연산을 확장하는 혁신적이고 효율적인 스케일링 패러다임.
- 핵심 기여: 병렬 스케일링 법칙(P 스트림 ≈ O(NlogP) 파라미터) 수립 및 검증.
- 주요 특징: 추론 집약적 작업에 강점, 뛰어난 추론 효율성, 2단계 학습 및 동적 스케일링을 통한 실용성 확보.
- 미래 가치: 저자원 및 엣지 디바이스 환경에서 고성능 AI를 구현할 핵심 기술로 부상할 잠재력.