Parallel Scaling Law for Language Models 논문 리뷰

링크

Parallel Scaling Law for Language Models

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling par

arxiv.org

https://github.com/QwenLM/ParScale

GitHub - QwenLM/ParScale: Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling

Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling - QwenLM/ParScale

github.com

https://huggingface.co/ParScale

ParScale (ParScale)

🏠 ParScale-1.8B Base models trained on 1T high-quality tokens, demonstrating strong competitiveness among existing SOTA small models (<2B).

huggingface.co

0. Abstract

문제 제기: 기존 LLM 성능 확장 방식인 '파라미터 스케일링'과 '추론 시간 스케일링'은 각각 막대한 공간(메모리) 및 시간(지연 시간) 비용 발생.
제3의 패러다임 제안: 병렬 스케일링 (Parallel Scaling, PARSCALE).
핵심 아이디어: 기존 모델 파라미터를 재사용하여 병렬 연산을 확장.
- 입력에 P개의 학습 가능한 변환 적용 → 단일 모델에서 P번 병렬 처리 → 결과 동적 통합.
주요 발견 (병렬 스케일링 법칙):
- P개의 병렬 스트림 사용 ≈ 파라미터 수를 O(log P)배 늘리는 효과.
- 추론 효율성 월등: 동일 성능 목표 달성 시, 파라미터 확장 대비 메모리 증가 최대 22배, 지연 시간 증가 최대 6배 적음.
실용성:
- 사전 학습된 모델에 짧은 후속 학습만으로 적용 가능 → 학습 비용 절감.
- 저자원 환경에서 고성능 모델 배포 가능성 제시.
Figure 1
(1) 세 가지 스케일링 접근법
Parameter Scaling (매개변수 스케일링):
- 개념: 모델의 크기 자체를 키우는 전통적인 방법
- 비용: 모델이 커질 수록 더 많은 GPU 메모리와 저장 공간을 차지
Inference-Time Scaling (추론 시간 스케일링):
- 개념: 추론 시 모델이 Chain-of-Thought과 같이 더 긴 Reasoning Tokens를 생성하도록 유도하여 최종 답변의 품질을 높이는 방법
- 비용: 추가적인 토큰을 생성하는 데 걸리는 시간만큼 latency 증가
Parallel Scaling (PARSCALE, 병렬 스케일링):
- 개념:
  1. Learnable Transformation: 하나의 입력을 P개의 서로 다른 관점으로 변환 (변환 방식은 모델이 학습을 통해 최적화)
  2. Parallel Forward: P개의 변환된 입력을 동시에 모델에 통과 (모델을 재사용)
  3. Learnable Aggregation: 병렬 처리로 나온 P개의 결과를 지능적으로 종합하여 최종 답변을 생성 (집계 방식은 학습을 통해 최적화)
- 비용: 공간과 시간 비용을 모두 최적화하는 것을 목표

(2) 병렬 스케일링 법칙

“PARSCALE을 쓰면 얼마나 성능이 좋아지는가?”

그래프 설명
- X축 (Parameters): 모델의 크기
- Y축 (Loss): 모델의 손실 값
- 선 색깔/모양 (P): 병렬 스트림의 수. 파란색 원(P=1)을 기준으로, 빨간색 별(P=8)로 갈수록 병렬 계산을 많이 사용
해석
1. P에 따른 Loss 변화: 동일한 모델 크기(예: 1.6B)에서 수직으로 아래를 보면, P가 1에서 8로 증가할수록 Loss가 크게 감소
2. 매개변수 절약 효과: 약 1.05의 Loss 값을 달성하는 방법을 비교
  - P=1 (파란선): 약 2.8B 크기의 모델이 필요
  - P=8 (빨간선): 약 1.1B 크기의 모델만으로 동일 성능 달성

(3) 추론 공간 및 시간 비용과의 스케일링

그래프 설명
- Y축 (Loss): 성능
- 왼쪽 X축: GPU 메모리 (GB)
- 오른쪽 X축: 지연 시간 (Latency, 초)
- 파란색 화살표 (Parameter Scaling): 모델 크기를 1.6B → 2.8B → 4.4B로 키워 성능을 높이는 경로.
- 회색 화살표 (Parallel Scaling): 1.6B 모델을 고정한 채 P를 1 → 2 → 4 → 8로 늘려 성능을 높이는 경로.
해석
1. 메모리 효율성: Loss를 약 1.08에서 1.04로 낮추고 싶다고 가정
  - 매개변수 스케일링 경로: 1.6B 모델 → 2.8B 모델
  - PARSCALE 경로: 1.6B 모델에서 P=1 → P=4
  - 동일 성능 향상을 위해 PARSCALE이 필요로 하는 추가 메모리는 7배 적음
2. 시간 효율성: 같은 성능 향상 목표에 대해,
  - 매개변수 스케일링 경로: 더 커진 모델을 돌려야 하므로 지연 시간이 상당히 증가합니다.
  - PARSCALE 경로: 병렬 처리로 인해 지연 시간이 소폭 증가합니다.
  - PARSCALE의 추가 지연 시간이 1.7배 더 적음

1. Introduction

기존 스케일링의 한계:
- 파라미터 스케일링: 막대한 메모리 비용, 엣지 디바이스 배포 거의 불가능.
- 추론 시간 스케일링: 높은 지연 시간, 특정 시나리오에 국한, '과잉 사고' 문제.
핵심 가설:
- 영감: 분류기 없는 안내(CFG) 기법. 성능 향상의 원인은 정교한 규칙이 아닌 '2배의 연산량' 자체일 수 있음.
- 가설: 파라미터를 거의 유지하며 병렬 연산을 확장하는 것은 파라미터 확장과 유사한 성능 향상 효과를 낳는다.
PARSCALE 소개 및 주요 발견:
- 새로운 스케일링 법칙: 병렬 연산(P)과 파라미터(N)의 정량적 관계(O(logP)) 규명.
- 추론 집약적 작업 강점: 코딩, 수학 등에서 효과가 더 커 '연산'이 '추론 능력'과 관련 깊음을 시사.
- 추론 효율성: 저자원 환경 배포 가능성.
- 2단계 학습 전략: 전체 데이터의 2%만으로 PARSCALE을 적용해 학습 비용 해결.
- 동적 병렬 스케일링: 추론 시나리오에 따라 P값을 동적으로 조절 가능.
Table 1
- 추론 시간 (Inference Time): 😐 보통 (Moderate)
  - 병렬 처리로 인한 시간 증가가 크지 않아 Inference-Time Scaling보다 빠름
- 추론 공간 (Inference Space): 😐 보통 (Moderate)
  - 모델 크기는 그대로이고 KV 캐시만 늘어나기 때문에 Dense나 MoE 모델보다 효율적
- 훈련 비용 (Training Cost): 😄 낮음 (Pre- or Post-training)
  - 처음부터 훈련할 수도 있고, 기존 모델에 적용하는 것도 가능
- 특화 전략 (Specialized Strategy): 😄 없음 (No)
  - 다른 방법들처럼 복잡한 부하 분산이나 특수한 보상 데이터가 필요 없이 범용적으로 적용
Parallel Scaling (PARSCALE, 병렬 스케일링)

2. Background and Methodology

개념적 기원 (CFG에서 PARSCALE로):
- CFG의 성능 향상 원인을 '연산량 증가'로 재해석.
- CFG의 고정된 규칙을 P개의 스트림을 사용하는 학습 가능하고 확장 가능한 프레임워크로 일반화.
구현 세부사항:
- 입력 변환:
  - 목표: 각 병렬 스트림이 입력에 대해 서로 다른 "관점"을 갖도록 유도.
  - 채택 방식: 접두사 튜닝(Prefix Tuning). 각 스트림에 고유한 접두사를 할당하여 다양한 출력 생성.
  - 핵심: 특정 구현 방식보다 '병렬 연산' 원리 자체가 중요.
- 출력 집계:
  - 목표: P개의 출력을 동적으로 통합.
  - 채택 방식: MLP 네트워크를 통해 각 스트림의 가중치를 동적으로 계산 후 가중 평균.
  - 문제 해결: 학습 초기 '로드 불균형' 현상은 레이블 스무딩(label smoothing)으로 해결.

3. Parallel Scaling Law

3.1 Theoretical Analysis: Can PARSCALE Achieve Similar Effects as Parameter Scaling?

이론적 분석:
- Chinchilla 스케일링 법칙 확장.
- 모델 성능은 병렬 스트림 수(P)와 스트림 간의 다양성(DIVERSITY)에 의해 결정.
Figure 2두 개의 데이터셋에 대해, 모델의 크기와 병렬 스트림 수(P)를 바꿔가며 훈련했을 때의 최종 손실 값
모델 크기와 병렬 스트림 수에 따른 Loss
그래프
- 왼쪽 그래프: Stack-V2-Python 데이터셋에서의 결과. (주로 코딩과 논리적 추론 능력)
- 오른쪽 그래프: The Pile 데이터셋에서의 결과. (일반 상식과 암기 능력)
- X축 (Parameters): 모델의 크기
- Y축 (Loss): 훈련 후의 손실 값
- 선 (Lines): 이 점들을 바탕으로 논문에서 제안한 스케일링 법칙 수식(Equation 5)에 맞춰 피팅(fitting)한 예측선입니다. 점들이 선에 가깝게 붙어있을수록 예측이 정확하다는 의미입니다.
해석
1. PARSCALE이 실제로 모델 성능을 향상시킨다는 것에 대한 실험적 증명
2. 스케일링 법칙의 높은 정확도 (Goodness: R²)
  - Goodness: R² = 0.9978 (왼쪽), R² = 0.9987 (오른쪽)
  - 저자들이 제안한 병렬 스케일링 법칙이 실제 실험 결과를 거의 완벽하게 예측하고 있음을 제시
3. 데이터셋 종류에 따른 PARSCALE 효과의 차이
  - k 값의 비교:
    - Stack-V2-Python: k = 0.3935
    - Pile: k = 0.3345
    k는 스케일링 법칙 수식에서 병렬 계산(log P)의 효과가 얼마나 큰지를 나타내는 계수
    - k 값이 더 크다는 것은 P를 키웠을 때 Loss 감소의 폭이 더 크다는 것을 의미
    - 따라서, 코딩과 추론 능력을 요구하는 Stack-V2-Python 데이터셋이 일반 상식을 요구하는 Pile 데이터셋보다 PARSCALE의 효과를 더 크게 받는다
4. 두 그래프의 피팅된 매개변수(E, A, k, α)를 비교
5. 계산은 추론 능력을, 매개변수는 암기 능력을 향상시킨다
  - 병렬 계산: 논리적 추론(reasoning) 능력을 향상시키는 데 효과적
  - 매개변수: 암기(memorization) 능력을 향상시키는 데 효과적

3.2 Practical Parallel Scaling Laws

실질적인 병렬 스케일링 법칙:
- 대규모 실험 결과, P가 증가할수록 손실이 로그(log) 형태로 감소.
- 법칙 수립: L = (A / N⋅(klogP+1))^a + E
- 의미: P개의 병렬 스트림 사용 ≈ 유효 파라미터 $(k \log P + 1)$배 증가 효과.
- k 값의 의미: 병렬 연산의 이점. 추론/코딩 데이터(Stack-V2)에서 일반 데이터(Pile)보다 k값이 높게 나옴.
- 시사점: 파라미터(N)는 '기억력', 병렬 연산(P)은 '추론 능력'에 더 큰 영향.
Figure 3
PARSCALE의 Loss 등고선 그래프
그래프
- X축 (Scaling Parameters): 모델의 크기
- Y축 (Scaling Computation): 병렬 계산
- 등고선 (Contour Lines): 같은 수준의 성능(Loss 값)을 내는 (매개변수, P) 조합들을 연결한 선
- 색상: 색이 밝을수록(오른쪽 위로 갈수록) Loss가 낮아져 성능이 더 좋음, 색이 어두울수록(왼쪽 아래로 갈수록) Loss가 높아 성능이 더 나쁨.
해석
1. 성능 달성을 위한 두 가지 경로: '매개변수' vs '계산'
- 예시) 왼쪽(Stack-V2-Python) 그래프에서 Loss 약 1.02을 달성하고 싶다고 가정
  - 방법 A (계산을 적게 쓰는 대신 모델을 키우기): 크기=2.0B, P=2
  - 방법 B (모델을 작게 쓰는 대신 계산을 늘리기): 크기=1.1B, P=8
2. 더 큰 모델일수록 PARSCALE의 효과가 극대화
- 작은 모델 (예: 0.7B): 등고선이 매우 가파름. (Y축(계산)을 조금만 올려도(P를 1에서 2로) 성능이 크게 향상됨)
- 큰 모델 (예: 4.4B): 등고선이 점점 완만해짐. (Y축을 올릴 때 성능 향상 폭이 훨씬 더 커진다는 것을 의미)
- 같은 P 증가라도 더 큰 모델일 수록 훨씬 더 큰 성능 향상을 가져온다.
1. 데이터셋에 따른 효과 차이 재확인
- Stack-V2-Python (추론): 등고선들이 Y축 방향으로 더 넓게 퍼져 있음 → 계산(P)을 늘리는 것이 성능 향상에 더 큰 기여
- Pile (암기): 등고선들이 상대적으로 더 촘촘함 → 왼쪽 그래프만큼 극적이지는 않음
- Table 2 & 3다운스트림 태스크 평균 성능
표 구성
- 가로축 (N): 모델의 크기
- 세로축 (P): 병렬 스트림의 수
- 숫자: 각 태스크에서의 성능 점수(%)
- 배경색: 점수가 높을수록 파란색이 진해짐
표2 해석 (HumanEval(+), MBPP(+) 두 가지의 코드 생성 벤치마크 평균 점수)
- 병렬 계산의 효과가 매우 크다
  - 1.6B (P=8) 모델의 성능(39.1)은 4.4B (P=1) 모델의 성능(39.2)과 거의 동일
  - 즉, 1.6B 모델에 PARSCALE (P=8)을 적용하면, 그보다 약 3배 더 큰 4.4B 모델과 맞먹는 코드 생성 능력을 갖게 됨을 의미
  - 추론 능력이 중요한 태스크에서 병렬 계산의 효과가 매우 강력하다는 것을 뒷받침
표3 해석 (6가지 lm-evaluation-harness 일반 상식 태스크 평균 성능)
- 병렬 계산의 효과가 상대적으로 작음
  - 1.6B (P=8) 모델의 성능 (55.7)을 보면, 이 점수는 2.8B (P=1) 모델의 성능 (55.2)과 비슷함
  - 표 2(코드 생성)에서는 1.6B(P=8)이 4.4B(P=1) 모델과 맞먹었던 반면, 여기서는 2.8B 모델 수준에 그침
  - 일반 상식이나 암기가 중요한 태스크에서는 병렬 계산의 효과가 추론 태스크만큼 크지는 않다는 것을 의미
종합
- 추론 집약적 태스크 (표 2, 코드 생성): 병렬 계산(P 증가)의 효과가 매우 커서, 작은 모델도 큰 모델의 성능을 따라잡을 수 있음
- 암기 집약적 태스크 (표 3, 일반 상식): 병렬 계산의 효과가 여전히 존재하지만, 추론 태스크만큼은 아님. 모델의 크기(더 많은 지식을 저장할 공간)를 늘리는 것이 여전히 중요

3.3 Inference Cost Analysis

추론 비용 분석:
- 메모리 효율성: 파라미터 재사용으로 메모리 증가 미미.
- 지연 시간 효율성: GPU 친화적 병렬 연산으로 지연 시간 증가 최소화.
- 결론: 동일 성능 달성 시, 파라미터 스케일링 대비 압도적으로 효율적.
Figure 4위쪽 4개는 메모리 효율성을, 아래쪽 4개는 시간(지연 시간) 효율성
각 열은 배치 사이즈가 1, 2, 4, 8일 때의 상황
추론 시공간 비용에 따른 모델 성능 스케일링
그래프 구성
- Y축 (Loss): 모델의 성능
- X축:
  - (a)-(d) 그래프: GPU 메모리 (GB) 사용량
  - (e)-(h) 그래프: 지연 시간 (Latency, 초)
- 파란색 화살표: 매개변수 스케일링(Parameter Scaling) 경로. 즉, 모델 크기를 1.6B → 2.8B → 4.4B로 키우는 전략
- 회색 화살표: 병렬 스케일링(Parallel Scaling) 경로. 즉, 모델 크기는 1.6B, 2.8B, 4.4B 중 하나로 고정한 채, 병렬 스트림(P)을 1 → 2 → 4 → 8로 늘리는 전략
그래프 해석: 위쪽 줄 (a-d) - 메모리 효율성
1. 배치 사이즈 1 (a):
  - 목표: Loss를 약 1.08에서 1.04로 낮추기.
  - 매개변수 스케일링: 1.6B 모델(약 3.5GB) → 2.8B 모델(약 5.8GB), 약 2.3GB의 메모리가 추가로 필요
  - PARSCALE: 1.6B 모델에서 P=1 → P=4, 메모리 사용량이 거의 변하지 않음 (약 0.1GB 증가, 추가되는 KV 캐시의 크기는 모델 가중치 증가량에 비해 무시할 만큼 작음)
2. 배치 사이즈 증가 (b, c, d):
  - 배치 사이즈가 커질수록 모든 경로에서 메모리 사용량이 전반적으로 증가
  - 어떤 배치 사이즈에서도 PARSCALE 경로(회색 화살표)는 거의 수직으로 아래로 향함 → ****P를 늘려도 메모리 증가량이 매우 작다는 사실이 배치 사이즈에 관계없이 유지된다.
  - 반면 파란색 화살표는 항상 오른쪽으로 크게 이동하므로, 매개변수 스케일링은 항상 막대한 메모리 비용을 수반한다.
그래프 해석: 아래쪽 줄 (e-h) - 지연 시간 비용
1. 배치 사이즈 1 (e):
  - 목표: Loss를 약 1.08에서 1.04로 낮추기.
  - 매개변수 스케일링: 1.6B 모델(약 0.45초) → 2.8B 모델(약 0.85초), 지연 시간이 약 0.4초 증가
  - PARSCALE: 1.6B 모델에서 P=1 → P=4, 지연 시간이 약 0.45초에서 0.52초로 약 0.07초 증가
2. 배치 사이즈 증가 (f, g, h):
  - 배치 사이즈가 1일 때는 회색 화살표(PARSCALE)가 거의 수직에 가까웠지만, 배치 사이즈가 8로 커지면 회색 화살표도 오른쪽으로 더 많이 이동하며 기울기가 완만해짐
  - 이유: 작은 배치 사이즈에서는 추론 병목이 메모리 대역폭(memory-bound)에 있어, 계산을 늘려도(P 증가) GPU의 남는 계산 능력을 활용하므로 시간 증가가 적음. 하지만 배치 사이즈가 커지면 병목이 순수 계산 능력(compute-bound)으로 전환. 이 상태에서는 계산량을 늘리는(P 증가) 것이 직접적으로 시간 증가로 이어짐.
  - 결론: 그럼에도 불구하고, 배치 사이즈 8까지도 여전히 PARSCALE이 매개변수 스케일링보다 더 나은 시간 효율성을 보임
결론 및 시사점
- PARSCALE이 자원이 제한적인 환경에서 매우 강력한 잠재력을 가지고 있음을 증명 (예: 저자원 엣지 디바이스)
- 이러한 환경은 메모리가 매우 제한적이고, 보통 배치 사이즈 1로 작동
- (a)와 (e)는 이 시나리오에서 PARSCALE이 최소한의 메모리와 시간 비용으로 성능을 극대화할 수 있는 거의 유일한 선택지

4. Scaling Training Data

4.1 Two-Stage Pretraining

2단계 사전 학습 전략:
- 문제: 학습 시 연산량 P배 증가로 인한 비용.
- 해결책:
  - 1단계: 대부분의 데이터로 표준 학습(P=1).
  - 2단계: 소량의 데이터(2%)로 PARSCALE 학습(P>1).
- 결과: 매우 효과적. 적은 데이터로도 병렬 추론 능력을 빠르게 학습.
Table 4→ "그래서 실제 상용 모델 수준의 대규모 데이터(1T 토큰)로 훈련해도 PARSCALE이 효과가 있는가?"이 표는 1.8B 크기의 모델들을 1조(1T) 개의 토큰으로 훈련시킨 후, 다양한 벤치마크에서의 성능을 비교
Two-Stage 전략으로 1T 토큰 학습 후 1.8B 모델 성능 비교
PARSCALE의 실용성과 확장성을 검증.
표 구성
- 위쪽: 일반(General) 언어 능력 벤치마크 점수. MMLU, WinoGrande 등의 태스크를 포함
- 아래쪽: 수학(Math) 및 코드(Code) 생성 능력 벤치마크 점수. GSM8K, HumanEval 등 추론 능력을 평가
- 행:
  - 위쪽 그룹 (gemma, Llama, ...): Baseline 비교군
  - 아래쪽 그룹 (Baseline, PARSCALE): 동일한 1.8B 모델과 1T 토큰 데이터로 훈련하되, 병렬 스트림(P)만 1, 2, 4, 8로 늘렸을 때의 성능 변화
- 열:
  - Tokens: 훈련에 사용된 총 토큰 수
  - Data: 훈련 데이터의 Public / Private 여부
  - Average (General, Math, Code): 각 카테고리의 평균 점수
  - 개별 벤치마크 (MMLU, GSM8K, ...): 각 벤치마크의 세부 점수(@1은 한 번에, @10은 10번 시도 중 한 번이라도 맞춘 비율)
표 해석
1. 대규모 데이터에서도 PARSCALE의 효과는 일관됨
  - Average 점수:
    - General: P=1(56.0) → P=8(58.6)으로 2.6%p 상승
    - Math: P=1(25.5) → P=8(32.8)으로 7.3%p 상승
    - Code: P=1(45.6) → P=8(49.9)으로 4.3%p 상승
  - P가 1에서 8로 증가함에 따라 모든 카테고리에서 성능이 꾸준히 향상됨
2. 계산은 추론 능력을 향상시킨다.
  - 성능 향상 폭 비교: 일반 능력(General)이 2.6%p 향상될 때, 수학(Math) 능력은 7.3%p로 훨씬 더 극적으로 향상됨. 코드(Code) 능력도 4.3%p로 유의미하게 향상됨.
  - 세부 벤치마크 보기 (GSM8K)
    - GSM8K는 초등학교 수학 문제로, 복잡한 단계적 추론을 요구함.
    - Baseline (P=1)의 점수는 28.7점인데, PARSCALE (P=8)은 38.4점으로 약 10%p (상대적 성능 향상 34%) 급상승
3. 추론 시간 스케일링과의 시너지 효과
  - GSM8K vs GSM8K+CoT
    - PARSCALE (P=8) 모델의 GSM8K 점수는 38.4점입니다.
    - 여기에 추론 시간 스케일링 기법 CoT을 추가로 적용하자, 점수가 43.7점으로 더 상승
  - PARSCALE과 CoT가 서로 배타적인 관계가 아니라, 함께 사용될 때 더 큰 시너지 효과를 낼 수 있음을 시사
4. 2단계 훈련 전략의 실용성 검증
- Figure 5 & Table 5
"PARSCALE의 높은 훈련 비용을 어떻게 해결할 것인가?”
"PARSCALE은 Pre-training뿐만 아니라, Instruction Tuning 단계에서도 효과적인가?"
Figure 5: two-stage training의 loss curve
그래프 구성:
- X축 (Training Tokens): 훈련에 사용된 토큰
- Y축 (Loss): 모델의 손실 값
- Stage 1: normal pre-training (1T tokens):
  - 전체 훈련 과정의 대부분(1조 토큰, 전체의 98%)을 차지하는 첫 번째 단계이다. 이 단계에서는 일반적인 방식(P=1)으로 모델을 훈련한다. (그래프에서 0.0T부터 1.0T까지 파란색 단일 선으로 표시)
- Stage 2: parallel scaling training (20B tokens):
  - 전체 훈련 과정의 마지막 일부(200억 토큰, 전체의 2%)를 차지하는 두 번째 단계이다. 1단계에서 훈련된 모델을 가져와서, PARSCALE 방식(P>1)으로 추가 훈련을 진행한다.
- 확대된 그래프:
  - 2단계가 시작되는 1.0T 지점을 확대한 것으로, P=1, 2, 4, 8에 대한 손실 곡선을 각각 다른 색으로 시각화
그래프 해석:
1. 적은 데이터로 빠른 적응
  - 2단계 시작 직후(확대된 그래프의 1.0002T 지점), P>1 모델들의 손실(Loss)이 P=1 모델보다 일시적으로 급증하는데, 이는 무작위로 초기화된 PARSCALE 관련 파라미터(Prefix Token) 때문에 발생하는 현상
  - 하지만 매우 적은 양의 데이터(0.0002T = 0.2B)만으로 새로운 파라미터에 빠르게 적응하고, 손실 곡선은 안정적으로 다시 내려옴
2. 로그 성능 향상 패턴 유지
  - 안정화된 이후, 손실 곡선은 P가 클수록 더 낮아지는 로그(logarithmic) 성능 향상 패턴을 그대로 유지 (빨간선(P=8)이 가장 낮음)
  - 2단계 전략이 비용을 크게 절감하면서도, 처음부터 PARSCALE로 훈련한 것과 유사한 성능 향상 효과를 얻을 수 있음을 시사Table 5: Instruct Model 성능 비교
사전 훈련을 마친 모델들을 "Instruction Following" 데이터로 파인튜닝했을 때의 성능
표 구성
- 행
  - SmolLM-1.7B-Inst: 베이스라인 모델
  - Baseline-Inst (P=1): 2단계 전략으로 훈련된 모델을 일반적인 방식으로 파인튜닝한 결과
  - PARSCALE-Inst (P=2, 4, 8): 2단계 전략으로 훈련된 각 PARSCALE 모델을 파인튜닝한 결과
- 열: 세 가지 대표적인 벤치마크 점수
  - IFEval: 모델이 지시를 얼마나 정확하게 따르는지 평가
  - MMLU: 종합적인 문제 해결 능력을 평가
  - GSM8K: 수학 추론 능력을 평가
표 해석
1. 파인튜닝 단계에서도 PARSCALE의 효과는 강력하다
  - P가 1에서 8로 증가함에 따라 모든 벤치마크에서 성능이 꾸준히 향상
  - IFEval: 54.1 → 59.5 (5.4%p 상승)
  - MMLU: 34.2 → 41.7 (7.5%p 상승)
  - GSM8K: 50.3 → 56.1 (5.8%p 상승)
2. PARSCALE의 범용성
  - 특정 훈련 단계나 방식에 국한되지 않고, 사전 훈련부터 파인튜닝에 이르기까지 모델의 성능을 일관되게 향상시키는 범용적인 기술임을 보여줌
  - 특히 복잡한 지시를 이해하고 따르는 능력(IFEval)과 추론 능력(GSM8K, MMLU) 모두에서 큰 폭의 성능 향상을 이끌어냄

4.2 Applying to the Off-the-Shelf Pre-Trained Model

기존 상용 모델에 적용:
- 지속적 사전 학습: 이미 잘 학습된 모델(Qwen-2.5)도 성능 향상.
- PEFT: 모델의 핵심 가중치를 고정한 채 PARSCALE 모듈만 미세 조정해도 효과적.
- 가능성: '동적 병렬 스케일링' 패러다임 제시. 하나의 백본 모델로 다양한 성능/비용 요구에 유연하게 대응.
Figure 6기존 모델에 대한 PARSCALE 적용 결과
Qwen-2.5-3B 모델에 PARSCALE을 적용했을 때의 결과
"이미 잘 훈련된 기존 모델에 PARSCALE을 '플러그인'처럼 꽂아 성능을 향상시킬 수 있는가?"라는 활용 가능성
그래프 (a) & (b): Continual Pre-training
- 18T 토큰으로 훈련된 Qwen-2.5-3B 모델을 가져와서, Stack-V2-Python(a)과 Pile(b) 데이터셋으로 Continual Pre-training을 진행했을 때의 Loss 곡선
- X축 (Training Tokens): 추가 훈련에 사용된 토큰의 양
- Y축 (Training Loss): 훈련 손실 값
- 해석:
  1. 성능 향상 여지: Qwen-2.5-3B는 이미 매우 많은 데이터로 훈련되었음에도 불구하고, 추가 훈련을 통해 손실 값이 계속해서 감소함 → 어떤 모델이든 특정 데이터셋에 대해 추가 학습을 통해 더 개선될 여지가 있음
  2. PARSCALE의 일관된 효과: 이 추가 훈련 과정에서도, P가 클수록(빨간선 P=8) 손실 값이 가장 낮게 유지됨
그래프 (c): 모델 고정 후 파인튜닝 (Freezing the Model)
- PARSCALE의 '동적 병렬 스케일링(Dynamic Parallel Scaling)' 가능성을 보여주는 부분
- Qwen-2.5-3B 모델의 backbone 가중치는 freeze, PARSCALE을 적용하면서 새롭게 추가된 아주 작은 파라미터(접두사 토큰, 집계 가중치)만 파인튜닝했을 때의 코드 생성 성능을 보여줌
- X축 (P): 병렬 스트림의 수
- Y축 (Performance %): 코드 생성 벤치마크(HumanEval+, MBPP+)의 평균 성능 점수
- Pass@1 / Pass@10: 각각 한 번의 시도 / 열 번의 시도에서의 성공률
- 해석:
  1. 극적인 성능 향상: 모델의 99.9% 이상을 차지하는 거대한 본체를 전혀 건드리지 않고, 단지 0.1%도 안 되는 작은 파라미터만 훈련했음에도 불구하고 성능이 극적으로 향상
    - Pass@1: P=1일 때 47.4%였던 성능이 P=8에서는 53.0%로 상승
    - Pass@10: P=1일 때 73.1%였던 성능이 P=8에서는 78.2%로 상승
  2. P가 클수록 성능이 좋다: 이 파인튜닝 방식에서도 P가 증가함에 따라 성능이 꾸준히 향상되는 일관된 패턴을 보임
동적 병렬 스케일링 (Dynamic Parallel Scaling)이처럼, 여러 개의 다른 크기 모델을 유지하고 관리할 필요 없이, 단일 모델로 상황에 따라 '일반 모드'와 '고성능 모드'를 자유롭게 오갈 수 있다. 이는 모델 배포와 운영의 유연성과 효율성을 극대화할 수 있다.

"하나의 잘 훈련된 모델만 배포해두고, 실제 서비스 환경의 요구에 따라 P 값을 실시간으로 바꿔가며 모델의 성능 수준을 동적으로 조절할 수 있다."

결론
1. 이미 존재하는 강력한 모델을 추가적으로 더 강하게 만들 수 있고,
2. 심지어 기존 모델을 전혀 수정하지 않고 '부가 기능'처럼 장착하여 성능을 크게 향상시킬 수 있으며,
3. 이를 통해 하나의 모델로 다양한 성능 수준을 동적으로 제공하는 유연한 서비스가 가능

5. Related Work

Inference Time Scaling: 직렬적 연산 확장과 달리 PARSCALE은 병렬적 확장으로 지연 시간 최소화.
Classifier Free Guidance(CFG): PARSCALE은 CFG의 일반화되고 학습 가능한 버전.
Model Ensemble: PARSCALE은 파라미터를 공유하는 앙상블 형태로, 비용 효율적.
LLM Scaling Raw: 기존의 파라미터(N), 데이터(D)에 병렬 연산(P)이라는 제3의 변수 추가.

6. Discussion and Future Work

추론 최적 모델: 주어진 '추론' 예산 하에서 최적의 (N,P) 조합을 찾는 연구.
이론적 심화: klogP 관계의 근본 원인 및 성능 상한선 탐구.
PARSCALE과 MoE 결합: 메모리 효율적인 PARSCALE과 지연 시간 효율적인 MoE의 장점을 결합한 하이브리드 아키텍처 연구.
타 도메인 확장: 컴퓨터 비전, 음성 인식 등 다른 분야로의 적용.

7. Conclusions

핵심 요약: PARSCALE은 기존 파라미터를 재사용하여 병렬 연산을 확장하는 혁신적이고 효율적인 스케일링 패러다임.
핵심 기여: 병렬 스케일링 법칙(P 스트림 ≈ O(NlogP) 파라미터) 수립 및 검증.
주요 특징: 추론 집약적 작업에 강점, 뛰어난 추론 효율성, 2단계 학습 및 동적 스케일링을 통한 실용성 확보.
미래 가치: 저자원 및 엣지 디바이스 환경에서 고성능 AI를 구현할 핵심 기술로 부상할 잠재력.

728x90

저작자표시 (새창열림)

'개발 > 논문읽기' 카테고리의 다른 글

MiniRAG: Extremely Simple Retrieval-Augmented Generation 논문 리뷰 (0)	2026.01.06
Training Large Language Models to Reason in a Continuous Latent Space 논문 리뷰 (0)	2025.05.01
RNN - Recurrent neural network based language model (2010) 논문리뷰 (2)	2024.08.18

개발자 이예서

Parallel Scaling Law for Language Models 논문 리뷰

링크