본문 바로가기
개발/논문읽기

Parallel Scaling Law for Language Models 논문 리뷰

by YS_LEE 2025. 10. 6.

링크

https://arxiv.org/abs/2505.10475

 

Parallel Scaling Law for Language Models

It is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling par

arxiv.org

https://github.com/QwenLM/ParScale

 

GitHub - QwenLM/ParScale: Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling

Parallel Scaling Law for Language Model — Beyond Parameter and Inference Time Scaling - QwenLM/ParScale

github.com

https://huggingface.co/ParScale

 

ParScale (ParScale)

🏠 ParScale-1.8B Base models trained on 1T high-quality tokens, demonstrating strong competitiveness among existing SOTA small models (<2B).

huggingface.co

0. Abstract

  • 문제 제기: 기존 LLM 성능 확장 방식인 '파라미터 스케일링'과 '추론 시간 스케일링'은 각각 막대한 공간(메모리) 및 시간(지연 시간) 비용 발생.
  • 제3의 패러다임 제안: 병렬 스케일링 (Parallel Scaling, PARSCALE).
  • 핵심 아이디어: 기존 모델 파라미터를 재사용하여 병렬 연산을 확장.
    • 입력에 P개의 학습 가능한 변환 적용 → 단일 모델에서 P번 병렬 처리 → 결과 동적 통합.
  • 주요 발견 (병렬 스케일링 법칙):
    • P개의 병렬 스트림 사용 ≈ 파라미터 수를 O(log P)배 늘리는 효과.
    • 추론 효율성 월등: 동일 성능 목표 달성 시, 파라미터 확장 대비 메모리 증가 최대 22배, 지연 시간 증가 최대 6배 적음.
  • 실용성:
    • 사전 학습된 모델에 짧은 후속 학습만으로 적용 가능 → 학습 비용 절감.
    • 저자원 환경에서 고성능 모델 배포 가능성 제시.
  • Figure 1
  • (1) 세 가지 스케일링 접근법
  • Parameter Scaling (매개변수 스케일링):
    • 개념: 모델의 크기 자체를 키우는 전통적인 방법
    • 비용: 모델이 커질 수록 더 많은 GPU 메모리와 저장 공간을 차지
  • Inference-Time Scaling (추론 시간 스케일링):
    • 개념: 추론 시 모델이 Chain-of-Thought과 같이 더 긴 Reasoning Tokens를 생성하도록 유도하여 최종 답변의 품질을 높이는 방법
    • 비용: 추가적인 토큰을 생성하는 데 걸리는 시간만큼 latency 증가
  • Parallel Scaling (PARSCALE, 병렬 스케일링):
    • 개념:
      1. Learnable Transformation: 하나의 입력을 P개의 서로 다른 관점으로 변환 (변환 방식은 모델이 학습을 통해 최적화)
      2. Parallel Forward: P개의 변환된 입력을 동시에 모델에 통과 (모델을 재사용)
      3. Learnable Aggregation: 병렬 처리로 나온 P개의 결과를 지능적으로 종합하여 최종 답변을 생성 (집계 방식은 학습을 통해 최적화)
    • 비용: 공간과 시간 비용을 모두 최적화하는 것을 목표

(2) 병렬 스케일링 법칙

“PARSCALE을 쓰면 얼마나 성능이 좋아지는가?”

  • 그래프 설명
    • X축 (Parameters): 모델의 크기
    • Y축 (Loss): 모델의 손실 값
    • 선 색깔/모양 (P): 병렬 스트림의 수. 파란색 원(P=1)을 기준으로, 빨간색 별(P=8)로 갈수록 병렬 계산을 많이 사용
  • 해석
    1. P에 따른 Loss 변화: 동일한 모델 크기(예: 1.6B)에서 수직으로 아래를 보면, P가 1에서 8로 증가할수록 Loss가 크게 감소
    2. 매개변수 절약 효과: 약 1.05의 Loss 값을 달성하는 방법을 비교
      • P=1 (파란선): 약 2.8B 크기의 모델이 필요
      • P=8 (빨간선): 약 1.1B 크기의 모델만으로 동일 성능 달성

(3) 추론 공간 및 시간 비용과의 스케일링

  • 그래프 설명
    • Y축 (Loss): 성능
    • 왼쪽 X축: GPU 메모리 (GB)
    • 오른쪽 X축: 지연 시간 (Latency, 초)
    • 파란색 화살표 (Parameter Scaling): 모델 크기를 1.6B → 2.8B → 4.4B로 키워 성능을 높이는 경로.
    • 회색 화살표 (Parallel Scaling): 1.6B 모델을 고정한 채 P를 1 → 2 → 4 → 8로 늘려 성능을 높이는 경로.
  • 해석
    1. 메모리 효율성: Loss를 약 1.08에서 1.04로 낮추고 싶다고 가정
      • 매개변수 스케일링 경로: 1.6B 모델 → 2.8B 모델
      • PARSCALE 경로: 1.6B 모델에서 P=1 → P=4
      • 동일 성능 향상을 위해 PARSCALE이 필요로 하는 추가 메모리는 7배 적음
    2. 시간 효율성: 같은 성능 향상 목표에 대해,
      • 매개변수 스케일링 경로: 더 커진 모델을 돌려야 하므로 지연 시간이 상당히 증가합니다.
      • PARSCALE 경로: 병렬 처리로 인해 지연 시간이 소폭 증가합니다.
      • PARSCALE의 추가 지연 시간이 1.7배 더 적음

1. Introduction

  • 기존 스케일링의 한계:
    • 파라미터 스케일링: 막대한 메모리 비용, 엣지 디바이스 배포 거의 불가능.
    • 추론 시간 스케일링: 높은 지연 시간, 특정 시나리오에 국한, '과잉 사고' 문제.
  • 핵심 가설:
    • 영감: 분류기 없는 안내(CFG) 기법. 성능 향상의 원인은 정교한 규칙이 아닌 '2배의 연산량' 자체일 수 있음.
    • 가설: 파라미터를 거의 유지하며 병렬 연산을 확장하는 것은 파라미터 확장과 유사한 성능 향상 효과를 낳는다.
  • PARSCALE 소개 및 주요 발견:
    • 새로운 스케일링 법칙: 병렬 연산(P)과 파라미터(N)의 정량적 관계(O(logP)) 규명.
    • 추론 집약적 작업 강점: 코딩, 수학 등에서 효과가 더 커 '연산'이 '추론 능력'과 관련 깊음을 시사.
    • 추론 효율성: 저자원 환경 배포 가능성.
    • 2단계 학습 전략: 전체 데이터의 2%만으로 PARSCALE을 적용해 학습 비용 해결.
    • 동적 병렬 스케일링: 추론 시나리오에 따라 P값을 동적으로 조절 가능.
  • Table 1
    • 추론 시간 (Inference Time): 😐 보통 (Moderate)
      • 병렬 처리로 인한 시간 증가가 크지 않아 Inference-Time Scaling보다 빠름
    • 추론 공간 (Inference Space): 😐 보통 (Moderate)
      • 모델 크기는 그대로이고 KV 캐시만 늘어나기 때문에 Dense나 MoE 모델보다 효율적
    • 훈련 비용 (Training Cost): 😄 낮음 (Pre- or Post-training)
      • 처음부터 훈련할 수도 있고, 기존 모델에 적용하는 것도 가능
    • 특화 전략 (Specialized Strategy): 😄 없음 (No)
      • 다른 방법들처럼 복잡한 부하 분산이나 특수한 보상 데이터가 필요 없이 범용적으로 적용
  • Parallel Scaling (PARSCALE, 병렬 스케일링)

2. Background and Methodology

  • 개념적 기원 (CFG에서 PARSCALE로):
    • CFG의 성능 향상 원인을 '연산량 증가'로 재해석.
    • CFG의 고정된 규칙을 P개의 스트림을 사용하는 학습 가능하고 확장 가능한 프레임워크로 일반화.
  • 구현 세부사항:
    • 입력 변환:
      • 목표: 각 병렬 스트림이 입력에 대해 서로 다른 "관점"을 갖도록 유도.
      • 채택 방식: 접두사 튜닝(Prefix Tuning). 각 스트림에 고유한 접두사를 할당하여 다양한 출력 생성.
      • 핵심: 특정 구현 방식보다 '병렬 연산' 원리 자체가 중요.
    • 출력 집계:
      • 목표: P개의 출력을 동적으로 통합.
      • 채택 방식: MLP 네트워크를 통해 각 스트림의 가중치를 동적으로 계산 후 가중 평균.
      • 문제 해결: 학습 초기 '로드 불균형' 현상은 레이블 스무딩(label smoothing)으로 해결.

3. Parallel Scaling Law

3.1 Theoretical Analysis: Can PARSCALE Achieve Similar Effects as Parameter Scaling?

  • 이론적 분석:
    • Chinchilla 스케일링 법칙 확장.
    • 모델 성능은 병렬 스트림 수(P)와 스트림 간의 다양성(DIVERSITY)에 의해 결정.
  • Figure 2두 개의 데이터셋에 대해, 모델의 크기와 병렬 스트림 수(P)를 바꿔가며 훈련했을 때의 최종 손실 값
  • 모델 크기와 병렬 스트림 수에 따른 Loss
  • 그래프
    • 왼쪽 그래프: Stack-V2-Python 데이터셋에서의 결과. (주로 코딩과 논리적 추론 능력)
    • 오른쪽 그래프: The Pile 데이터셋에서의 결과. (일반 상식과 암기 능력)
    • X축 (Parameters): 모델의 크기
    • Y축 (Loss): 훈련 후의 손실 값
    • 선 (Lines): 이 점들을 바탕으로 논문에서 제안한 스케일링 법칙 수식(Equation 5)에 맞춰 피팅(fitting)한 예측선입니다. 점들이 선에 가깝게 붙어있을수록 예측이 정확하다는 의미입니다.
  • 해석
    1. PARSCALE이 실제로 모델 성능을 향상시킨다는 것에 대한 실험적 증명
    2. 스케일링 법칙의 높은 정확도 (Goodness: R²)
      • Goodness: R² = 0.9978 (왼쪽), R² = 0.9987 (오른쪽)
      • 저자들이 제안한 병렬 스케일링 법칙이 실제 실험 결과를 거의 완벽하게 예측하고 있음을 제시
    3. 데이터셋 종류에 따른 PARSCALE 효과의 차이
      • k 값의 비교:
        • Stack-V2-Python: k = 0.3935
        • Pile: k = 0.3345
        k는 스케일링 법칙 수식에서 병렬 계산(log P)의 효과가 얼마나 큰지를 나타내는 계수
        • k 값이 더 크다는 것은 P를 키웠을 때 Loss 감소의 폭이 더 크다는 것을 의미
        • 따라서, 코딩과 추론 능력을 요구하는 Stack-V2-Python 데이터셋이 일반 상식을 요구하는 Pile 데이터셋보다 PARSCALE의 효과를 더 크게 받는다
    4. 두 그래프의 피팅된 매개변수(E, A, k, α)를 비교
    5. 계산은 추론 능력을, 매개변수는 암기 능력을 향상시킨다
      • 병렬 계산: 논리적 추론(reasoning) 능력을 향상시키는 데 효과적
      • 매개변수: 암기(memorization) 능력을 향상시키는 데 효과적

3.2 Practical Parallel Scaling Laws

  • 실질적인 병렬 스케일링 법칙:
    • 대규모 실험 결과, P가 증가할수록 손실이 로그(log) 형태로 감소.
    • 법칙 수립: L = (A / N⋅(klogP+1))^a + E
    • 의미: P개의 병렬 스트림 사용 ≈ 유효 파라미터 $(k \log P + 1)$배 증가 효과.
    • k 값의 의미: 병렬 연산의 이점. 추론/코딩 데이터(Stack-V2)에서 일반 데이터(Pile)보다 k값이 높게 나옴.
    • 시사점: 파라미터(N)는 '기억력', 병렬 연산(P)은 '추론 능력'에 더 큰 영향.
  • Figure 3
  • PARSCALE의 Loss 등고선 그래프
  • 그래프
    • X축 (Scaling Parameters): 모델의 크기
    • Y축 (Scaling Computation): 병렬 계산
    • 등고선 (Contour Lines): 같은 수준의 성능(Loss 값)을 내는 (매개변수, P) 조합들을 연결한 선
    • 색상: 색이 밝을수록(오른쪽 위로 갈수록) Loss가 낮아져 성능이 더 좋음, 색이 어두울수록(왼쪽 아래로 갈수록) Loss가 높아 성능이 더 나쁨.
  • 해석
    1. 성능 달성을 위한 두 가지 경로: '매개변수' vs '계산'
    • 예시) 왼쪽(Stack-V2-Python) 그래프에서 Loss 약 1.02을 달성하고 싶다고 가정
      • 방법 A (계산을 적게 쓰는 대신 모델을 키우기): 크기=2.0B, P=2
      • 방법 B (모델을 작게 쓰는 대신 계산을 늘리기): 크기=1.1B, P=8
    2. 더 큰 모델일수록 PARSCALE의 효과가 극대화
    • 작은 모델 (예: 0.7B): 등고선이 매우 가파름. (Y축(계산)을 조금만 올려도(P를 1에서 2로) 성능이 크게 향상됨)
    • 큰 모델 (예: 4.4B): 등고선이 점점 완만해짐. (Y축을 올릴 때 성능 향상 폭이 훨씬 더 커진다는 것을 의미)
    • 같은 P 증가라도 더 큰 모델일 수록 훨씬 더 큰 성능 향상을 가져온다.
    1. 데이터셋에 따른 효과 차이 재확인
    • Stack-V2-Python (추론): 등고선들이 Y축 방향으로 더 넓게 퍼져 있음 → 계산(P)을 늘리는 것이 성능 향상에 더 큰 기여
    • Pile (암기): 등고선들이 상대적으로 더 촘촘함 → 왼쪽 그래프만큼 극적이지는 않음
    • Table 2 & 3다운스트림 태스크 평균 성능
  • 표 구성
    • 가로축 (N): 모델의 크기
    • 세로축 (P): 병렬 스트림의 수
    • 숫자: 각 태스크에서의 성능 점수(%)
    • 배경색: 점수가 높을수록 파란색이 진해짐
  • 표2 해석 (HumanEval(+), MBPP(+) 두 가지의 코드 생성 벤치마크 평균 점수)
    • 병렬 계산의 효과가 매우 크다
      • 1.6B (P=8) 모델의 성능(39.1)은 4.4B (P=1) 모델의 성능(39.2)과 거의 동일
      • 즉, 1.6B 모델에 PARSCALE (P=8)을 적용하면, 그보다 약 3배 더 큰 4.4B 모델과 맞먹는 코드 생성 능력을 갖게 됨을 의미
      • 추론 능력이 중요한 태스크에서 병렬 계산의 효과가 매우 강력하다는 것을 뒷받침
  • 표3 해석 (6가지 lm-evaluation-harness 일반 상식 태스크 평균 성능)
    • 병렬 계산의 효과가 상대적으로 작음
      • 1.6B (P=8) 모델의 성능 (55.7)을 보면, 이 점수는 2.8B (P=1) 모델의 성능 (55.2)과 비슷함
      • 표 2(코드 생성)에서는 1.6B(P=8)이 4.4B(P=1) 모델과 맞먹었던 반면, 여기서는 2.8B 모델 수준에 그침
      • 일반 상식이나 암기가 중요한 태스크에서는 병렬 계산의 효과가 추론 태스크만큼 크지는 않다는 것을 의미
  • 종합
    • 추론 집약적 태스크 (표 2, 코드 생성): 병렬 계산(P 증가)의 효과가 매우 커서, 작은 모델도 큰 모델의 성능을 따라잡을 수 있음
    • 암기 집약적 태스크 (표 3, 일반 상식): 병렬 계산의 효과가 여전히 존재하지만, 추론 태스크만큼은 아님. 모델의 크기(더 많은 지식을 저장할 공간)를 늘리는 것이 여전히 중요

3.3 Inference Cost Analysis

  • 추론 비용 분석:
    • 메모리 효율성: 파라미터 재사용으로 메모리 증가 미미.
    • 지연 시간 효율성: GPU 친화적 병렬 연산으로 지연 시간 증가 최소화.
    • 결론: 동일 성능 달성 시, 파라미터 스케일링 대비 압도적으로 효율적.
  • Figure 4위쪽 4개는 메모리 효율성을, 아래쪽 4개는 시간(지연 시간) 효율성
  • 각 열은 배치 사이즈가 1, 2, 4, 8일 때의 상황
  • 추론 시공간 비용에 따른 모델 성능 스케일링
  • 그래프 구성
    • Y축 (Loss): 모델의 성능
    • X축:
      • (a)-(d) 그래프: GPU 메모리 (GB) 사용량
      • (e)-(h) 그래프: 지연 시간 (Latency, 초)
    • 파란색 화살표: 매개변수 스케일링(Parameter Scaling) 경로. 즉, 모델 크기를 1.6B → 2.8B → 4.4B로 키우는 전략
    • 회색 화살표: 병렬 스케일링(Parallel Scaling) 경로. 즉, 모델 크기는 1.6B, 2.8B, 4.4B 중 하나로 고정한 채, 병렬 스트림(P)을 1 → 2 → 4 → 8로 늘리는 전략
  • 그래프 해석: 위쪽 줄 (a-d) - 메모리 효율성
    1. 배치 사이즈 1 (a):
      • 목표: Loss를 약 1.08에서 1.04로 낮추기.
      • 매개변수 스케일링: 1.6B 모델(약 3.5GB) → 2.8B 모델(약 5.8GB), 약 2.3GB의 메모리가 추가로 필요
      • PARSCALE: 1.6B 모델에서 P=1 → P=4, 메모리 사용량이 거의 변하지 않음 (약 0.1GB 증가, 추가되는 KV 캐시의 크기는 모델 가중치 증가량에 비해 무시할 만큼 작음)
    2. 배치 사이즈 증가 (b, c, d):
      • 배치 사이즈가 커질수록 모든 경로에서 메모리 사용량이 전반적으로 증가
      • 어떤 배치 사이즈에서도 PARSCALE 경로(회색 화살표)는 거의 수직으로 아래로 향함 → ****P를 늘려도 메모리 증가량이 매우 작다는 사실이 배치 사이즈에 관계없이 유지된다.
      • 반면 파란색 화살표는 항상 오른쪽으로 크게 이동하므로, 매개변수 스케일링은 항상 막대한 메모리 비용을 수반한다.
  • 그래프 해석: 아래쪽 줄 (e-h) - 지연 시간 비용
    1. 배치 사이즈 1 (e):
      • 목표: Loss를 약 1.08에서 1.04로 낮추기.
      • 매개변수 스케일링: 1.6B 모델(약 0.45초) → 2.8B 모델(약 0.85초), 지연 시간이 약 0.4초 증가
      • PARSCALE: 1.6B 모델에서 P=1 → P=4, 지연 시간이 약 0.45초에서 0.52초로 약 0.07초 증가
    2. 배치 사이즈 증가 (f, g, h):
      • 배치 사이즈가 1일 때는 회색 화살표(PARSCALE)가 거의 수직에 가까웠지만, 배치 사이즈가 8로 커지면 회색 화살표도 오른쪽으로 더 많이 이동하며 기울기가 완만해짐
      • 이유: 작은 배치 사이즈에서는 추론 병목이 메모리 대역폭(memory-bound)에 있어, 계산을 늘려도(P 증가) GPU의 남는 계산 능력을 활용하므로 시간 증가가 적음. 하지만 배치 사이즈가 커지면 병목이 순수 계산 능력(compute-bound)으로 전환. 이 상태에서는 계산량을 늘리는(P 증가) 것이 직접적으로 시간 증가로 이어짐.
      • 결론: 그럼에도 불구하고, 배치 사이즈 8까지도 여전히 PARSCALE이 매개변수 스케일링보다 더 나은 시간 효율성을 보임
  • 결론 및 시사점
    • PARSCALE이 자원이 제한적인 환경에서 매우 강력한 잠재력을 가지고 있음을 증명 (예: 저자원 엣지 디바이스)
    • 이러한 환경은 메모리가 매우 제한적이고, 보통 배치 사이즈 1로 작동
    • (a)와 (e)는 이 시나리오에서 PARSCALE이 최소한의 메모리와 시간 비용으로 성능을 극대화할 수 있는 거의 유일한 선택지

4. Scaling Training Data

4.1 Two-Stage Pretraining

  • 2단계 사전 학습 전략:
    • 문제: 학습 시 연산량 P배 증가로 인한 비용.
    • 해결책:
      • 1단계: 대부분의 데이터로 표준 학습(P=1).
      • 2단계: 소량의 데이터(2%)로 PARSCALE 학습(P>1).
    • 결과: 매우 효과적. 적은 데이터로도 병렬 추론 능력을 빠르게 학습.
  • Table 4→ "그래서 실제 상용 모델 수준의 대규모 데이터(1T 토큰)로 훈련해도 PARSCALE이 효과가 있는가?"이 표는 1.8B 크기의 모델들을 1조(1T) 개의 토큰으로 훈련시킨 후, 다양한 벤치마크에서의 성능을 비교
  • Two-Stage 전략으로 1T 토큰 학습 후 1.8B 모델 성능 비교
  • PARSCALE의 실용성확장성을 검증.
  • 표 구성
    • 위쪽: 일반(General) 언어 능력 벤치마크 점수. MMLU, WinoGrande 등의 태스크를 포함
    • 아래쪽: 수학(Math) 및 코드(Code) 생성 능력 벤치마크 점수. GSM8K, HumanEval 등 추론 능력을 평가
    • 행:
      • 위쪽 그룹 (gemma, Llama, ...): Baseline 비교군
      • 아래쪽 그룹 (Baseline, PARSCALE): 동일한 1.8B 모델과 1T 토큰 데이터로 훈련하되, 병렬 스트림(P)만 1, 2, 4, 8로 늘렸을 때의 성능 변화
    • 열:
      • Tokens: 훈련에 사용된 총 토큰 수
      • Data: 훈련 데이터의 Public / Private 여부
      • Average (General, Math, Code): 각 카테고리의 평균 점수
      • 개별 벤치마크 (MMLU, GSM8K, ...): 각 벤치마크의 세부 점수(@1은 한 번에, @10은 10번 시도 중 한 번이라도 맞춘 비율)
  • 표 해석
    1. 대규모 데이터에서도 PARSCALE의 효과는 일관됨
      • Average 점수:
        • General: P=1(56.0) → P=8(58.6)으로 2.6%p 상승
        • Math: P=1(25.5) → P=8(32.8)으로 7.3%p 상승
        • Code: P=1(45.6) → P=8(49.9)으로 4.3%p 상승
      • P가 1에서 8로 증가함에 따라 모든 카테고리에서 성능이 꾸준히 향상됨
    2. 계산은 추론 능력을 향상시킨다.
      • 성능 향상 폭 비교: 일반 능력(General)이 2.6%p 향상될 때, 수학(Math) 능력은 7.3%p로 훨씬 더 극적으로 향상됨. 코드(Code) 능력도 4.3%p로 유의미하게 향상됨.
      • 세부 벤치마크 보기 (GSM8K)
        • GSM8K는 초등학교 수학 문제로, 복잡한 단계적 추론을 요구함.
        • Baseline (P=1)의 점수는 28.7점인데, PARSCALE (P=8)은 38.4점으로 약 10%p (상대적 성능 향상 34%) 급상승
    3. 추론 시간 스케일링과의 시너지 효과
      • GSM8K vs GSM8K+CoT
        • PARSCALE (P=8) 모델의 GSM8K 점수는 38.4점입니다.
        • 여기에 추론 시간 스케일링 기법 CoT을 추가로 적용하자, 점수가 43.7점으로 더 상승
      • PARSCALE과 CoT가 서로 배타적인 관계가 아니라, 함께 사용될 때 더 큰 시너지 효과를 낼 수 있음을 시사
    4. 2단계 훈련 전략의 실용성 검증
    • Figure 5 & Table 5
  • "PARSCALE의 높은 훈련 비용을 어떻게 해결할 것인가?”
  • "PARSCALE은 Pre-training뿐만 아니라, Instruction Tuning 단계에서도 효과적인가?"
  • Figure 5: two-stage training의 loss curve
  • 그래프 구성:
    • X축 (Training Tokens): 훈련에 사용된 토큰
    • Y축 (Loss): 모델의 손실 값
    • Stage 1: normal pre-training (1T tokens):
      • 전체 훈련 과정의 대부분(1조 토큰, 전체의 98%)을 차지하는 첫 번째 단계이다. 이 단계에서는 일반적인 방식(P=1)으로 모델을 훈련한다. (그래프에서 0.0T부터 1.0T까지 파란색 단일 선으로 표시)
    • Stage 2: parallel scaling training (20B tokens):
      • 전체 훈련 과정의 마지막 일부(200억 토큰, 전체의 2%)를 차지하는 두 번째 단계이다. 1단계에서 훈련된 모델을 가져와서, PARSCALE 방식(P>1)으로 추가 훈련을 진행한다.
    • 확대된 그래프:
      • 2단계가 시작되는 1.0T 지점을 확대한 것으로, P=1, 2, 4, 8에 대한 손실 곡선을 각각 다른 색으로 시각화
  • 그래프 해석:
    1. 적은 데이터로 빠른 적응
      • 2단계 시작 직후(확대된 그래프의 1.0002T 지점), P>1 모델들의 손실(Loss)이 P=1 모델보다 일시적으로 급증하는데, 이는 무작위로 초기화된 PARSCALE 관련 파라미터(Prefix Token) 때문에 발생하는 현상
      • 하지만 매우 적은 양의 데이터(0.0002T = 0.2B)만으로 새로운 파라미터에 빠르게 적응하고, 손실 곡선은 안정적으로 다시 내려옴
    2. 로그 성능 향상 패턴 유지
      • 안정화된 이후, 손실 곡선은 P가 클수록 더 낮아지는 로그(logarithmic) 성능 향상 패턴을 그대로 유지 (빨간선(P=8)이 가장 낮음)
      • 2단계 전략이 비용을 크게 절감하면서도, 처음부터 PARSCALE로 훈련한 것과 유사한 성능 향상 효과를 얻을 수 있음을 시사Table 5: Instruct Model 성능 비교
  • 사전 훈련을 마친 모델들을 "Instruction Following" 데이터로 파인튜닝했을 때의 성능
  • 표 구성
      • SmolLM-1.7B-Inst: 베이스라인 모델
      • Baseline-Inst (P=1): 2단계 전략으로 훈련된 모델을 일반적인 방식으로 파인튜닝한 결과
      • PARSCALE-Inst (P=2, 4, 8): 2단계 전략으로 훈련된 각 PARSCALE 모델을 파인튜닝한 결과
    • 열: 세 가지 대표적인 벤치마크 점수
      • IFEval: 모델이 지시를 얼마나 정확하게 따르는지 평가
      • MMLU: 종합적인 문제 해결 능력을 평가
      • GSM8K: 수학 추론 능력을 평가
  • 표 해석
    1. 파인튜닝 단계에서도 PARSCALE의 효과는 강력하다
      • P가 1에서 8로 증가함에 따라 모든 벤치마크에서 성능이 꾸준히 향상
      • IFEval: 54.1 → 59.5 (5.4%p 상승)
      • MMLU: 34.2 → 41.7 (7.5%p 상승)
      • GSM8K: 50.3 → 56.1 (5.8%p 상승)
    2. PARSCALE의 범용성
      • 특정 훈련 단계나 방식에 국한되지 않고, 사전 훈련부터 파인튜닝에 이르기까지 모델의 성능을 일관되게 향상시키는 범용적인 기술임을 보여줌
      • 특히 복잡한 지시를 이해하고 따르는 능력(IFEval)과 추론 능력(GSM8K, MMLU) 모두에서 큰 폭의 성능 향상을 이끌어냄

4.2 Applying to the Off-the-Shelf Pre-Trained Model

  • 기존 상용 모델에 적용:
    • 지속적 사전 학습: 이미 잘 학습된 모델(Qwen-2.5)도 성능 향상.
    • PEFT: 모델의 핵심 가중치를 고정한 채 PARSCALE 모듈만 미세 조정해도 효과적.
    • 가능성: '동적 병렬 스케일링' 패러다임 제시. 하나의 백본 모델로 다양한 성능/비용 요구에 유연하게 대응.
  • Figure 6기존 모델에 대한 PARSCALE 적용 결과
  • Qwen-2.5-3B 모델에 PARSCALE을 적용했을 때의 결과
  • "이미 잘 훈련된 기존 모델에 PARSCALE을 '플러그인'처럼 꽂아 성능을 향상시킬 수 있는가?"라는 활용 가능성
  • 그래프 (a) & (b): Continual Pre-training
    • 18T 토큰으로 훈련된 Qwen-2.5-3B 모델을 가져와서, Stack-V2-Python(a)과 Pile(b) 데이터셋으로 Continual Pre-training을 진행했을 때의 Loss 곡선
    • X축 (Training Tokens): 추가 훈련에 사용된 토큰의 양
    • Y축 (Training Loss): 훈련 손실 값
    • 해석:
      1. 성능 향상 여지: Qwen-2.5-3B는 이미 매우 많은 데이터로 훈련되었음에도 불구하고, 추가 훈련을 통해 손실 값이 계속해서 감소함 → 어떤 모델이든 특정 데이터셋에 대해 추가 학습을 통해 더 개선될 여지가 있음
      2. PARSCALE의 일관된 효과: 이 추가 훈련 과정에서도, P가 클수록(빨간선 P=8) 손실 값이 가장 낮게 유지됨
  • 그래프 (c): 모델 고정 후 파인튜닝 (Freezing the Model)
    • PARSCALE의 '동적 병렬 스케일링(Dynamic Parallel Scaling)' 가능성을 보여주는 부분
    • Qwen-2.5-3B 모델의 backbone 가중치는 freeze, PARSCALE을 적용하면서 새롭게 추가된 아주 작은 파라미터(접두사 토큰, 집계 가중치)만 파인튜닝했을 때의 코드 생성 성능을 보여줌
    • X축 (P): 병렬 스트림의 수
    • Y축 (Performance %): 코드 생성 벤치마크(HumanEval+, MBPP+)의 평균 성능 점수
    • Pass@1 / Pass@10: 각각 한 번의 시도 / 열 번의 시도에서의 성공률
    • 해석:
      1. 극적인 성능 향상: 모델의 99.9% 이상을 차지하는 거대한 본체를 전혀 건드리지 않고, 단지 0.1%도 안 되는 작은 파라미터만 훈련했음에도 불구하고 성능이 극적으로 향상
        • Pass@1: P=1일 때 47.4%였던 성능이 P=8에서는 53.0%로 상승
        • Pass@10: P=1일 때 73.1%였던 성능이 P=8에서는 78.2%로 상승
      2. P가 클수록 성능이 좋다: 이 파인튜닝 방식에서도 P가 증가함에 따라 성능이 꾸준히 향상되는 일관된 패턴을 보임
  • 동적 병렬 스케일링 (Dynamic Parallel Scaling)이처럼, 여러 개의 다른 크기 모델을 유지하고 관리할 필요 없이, 단일 모델로 상황에 따라 '일반 모드'와 '고성능 모드'를 자유롭게 오갈 수 있다. 이는 모델 배포와 운영의 유연성과 효율성을 극대화할 수 있다.

"하나의 잘 훈련된 모델만 배포해두고, 실제 서비스 환경의 요구에 따라 P 값을 실시간으로 바꿔가며 모델의 성능 수준을 동적으로 조절할 수 있다."

  • 결론
    1. 이미 존재하는 강력한 모델을 추가적으로 더 강하게 만들 수 있고,
    2. 심지어 기존 모델을 전혀 수정하지 않고 '부가 기능'처럼 장착하여 성능을 크게 향상시킬 수 있으며,
    3. 이를 통해 하나의 모델로 다양한 성능 수준을 동적으로 제공하는 유연한 서비스가 가능

5. Related Work

  • Inference Time Scaling: 직렬적 연산 확장과 달리 PARSCALE은 병렬적 확장으로 지연 시간 최소화.
  • Classifier Free Guidance(CFG): PARSCALE은 CFG의 일반화되고 학습 가능한 버전.
  • Model Ensemble: PARSCALE은 파라미터를 공유하는 앙상블 형태로, 비용 효율적.
  • LLM Scaling Raw: 기존의 파라미터(N), 데이터(D)에 병렬 연산(P)이라는 제3의 변수 추가.

6. Discussion and Future Work

  • 추론 최적 모델: 주어진 '추론' 예산 하에서 최적의 (N,P) 조합을 찾는 연구.
  • 이론적 심화: klogP 관계의 근본 원인 및 성능 상한선 탐구.
  • PARSCALE과 MoE 결합: 메모리 효율적인 PARSCALE과 지연 시간 효율적인 MoE의 장점을 결합한 하이브리드 아키텍처 연구.
  • 타 도메인 확장: 컴퓨터 비전, 음성 인식 등 다른 분야로의 적용.

7. Conclusions

  • 핵심 요약: PARSCALE은 기존 파라미터를 재사용하여 병렬 연산을 확장하는 혁신적이고 효율적인 스케일링 패러다임.
  • 핵심 기여: 병렬 스케일링 법칙(P 스트림 ≈ O(NlogP) 파라미터) 수립 및 검증.
  • 주요 특징: 추론 집약적 작업에 강점, 뛰어난 추론 효율성, 2단계 학습 및 동적 스케일링을 통한 실용성 확보.
  • 미래 가치: 저자원 및 엣지 디바이스 환경에서 고성능 AI를 구현할 핵심 기술로 부상할 잠재력.
728x90