Hot
-
RNN - Recurrent neural network based language model (2010) 논문리뷰 논문 링크: https://www.fit.vut.cz/research/group/speech/public/publi/2010/mikolov_interspeech2010_IS100722.pdfAbstractSOTA backoff 언어 모델 대비 혼란도(perplexity)를 약 50% 줄일 수 있다.음성 인식 실험에서 Wall Street Journal task에서 동일 데이터일 때 오류율 18% 감소, NIST RT05 task에서 더 적은 데이터로 오류율 5% 감소했다.모델 훈련시 높은 계산 복잡도를 가진다는 점을 제외하면, RNN은 표준 n-gram 기술에 비해 우수하다.1. IntroductionSequential data Prediction(순차적 데이터 예측)통계적 언어 모델링의 목표는 주어진 ..
-
PyTorch 입문 - Tensor 기본 함수와 연산 이해하기 PyTorch를 위한 배경지식표본분산연속 균등 분포표준 정규 분포상관 관계PyTorch 자료형과 TensorData Type텐서 생성시 다음과 같이 데이터 타입을 지정할 수 있다.t = torch.tensor(10.2, dtype=torch.float64)Type Casting (타입 변환)은 다음과 같다.Tensort = t.type(torch.IntTensor) # torch.FloatTensor, torch.DoubleTensor0D tensor (=Scalar)1D tensor (=Vector)2D tensor (=Matrix)3D tensor4,5,6...D tensorTensor Basic Functionsmin(), max(), sum(), prod(), mean(), var(), std()..
-
[회고] 2025년 1-2월부스트캠프네이버 부스트캠프 AI Tech 7기 NLP Track 교육을 마무리했다.교육은 1년이 지난 지금 시점에도 잘 들었다고 생각한다.양질의 강의와 커리튤럼, 같이 고민해주고 공유해주는 좋은 멘토님과 팀원들을 만날 수 있었다.학교로 돌아가야해서 기업 연계는 받지 못했다.3-4월스타트업 입사좋은 기회가 생겨 스타트업에 계약직으로 합류했다. 학교 다니면서 내 스케줄에 맞춰 출근할 수 있다는 점이 매력적이었다.포지션은 ML 백엔드 개발자였고, 주로 의료 데이터를 다루었다.머신러닝 예측 모델을 개발하고, 시각화 툴을 서버/클라이언트 구조로 전환 후 클라우드 마이그레이션하는 작업이었다.딥러닝논문읽기 스터디 참여평소 관심있게 보던 스터디그룹에 참여했다. 대학원에서 논문세미나 하는 것과 유사한 형태로 진행..
Lastest
-
[회고] 2025년 1-2월부스트캠프네이버 부스트캠프 AI Tech 7기 NLP Track 교육을 마무리했다.교육은 1년이 지난 지금 시점에도 잘 들었다고 생각한다.양질의 강의와 커리튤럼, 같이 고민해주고 공유해주는 좋은 멘토님과 팀원들을 만날 수 있었다.학교로 돌아가야해서 기업 연계는 받지 못했다.3-4월스타트업 입사좋은 기회가 생겨 스타트업에 계약직으로 합류했다. 학교 다니면서 내 스케줄에 맞춰 출근할 수 있다는 점이 매력적이었다.포지션은 ML 백엔드 개발자였고, 주로 의료 데이터를 다루었다.머신러닝 예측 모델을 개발하고, 시각화 툴을 서버/클라이언트 구조로 전환 후 클라우드 마이그레이션하는 작업이었다.딥러닝논문읽기 스터디 참여평소 관심있게 보던 스터디그룹에 참여했다. 대학원에서 논문세미나 하는 것과 유사한 형태로 진행.. -
MiniRAG: Extremely Simple Retrieval-Augmented Generation 논문 리뷰 ABSTRACT & INTRODUCTION문제 의식 (Problem Statement)기존 RAG 프레임워크는 주로 LLM(Large Language Models)에 의존하고 있어, 자원이 제한된 환경(엣지 디바이스 등)에서 SLM(Small Language Models)을 사용할 때 심각한 성능 저하가 발생한다.SLM은 복잡한 의미 이해(Semantic Understanding)와 텍스트 처리 능력이 부족하여 기존의 정교한 RAG 파이프라인(LightRAG, GraphRAG 등)을 소화하지 못한다.MiniRAG의 목표SLM의 제약 사항(제한된 추론 능력)을 고려하여 극도로 단순하고 효율적인 RAG 시스템을 설계한다.SLM이 복잡한 의미 이해는 못 해도 패턴 매칭은 잘한다는 점에 착안한다.핵심 솔루션복잡.. -
Parallel Scaling Law for Language Models 논문 리뷰 링크https://arxiv.org/abs/2505.10475 Parallel Scaling Law for Language ModelsIt is commonly believed that scaling language models should commit a significant space or time cost, by increasing the parameters (parameter scaling) or output tokens (inference-time scaling). We introduce the third and more inference-efficient scaling pararxiv.orghttps://github.com/QwenLM/ParScale GitHub - QwenLM/ParScal..
728x90