JINSOO LLM 1B - Korean Language Model

모델 설명

국립창원대학교 IBDP 연구실에서 실험용으로 개발한 한국어 1B 파라미터 언어 BASE 모델입니다. 개인 프로젝트 데이터 수집의 어려움으로 토크나이저는 beomi/KoAlpaca-Polyglot-5.8B 를 사용하였습니다. 그 외에는 PyTorch로 직접 구현한 Transformer 기반 디코더 모델입니다.

위치 인코딩의 영향을 보기 위해 RoPE를 제거하고 아무것도 사용하지 않았습니다. 향후 V2버전에서는 위치 인코딩을 추가하여 SFT를 위한 완전한 BASE모델을 구축할 예정입니다.

학습 토큰은 약 ~13B 으로 약간 언더트레이닝 되었으며 마지막에 고품질 데이터로 출력 분포만 살짝 다듬었습니다

RMSNorm: 효율적인 정규화 레이어
SwiGLU: 개선된 활성화 함수 (FFN multiplier = 3x)
Flash Attention: 메모리 효율적 어텐션 메커니즘
Weight Tying: 임베딩/출력 레이어 가중치 공유
Causal Masking: 자기회귀적 텍스트 생성

모델 구조

Parameters: ~1.37B
Architecture: Custom decoder-only transformer (PyTorch 구현)

Hyperparameters:
  hidden_size: 2048
  num_hidden_layers: 24
  num_attention_heads: 16
  intermediate_size: 6144
  max_position_embeddings: 2048
  vocab_size: 30004

사용 방법

기본 추론

from transformers import AutoModelForCausalLM, AutoTokenizer
import torch

# 모델 및 토크나이저 로드
model = AutoModelForCausalLM.from_pretrained(
    "DokHee/jinsoo-llm-1b-korean",
    torch_dtype=torch.bfloat16,
    device_map="auto",
    trust_remote_code=True
)
tokenizer = AutoTokenizer.from_pretrained("DokHee/jinsoo-llm-1b-korean")

# 텍스트 생성
prompt = "1,2,3,4"
# response : 1,2,3,4,5,6,7,8,9,10,12,13,14,15,16,17,18,19,20,21,22,23,24,25,26,27,28,29,30,31,32,33,34,35,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,51,52,53,63,64,65,66,67,68,69,70,71,72,73,74,75,76,77,78


# prompt = "사람의 심장병은 "
# response : 사람의 심장병은 β 아미노계 의 면역체계가 과도하게 활성화되어 있어 노화가 진행되면 세포가 죽게 되고, 이는 세포가 죽게 되어 세포가 죽게 되는 것이다.
# 이러한 노화는 유전적, 환경적, 사회적 요인들로 인해 발생하며, 이러한 환경적 요인들은 노화 과정에서 발생하는 다양한 요인들을 포함한다.
# 노화 과정에서는 유전적, 환경적 요인들로 인해 발생하는 유전적 요인들이 복합적으로 작용하여 노화 과정을 가속화시키게 된다.
# 유전적 요인들은 유전 ... 

inputs = tokenizer(prompt, return_tensors="pt", return_token_type_ids=False).to(model.device)

outputs = model.generate(
    **inputs,
    max_new_tokens=128,
    temperature=0.56,
    top_p=0.9,
    do_sample=True,
    pad_token_id=tokenizer.pad_token_id,
)

print(tokenizer.decode(outputs[0], skip_special_tokens=True))

학습 정보

토크나이저: beomi/KoAlpaca-Polyglot-5.8B (PAD 토큰 추가)
학습 환경: NVIDIA GPU, PyTorch 2.7.0
혼합 정밀도: BFloat16
최적화: AdamW (lr=1e-5, weight_decay=0.01)
컨텍스트 길이: 2048 tokens

제한사항

이 모델은 한국어에 특화되어 있으며, 다른 언어에서는 성능이 저하될 수 있습니다
1B 파라미터로 대형 모델 대비 복잡한 추론 능력이 제한적일 수 있습니다
RoPE 및 기타 SFT, 후처리를 하지 않았으므로 한국어 생성은 가능하나 문맥 일관성이 없습니다.

라이선스

Apache 2.0

크레딧

토크나이저: beomi/KoAlpaca-Polyglot-5.8B
아키텍처: PyTorch로 직접 구현한 Transformer 기반 디코더

문의

이슈나 질문이 있으시면 모델 저장소에 이슈를 등록해주세요.

Downloads last month: 10

Safetensors

Model size

1B params

Tensor type

F32