Model Card

모델 개요

이 모델은 **bert-base-uncased**를 기반으로 파인튜닝한 텍스트 분류 모델입니다. 데이터셋으로는 AG News를 사용하였으며, 총 4개의 카테고리(세계뉴스, 스포츠, 비즈니스, 과학/기술)로 분류할 수 있습니다.

베이스 모델: bert-base-uncased
파인튜닝 데이터: AG News
태스크(Task): 텍스트 분류 (4-class classification)
라벨(Label) 정의:
- 0: 세계뉴스 (World News)
- 1: 스포츠 (Sports)
- 2: 비즈니스 (Business)
- 3: 과학/기술 (Sci/Tech)

사용 방법

from transformers import AutoTokenizer, AutoModelForSequenceClassification
import torch

# 모델 로드
model_name = "blockenters/bert-based-uncased-agnews4-v01"
tokenizer = AutoTokenizer.from_pretrained(model_name)
model = AutoModelForSequenceClassification.from_pretrained(model_name)

# 입력 예시
text = "NASA launches a new satellite into space"
inputs = tokenizer(text, return_tensors="pt")

# 추론
with torch.no_grad():
    outputs = model(**inputs)
    predictions = torch.argmax(outputs.logits, dim=-1)

print("Predicted label:", predictions.item())

성능

평가 데이터셋: AG News test set
메트릭: Accuracy
결과 (예시 값, 직접 측정해서 채워주세요):
- Accuracy: 0.86
- F1-score (weighted): 0.86

활용 사례

뉴스 기사 자동 분류
뉴스 추천 시스템의 전처리 단계
토픽 기반 텍스트 분석

제한 사항

영어 데이터셋(AG News)로 학습했기 때문에 영어 텍스트 분류에 최적화됨
다른 언어 텍스트에는 성능이 떨어질 수 있음
최신 뉴스 이벤트에 대한 학습은 포함되어 있지 않음

라이선스

베이스 모델(bert-base-uncased)의 라이선스는 Apache 2.0입니다.
AG News 데이터셋은 open dataset으로 공개되어 있습니다.

Downloads last month: 6

Safetensors

Model size

0.1B params

Tensor type

F32

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support