OtterLM-Indo-110Million

OtterLM Llama-fied GPT-2 with blocksize 2048 — tiny Indonesian language model (110M parameters) trained from scratch with modern tweaks (RoPE embeddings, SwiGLU, RMSNorm, etc.) inspired by Llama architecture.

Dataset Used

============================================================
✅ INDO4B-PLUS TOKEN COUNT ESTIMATE
============================================================
Dataset size:      ~4.3 GB raw text
Character count:   ~4,300,000,000
Token density:     0.1856 tokens/char
TOTAL TOKENS:      ~798,291,577
============================================================

Model Details

  • Parameters: 110 million
  • Architecture: Decoder-only transformer, Llama-fied GPT-2 style, context length 2048 tokens
  • Tokenizer: Custom BPE (details: vocab size ~32k/50k?, trained on Indo corpus)
  • Training Data: Primarily taufiqdp/Indo4B-Plus (~4B+ words, mixed formal/noisy Indo text + Sundanese/Javanese)
  • Tokens Trained So Far: ~100 million tokens (ongoing continued pretraining, target full pass ~796M tokens)
  • Hardware: Dual T4 GPUs, gradient accumulation, mixed precision
  • Current Status: Early-mid training phase — outputs still chaotic/absurd but improving gradually

Intended Use & Limitations

  • Experimental tiny LM for Indonesian language research/personal fun.
  • Good for: Studying scaling in low-resource languages, absurd humor generation, base for future SFT/DPO/tetralemma fine-tuning.
  • Not good for: Production use, factual accuracy, coherent long-form generation (yet).
  • Known issues: High repetition, semantic collapse, factual hallucinations — classic undertrained symptoms.

Progress:

Training Progress: 50 million Token (Done) Current Progress: 100 million Token (In Progress)

50 Million Token Test Inference:

Prompt: Indonesia adalah negara
Output:  Indonesia adalah negara yang memiliki kapasitas yang sama.
------------------------------
Prompt: Presiden pertama Indonesia
Output:  Presiden pertama Indonesia, dengan nada-ada dan nada-kanggil dengan suara yang keras, aimar.com  jokowi  presiden kembali melakukan aksi protes saat memberikan dukungan dari jokowi di ajang pameran, senin (9/3/2018).
------------------------------
Prompt: Cara memasak nasi goreng
Output:  Cara memasak nasi goreng dengan menggunakan kain.
------------------------------
Prompt: Di sebuah desa yang jauh,
Output:  Di sebuah desa yang jauh, kota yang jauh dari kota yang sama, kota dan di daerah terpencil.
------------------------------
Prompt: Saya makan 
Output:  Saya makan 
------------------------------
Prompt: Indonesia adalah negara
Output:  Indonesia adalah negara yang memiliki banyak pengalaman dalam sehari-hari.
------------------------------
Prompt: Presiden pertama Indonesia
Output:  Presiden pertama Indonesia tidak ingin memberikan agar anda dapat menemukan berbagai kategori produk yang tepat untuk anda.
------------------------------
Prompt: Cara memasak nasi goreng
Output:  Cara memasak nasi goreng, ini adalah momen dimana anak-anak banyak yang malas dan terasa berat.
------------------------------
Prompt: Di sebuah desa yang jauh,
Output:  Di sebuah desa yang jauh, tepat pada hari minggu, (23/9).
------------------------------
Prompt: Saya makan 
Output:  Saya makan  biasanya ada banyak cara untuk bisa mengkonsumsinya.
------------------------------
Prompt: Kerajaan majapahit berdiri
Output:  Kerajaan majapahit berdiri, di mana para siswa kelas 5 sampai dua atau dua kelas.
------------------------------
Prompt: Anak anak suka makan
Output:  Anak anak suka makan, rasanya masih enak.
------------------------------
Prompt: Aku lelah bersama mu lebih baik kita
Output:  Aku lelah bersama mu lebih baik kita melihat ke rumah tetangga yang berada di lantai atas monas.
------------------------------
Prompt: Mengapa aku sedih ketika bersama mu
Output:  Mengapa aku sedih ketika bersama mu, tiba-tiba aku menemukan air mata yang tak bisa ditebak sebelumnya.
------------------------------
Prompt: Saya makan pakai
Output:  Saya makan pakai bawang putih, namun setelah itu agak terlalu banyak.
------------------------------

Update for another progress.

In Progress.

Downloads last month

-

Downloads are not tracked for this model. How to track
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Dataset used to train RinKana/OtterLM-Indo-110Million