OtterLM-Indo-110Million
OtterLM Llama-fied GPT-2 with blocksize 2048 — tiny Indonesian language model (110M parameters) trained from scratch with modern tweaks (RoPE embeddings, SwiGLU, RMSNorm, etc.) inspired by Llama architecture.
Dataset Used
============================================================
✅ INDO4B-PLUS TOKEN COUNT ESTIMATE
============================================================
Dataset size: ~4.3 GB raw text
Character count: ~4,300,000,000
Token density: 0.1856 tokens/char
TOTAL TOKENS: ~798,291,577
============================================================
Model Details
- Parameters: 110 million
- Architecture: Decoder-only transformer, Llama-fied GPT-2 style, context length 2048 tokens
- Tokenizer: Custom BPE (details: vocab size ~32k/50k?, trained on Indo corpus)
- Training Data: Primarily taufiqdp/Indo4B-Plus (~4B+ words, mixed formal/noisy Indo text + Sundanese/Javanese)
- Tokens Trained So Far: ~100 million tokens (ongoing continued pretraining, target full pass ~796M tokens)
- Hardware: Dual T4 GPUs, gradient accumulation, mixed precision
- Current Status: Early-mid training phase — outputs still chaotic/absurd but improving gradually
Intended Use & Limitations
- Experimental tiny LM for Indonesian language research/personal fun.
- Good for: Studying scaling in low-resource languages, absurd humor generation, base for future SFT/DPO/tetralemma fine-tuning.
- Not good for: Production use, factual accuracy, coherent long-form generation (yet).
- Known issues: High repetition, semantic collapse, factual hallucinations — classic undertrained symptoms.
Progress:
Training Progress: 50 million Token (Done) Current Progress: 100 million Token (In Progress)
50 Million Token Test Inference:
Prompt: Indonesia adalah negara
Output: Indonesia adalah negara yang memiliki kapasitas yang sama.
------------------------------
Prompt: Presiden pertama Indonesia
Output: Presiden pertama Indonesia, dengan nada-ada dan nada-kanggil dengan suara yang keras, aimar.com jokowi presiden kembali melakukan aksi protes saat memberikan dukungan dari jokowi di ajang pameran, senin (9/3/2018).
------------------------------
Prompt: Cara memasak nasi goreng
Output: Cara memasak nasi goreng dengan menggunakan kain.
------------------------------
Prompt: Di sebuah desa yang jauh,
Output: Di sebuah desa yang jauh, kota yang jauh dari kota yang sama, kota dan di daerah terpencil.
------------------------------
Prompt: Saya makan
Output: Saya makan
------------------------------
Prompt: Indonesia adalah negara
Output: Indonesia adalah negara yang memiliki banyak pengalaman dalam sehari-hari.
------------------------------
Prompt: Presiden pertama Indonesia
Output: Presiden pertama Indonesia tidak ingin memberikan agar anda dapat menemukan berbagai kategori produk yang tepat untuk anda.
------------------------------
Prompt: Cara memasak nasi goreng
Output: Cara memasak nasi goreng, ini adalah momen dimana anak-anak banyak yang malas dan terasa berat.
------------------------------
Prompt: Di sebuah desa yang jauh,
Output: Di sebuah desa yang jauh, tepat pada hari minggu, (23/9).
------------------------------
Prompt: Saya makan
Output: Saya makan biasanya ada banyak cara untuk bisa mengkonsumsinya.
------------------------------
Prompt: Kerajaan majapahit berdiri
Output: Kerajaan majapahit berdiri, di mana para siswa kelas 5 sampai dua atau dua kelas.
------------------------------
Prompt: Anak anak suka makan
Output: Anak anak suka makan, rasanya masih enak.
------------------------------
Prompt: Aku lelah bersama mu lebih baik kita
Output: Aku lelah bersama mu lebih baik kita melihat ke rumah tetangga yang berada di lantai atas monas.
------------------------------
Prompt: Mengapa aku sedih ketika bersama mu
Output: Mengapa aku sedih ketika bersama mu, tiba-tiba aku menemukan air mata yang tak bisa ditebak sebelumnya.
------------------------------
Prompt: Saya makan pakai
Output: Saya makan pakai bawang putih, namun setelah itu agak terlalu banyak.
------------------------------
Update for another progress.
In Progress.
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support