You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

google-gemma-2-2b — continued-pretraining A (segmentació nadiua (control), llavor 43)

⚠️ Artefacte de recerca, no un model de producció. Part 2 de l'estudi La morfologia no surt de franc.

Aquest model és google/gemma-2-2b sotmès a un continued-pretraining controlat sobre un subconjunt del corpus català projecte-aina/CATalog, amb la condició de segmentació A:

A — nadiua: tokenització estàndard del model (control).
B — morfèmica: cada paraula es pre-segmenta pels morfemes amb un segmentador de regles català (scripts/rule_seg.py) i s'empalma amb el mateix vocabulari.

A i B són idèntics en tota la resta (corpus, passos, LR); per a aquesta versió s'han executat múltiples llavors per donar potència estadística al test pareat dins de cada model. L'única variable de contrast és la segmentació.

Corbes d'entrenament

Detalls d'entrenament


model base	`google/gemma-2-2b`
condició	A — nadiua (control)
corpus	projecte-aina/CATalog (subconjunt)
tokens d'entrenament	24750000
èpoques	1.0
learning rate	2e-05
optimitzador	adamw_bnb_8bit (els pesos es mantenen en bf16)
perplexitat final (eval)	9.57
llavor	43

Estudi i reproducció

Codi, metodologia i resultats: https://github.com/xaviviro/la-morfologia-no-surt-de-franc
Llegeix-ne el README.md (en català) per al context complet (Part 1: geometria; Part 2: aquest reentrenament; Part 3: visió IE).

Citació

@misc{vinaixa2026morfologia,
  title        = {La morfologia no surt de franc: com la tokenitzaci\'o en
                  subparaules fractura la morfologia catalana},
  author       = {Vinaixa Rosell\'o, Xavier and Font Esp\'i, Mar\c{c}al},
  year         = {2026},
  institution  = {Sorensen AI, Barcelona},
  note         = {ORCID: 0009-0005-2769-9215},
  url          = {https://github.com/xaviviro/la-morfologia-no-surt-de-franc}
}

Downloads last month: 3

Safetensors

Model size

3B params

Tensor type

BF16

Inference Providers NEW

This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for xaviviro/morfo-part2-google-gemma-2-2b-A-s43

Base model

google/gemma-2-2b

Finetuned

(561)

this model