You need to agree to share your contact information to access this model

This repository is publicly accessible, but you have to accept the conditions to access its files and content.

Log in or Sign Up to review the conditions and access this model content.

google-gemma-2-2b — continued-pretraining A (segmentació nadiua (control), llavor 43)

⚠️ Artefacte de recerca, no un model de producció. Part 2 de l'estudi La morfologia no surt de franc.

Aquest model és google/gemma-2-2b sotmès a un continued-pretraining controlat sobre un subconjunt del corpus català projecte-aina/CATalog, amb la condició de segmentació A:

  • A — nadiua: tokenització estàndard del model (control).
  • B — morfèmica: cada paraula es pre-segmenta pels morfemes amb un segmentador de regles català (scripts/rule_seg.py) i s'empalma amb el mateix vocabulari.

A i B són idèntics en tota la resta (corpus, passos, LR); per a aquesta versió s'han executat múltiples llavors per donar potència estadística al test pareat dins de cada model. L'única variable de contrast és la segmentació.

Corbes d'entrenament

Corbes d'entrenament d'aquest run (train loss · LR · grad-norm · eval loss)

Detalls d'entrenament

model base google/gemma-2-2b
condició A — nadiua (control)
corpus projecte-aina/CATalog (subconjunt)
tokens d'entrenament 24750000
èpoques 1.0
learning rate 2e-05
optimitzador adamw_bnb_8bit (els pesos es mantenen en bf16)
perplexitat final (eval) 9.57
llavor 43

Estudi i reproducció

Citació

@misc{vinaixa2026morfologia,
  title        = {La morfologia no surt de franc: com la tokenitzaci\'o en
                  subparaules fractura la morfologia catalana},
  author       = {Vinaixa Rosell\'o, Xavier and Font Esp\'i, Mar\c{c}al},
  year         = {2026},
  institution  = {Sorensen AI, Barcelona},
  note         = {ORCID: 0009-0005-2769-9215},
  url          = {https://github.com/xaviviro/la-morfologia-no-surt-de-franc}
}
Downloads last month
3
Safetensors
Model size
3B params
Tensor type
BF16
·
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support

Model tree for xaviviro/morfo-part2-google-gemma-2-2b-A-s43

Finetuned
(561)
this model