google-gemma-2-2b — continued-pretraining A (segmentació nadiua (control), llavor 43)
⚠️ Artefacte de recerca, no un model de producció. Part 2 de l'estudi La morfologia no surt de franc.
Aquest model és google/gemma-2-2b sotmès a un continued-pretraining controlat
sobre un subconjunt del corpus català projecte-aina/CATalog, amb la
condició de segmentació A:
- A — nadiua: tokenització estàndard del model (control).
- B — morfèmica: cada paraula es pre-segmenta pels morfemes amb un
segmentador de regles català (
scripts/rule_seg.py) i s'empalma amb el mateix vocabulari.
A i B són idèntics en tota la resta (corpus, passos, LR); per a aquesta versió s'han executat múltiples llavors per donar potència estadística al test pareat dins de cada model. L'única variable de contrast és la segmentació.
Corbes d'entrenament
Detalls d'entrenament
| model base | google/gemma-2-2b |
| condició | A — nadiua (control) |
| corpus | projecte-aina/CATalog (subconjunt) |
| tokens d'entrenament | 24750000 |
| èpoques | 1.0 |
| learning rate | 2e-05 |
| optimitzador | adamw_bnb_8bit (els pesos es mantenen en bf16) |
| perplexitat final (eval) | 9.57 |
| llavor | 43 |
Estudi i reproducció
- Codi, metodologia i resultats: https://github.com/xaviviro/la-morfologia-no-surt-de-franc
- Llegeix-ne el
README.md(en català) per al context complet (Part 1: geometria; Part 2: aquest reentrenament; Part 3: visió IE).
Citació
@misc{vinaixa2026morfologia,
title = {La morfologia no surt de franc: com la tokenitzaci\'o en
subparaules fractura la morfologia catalana},
author = {Vinaixa Rosell\'o, Xavier and Font Esp\'i, Mar\c{c}al},
year = {2026},
institution = {Sorensen AI, Barcelona},
note = {ORCID: 0009-0005-2769-9215},
url = {https://github.com/xaviviro/la-morfologia-no-surt-de-franc}
}
- Downloads last month
- 3
Inference Providers NEW
This model isn't deployed by any Inference Provider. 🙋 Ask for provider support
Model tree for xaviviro/morfo-part2-google-gemma-2-2b-A-s43
Base model
google/gemma-2-2b