QA-1_FT

Questo modello 猫 una versione ottimizzata di deepset/roberta-base-squad2, adattato specificamente alla documentazione tecnica di una web app tramite un processo di addestramento a due fasi.

Descrizione del Modello

Il processo di adattamento ha compreso:

  1. Adattamento al Dominio (MLM): Il modello base 猫 stato aggiornato tramite Masked Language Modeling (MLM) sul dataset RoleChatArticoles.json (contenente la documentazione della web app) per apprendere la terminologia tecnica e il contesto specifico del software.
  2. Fine-tuning QA Specializzato: Dopo la fase MLM, il modello 猫 stato addestrato per il Question Answering utilizzando LoRA (Low-Rank Adaptation). Questo permette al modello di estrarre risposte precise dai documenti tecnici senza perdere le capacit脿 di ragionamento generali.

Procedura di Addestramento

Fase 1: Masked Language Modeling (MLM)

  • Obiettivo: Adattamento al dominio tecnico.
  • Dataset: Documentazione della web app (RoleChatArticoles.json).
  • Metodo: Quantizzazione a 4-bit e aggiornamento completo dell'encoder per 1 epoca.

Fase 2: Question Answering (PEFT/LoRA)

  • Obiettivo: Estrazione di risposte dal contesto della documentazione.
  • Metodo: LoRA (Low-Rank Adaptation).
  • Configurazione:
    • Rank ($r$): 16
    • Alpha: 32
    • Target Modules: query, key, value, dense
    • Training: Quantizzazione a 4-bit (bitsandbytes).

Casi d'Uso e Limitazioni

Uso Previsto

Il modello 猫 progettato per rispondere a domande basate strettamente sulla documentazione tecnica della web app fornita durante l'addestramento.

Limitazioni e Avvertenze

  • Non 猫 un modello generico: Si sconsiglia vivamente l'uso di questo modello per compiti di Question Answering generici o fuori dal dominio tecnico trattato.
  • Necessit脿 di Fine-tuning: Per essere utilizzato efficacemente su altri software o documentazioni differenti, il modello richiede nuovi cicli di fine-tuning specifici sui nuovi set di dati.
  • Lunghezza Sequenza: Essendo basato su RoBERTa, ha un limite massimo di 384 token per ogni prompt
Downloads last month
31
Safetensors
Model size
0.1B params
Tensor type
F32
Inference Providers NEW
This model isn't deployed by any Inference Provider. 馃檵 Ask for provider support

Model tree for Croc-Prog-HF/QA-1_FT

Finetuned
(221)
this model