qwen3-4b-structeval-sft-v4-lr2e5-merged

SFT LoRA adapter (sonodd/qwen3-4b-structeval-sft-v4-lr2e5) をベースモデル (Qwen/Qwen3-4B-Instruct-2507) にマージしたフルモデルです。

用途

DPO ノートブックの DPO_BASE_MODEL に指定して SFT → DPO パイプライン を実行するために使用します。

# DPO ノートブック cell-10
os.environ["DPO_BASE_MODEL"]     = "sonodd/qwen3-4b-structeval-sft-v4-lr2e5-merged"
os.environ["DPO_SFT_ADAPTER_ID"] = ""  # マージ済みなので空

構成

  • Base model: Qwen/Qwen3-4B-Instruct-2507
  • SFT adapter: sonodd/qwen3-4b-structeval-sft-v4-lr2e5
  • Merge method: merge_and_unload() (float16)
Downloads last month
4
Safetensors
Model size
4B params
Tensor type
F16
·
Inference Providers NEW
Input a message to start chatting with sonodd/qwen3-4b-structeval-sft-v4-lr2e5-merged.

Model tree for sonodd/qwen3-4b-structeval-sft-v4-lr2e5-merged

Finetuned
(1705)
this model
Finetunes
2 models