AIPlans
/

Qwen3-0.6B-IPO

Reinforcement Learning

text-generation

text-generation-inference

Model card Files Files and versions

sorakritt commited on 8 days ago

Commit

d51430c

·

verified ·

1 Parent(s): c313299

Update README.md

Files changed (1) hide show

README.md +3 -2

README.md CHANGED Viewed

@@ -51,7 +51,7 @@ Below is a comparison between the base model and this IPO-trained version.
 - **Method:** IPO (Identity Preference Optimization)
 - **Base Model:** Qwen/Qwen3-0.6B-Base
-- **SFT Model Used:** [AIPlans/qwen3-0.6b-SFT-hs2](https://huggingface.co/AIPlans/qwen3-0.6b-SFT-hs2)
 - **Precision:** bfloat16 (Training), bfloat16 (Final Weights)
 - **Optimizer:** AdamW
 - **Learning Rate:** 5e-7
@@ -71,7 +71,7 @@ Below is a comparison between the base model and this IPO-trained version.
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
-model_id = "sorakritt/qwen3-0.6b-IPO-hs2"
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
@@ -86,6 +86,7 @@ inputs = tokenizer(prompt, return_tensors="pt").to("cuda")
 outputs = model.generate(**inputs, max_new_tokens=128, do_sample=True, temperature=0.7)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
 ## Model Card Author
 Premanand Jena - AIPlans Research Intern,

 - **Method:** IPO (Identity Preference Optimization)
 - **Base Model:** Qwen/Qwen3-0.6B-Base
+- **SFT Model Used:** [AIPlans/Qwen3-0.6b-SFT-hs2](https://huggingface.co/AIPlans/Qwen3-0.6b-SFT-hs2)
 - **Precision:** bfloat16 (Training), bfloat16 (Final Weights)
 - **Optimizer:** AdamW
 - **Learning Rate:** 5e-7
 import torch
 from transformers import AutoModelForCausalLM, AutoTokenizer
+model_id = "AIPlans/Qwen3-0.6B-IPO"
 model = AutoModelForCausalLM.from_pretrained(
     model_id,
 outputs = model.generate(**inputs, max_new_tokens=128, do_sample=True, temperature=0.7)
 print(tokenizer.decode(outputs[0], skip_special_tokens=True))
+```
 ## Model Card Author
 Premanand Jena - AIPlans Research Intern,