eramax / nxcode-cq-7b-orpo

https://huggingface.co/NTQAI/Nxcode-CQ-7B-orpo

7B

946 Pulls Updated 4 months ago

Updated 4 months ago

4 months ago

2784da3b3724 · 6.4GB

parameters7.25B

quantizationQ6_K

{"stop":["<|im_start|>","<|im_end|>","</s>"]}

{{ if .System }}<|im_start|>system {{ .System }}<|im_end|> {{ end }}{{ if .Prompt }}<|im_start|>user {{ .Prompt }}<|im_end|> {{ end }}<|im_start|>assistant {{ .Response }}<|im_end|>

Readme

Introduction

Nxcode-CQ-7B-orpo is an Monolithic Preference Optimization without Reference Model fine-tune of Qwen/CodeQwen1.5-7B on 100k samples of high-quality ranking data.

Evalplus

EvalPlus	pass@1
HumanEval	86.6
HumanEval+	83.5
MBPP(v0.2.0)	82.3
MBPP+(v0.2.0)	70.4