分类目录归档：大模型-llm

Qwen2.5-VL:图片处理成token

646 views

Qwen2.5-VL

def _preprocess(
        self,
        images: Union[ImageInput, VideoInput],
      ...

DPO、PPO和GRPO的伪代码loss计算

843 views

1.1 PPO 的关键角色

策略（LLM）：我们正在训练的 LLM，用于生成更好的文本。
奖励模型：根据人类偏好对文本打分的 AI 裁判。
价值函数（辅助教练）：另一个 AI 模型，充当“辅助...