sft training #17

wangxichi · 2024-12-26T08:36:52Z

使用sft微调训练llama模型，结果很差，是loss的原因吗？

zhangdan0602 · 2024-12-26T08:51:23Z

请问详细的实验设置是什么？

wangxichi · 2024-12-26T08:54:42Z

使用ReST-MCTS-Llama3-8b-Instruct-Policy-1st数据集，trl的SFT库微调，学习了设置了1e-4, 1e-5, 训练的迭代次数越多，模型的输出结果越差

zhangdan0602 · 2024-12-26T08:58:22Z

学习率要小一些，2e-5；epoch是2；warmup_ratio是0.03

wangxichi · 2024-12-26T09:02:03Z

还有别的需要注意的吗？trl库的SFT可以吗？数据集处理部分需要注意什么呢？
损失函数，我理解论文的是：会参考推理步骤之间的关联性，
但是正常的SFT，只会参考上下文之间的相关性啊，这个损失函数要修改吗？

wangxichi · 2024-12-26T09:03:35Z

我甚至尝试了1e-7，可是模型输出的全是很多不相关的steps，
需要加入lora吗？

1FirstWave1 · 2024-12-28T03:27:30Z

是分步骤一步一步微调的么（使用前i-1步作输入微调第i步）。代码本身没有给SFT的代码（未找到）而是DPO的代码，猜测可能这个地方引起了歧义

zhangdan0602 · 2024-12-31T07:09:55Z

zhangdan0602 added the about training label Dec 27, 2024

Provide feedback