参数详情
频率和存在惩罚
在Completions API中发现的频率和存在惩罚可以用来减少采样重复标记序列的可能性。它们通过直接向logits(未归一化的对数概率)添加一个加法项来进行修改。
解释
mu[j]是第j个令牌的对数概率
c[j]是在当前位置之前抽样到该令牌的频率
float(c[j]>0)是如果c[j]>0,则为1,否则为0
alpha_frequency是频率惩罚系数
alpha_presence是存在惩罚系数
正如我们所看到的,存在惩罚是一次性的加法贡献,适用于所有已经被抽样至少一次的令牌,而频率惩罚是与特定令牌已经被抽样的次数成比例的贡献。
对于惩罚系数的合理值约为0.1到1,如果目的仅是稍微减少重复抽样的话。如果目的是强烈抑制重复,则可以将系数增加到2,但这可能会显着降低抽样质量。负值可用于增加重复的可能性。
最后更新于