DSA Question

#33
by ghostplant - opened

在每次 predict next token 的时候,DSA 是基于上一轮 token 的 topK 结果进行局部追加,还是要从全部上下文历史中选择 topK?看模型定义似乎是后者(从全部上下文历史中选择 topK)。

Sign up or log in to comment