DSA Question
#33
by
ghostplant
- opened
在每次 predict next token 的时候,DSA 是基于上一轮 token 的 topK 结果进行局部追加,还是要从全部上下文历史中选择 topK?看模型定义似乎是后者(从全部上下文历史中选择 topK)。
在每次 predict next token 的时候,DSA 是基于上一轮 token 的 topK 结果进行局部追加,还是要从全部上下文历史中选择 topK?看模型定义似乎是后者(从全部上下文历史中选择 topK)。