diff --git a/llama_cpp/llama.py b/llama_cpp/llama.py index b92801c..edd2eef 100644 --- a/llama_cpp/llama.py +++ b/llama_cpp/llama.py @@ -280,6 +280,7 @@ class Llama: if self.verbose: print("generate cache hit", file=sys.stderr) reset = False + tokens = tokens[len(self.tokens) :] ### if reset: self.reset()