使用百度千帆存储摘要历史记录时报错

问题描述：

老师，我在使用ConversationSummaryBufferMemory时用的百度千帆模型，在保存历史信息时报这个错误：Can't load tokenizer for 'gpt2'，不知道是什么情况

相关截图：

前田慶次 2024-10-03

源自：记忆模块开发，让聊天机器人有记忆 1-8 LangChain摘要记忆组件的使用与解析

收起

1回答

泽辉呀回答被采纳获得+3积分 2024-10-05 12:59:44

这是因为tiktoken并没有针对所有的大语言模型都配置了词表，在LLM的底层_get_encoding_model()找不到对应的词表导致的错误，如果想解决这个问题，可以重写下_get_encoding_model()这个方法，例如：

def _get_encoding_model(self) -> Tuple[str, tiktoken.Encoding]:
    model = "cl100k_base"
    encoding = tiktoken.get_encoding(model)
    return model, encoding

这样就可以解决问题啦（本质上是LangChain封装不完善+很多LLM没有提供词表导致的bug）~

和您这边另外一个问题是同个原因，上面的函数使用了cl100k_base这个词表，以解决LangChain对于国产LLM没有预设词表的问题。

收起回答

weixin_慕姐6471676 #1

我也碰到这个情况，而且我改写了 langchain_openai/chat_models/base.py和langchain_community/chat_models/anyscale.py 两个文件里的_get_encoding_model()函数，还是会出现这样的问题。请问应该在哪里实现这个代码？

2024-11-11 10:39:19