The default/internal tokenizer: GPT2Tokenizer vs tiktoken #3875

kerlion · 2024-04-26T05:40:59Z

kerlion
Apr 26, 2024

Some models do not have a tokenizer functionality, but Dify has an internal/default tokenizer: GPT2Tokenizer. We can use it to generate tokens or calculate the number of tokens.

I would like to ask, what are the benefits of using GPT2Tokenizer? Why not use tiktoken instead, as it has better generality and faster speed? Tiktoken supports not only GPT-2, but also text-embedding-ada-002, gpt-3.5-turbo, gpt-4, and others.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

The default/internal tokenizer: GPT2Tokenizer vs tiktoken #3875

{{title}}

Replies: 0 comments

Select a reply

The default/internal tokenizer: GPT2Tokenizer vs tiktoken #3875

kerlion Apr 26, 2024

Replies: 0 comments

kerlion
Apr 26, 2024