FMEmbedding #1257
-
您好,关于特征embedding,我想知道FeatureType中的'token'、'float'、'token_seq'是分别如何做embedding的,如果是评论数据是要分词吗? |
Beta Was this translation helpful? Give feedback.
Replies: 1 comment 2 replies
-
@kuzma-long 您好! RecBole 支持四种数据格式,'token'、'token_seq'、'float'、'float_seq'。
一个 由于
也就是说,若为 以 RecBole/dataset/ml-100k/ml-100k.item Lines 1 to 6 in 896155c 经过内部映射转换为
此时映射后的数据变为了:
经过映射的预处理之后,原来的 |
Beta Was this translation helpful? Give feedback.
@kuzma-long 您好!
RecBole 支持四种数据格式,'token'、'token_seq'、'float'、'float_seq'。
一个
token
可以直接作为一个 ID 用于特征 embedding,float
是浮点式的具体数据,一般直接用于数值的相关使用,无需 embedding;而float_seq
通常用于加载预训练好的embedding
向量。由于
token_seq
类的数据本身就是以分隔符分割的token
序列,无论是token
还是token_seq
,RecBole 都会将字段映射为连续的 ID,可以通过field2id_token
和field2token_id
进行 ID 的相互转换: