关于Yelp数据集 #1272
Answered
by
Ethan-TZ
kuzma-long
asked this question in
Q&A
关于Yelp数据集
#1272
-
您好,关于Yelp数据集的体量,我看很多论文都是使用的2019年1月1日之后的数据,这个精简版的数据recbole是否可以提供,或者是否可以开发一个功能,将txt文件转成.inter等原子文件,因为在使用recbole进行开发时,对于yelp数据集的庞大所带来的耗时是很头疼的,希望能提供一些建议,谢谢! |
Beta Was this translation helpful? Give feedback.
Answered by
Ethan-TZ
Apr 29, 2022
Replies: 1 comment
-
@kuzma-long 感谢您的关注!对于yelp数据集,可以使用filter功能根据date字段筛选出2019年1月1日之后的数据得到精简版的数据集。.inter文件的本质为csv,tsv等结构化文件,并没有固定的格式,并且用户提供的txt文件格式参次不齐,无法确定具体的转化目标,因此这个功能很难实现。但只要保证txt文件是结构化的,你只需要添加字段头,并且用field_separator以及seq_separator指定分隔符即可成为一个合法的.inter文件。 |
Beta Was this translation helpful? Give feedback.
0 replies
Answer selected by
Sherry-XLL
Sign up for free
to join this conversation on GitHub.
Already have an account?
Sign in to comment
@kuzma-long 感谢您的关注!对于yelp数据集,可以使用filter功能根据date字段筛选出2019年1月1日之后的数据得到精简版的数据集。.inter文件的本质为csv,tsv等结构化文件,并没有固定的格式,并且用户提供的txt文件格式参次不齐,无法确定具体的转化目标,因此这个功能很难实现。但只要保证txt文件是结构化的,你只需要添加字段头,并且用field_separator以及seq_separator指定分隔符即可成为一个合法的.inter文件。