Skip to content

在海量的网页预训练数据上进行数据聚类,采用bge获取数据的embedding后用kmeans对embedding进行聚类,再对每个类别用tf-idf统计高频关键词,以关键词质量为衡量该类别质量的评价指标,进行上下采样和类别均衡

Notifications You must be signed in to change notification settings

yangdongdong2000/-

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

1 Commit
 
 

Repository files navigation

-

在海量的网页预训练数据上进行数据聚类,采用bge获取数据的embedding后用kmeans对embedding进行聚类,再对每个类别用tf-idf统计高频关键词,以关键词质量为衡量该类别质量的评价指标,进行上下采样和类别均衡

About

在海量的网页预训练数据上进行数据聚类,采用bge获取数据的embedding后用kmeans对embedding进行聚类,再对每个类别用tf-idf统计高频关键词,以关键词质量为衡量该类别质量的评价指标,进行上下采样和类别均衡

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published