学习数据挖掘的常见算法,掌握其应用场景和相关包的用法。
- 整理相关算法的说明文档。
- 入门项目 Titanic
- 在此项目中,完成数据挖掘的整个流程,具体包括:数据分析(统计描述、相关性分析等)- 数据清洗(缺失值、异常值、重复值等)- 特征工程 - 模型构建 - 模型评估;
- 用python调包构造至少5种模型(逻辑回归、SVM、KNN、贝叶斯、决策树、随机森林、Bagging、Boosting、Stacking、聚类等),并对比结果。
- 时间序列预测项目 Predict Future Sales
- 用python完成至少1种模型(AR/MA/ARIMA、LightGBM、XGBoost、RNN、LSTM、1D-CNN、transformer等),以此熟悉时间序列模型的构造。
此三周的项目都选于Kaggle比赛,旨在熟悉算法的思想和用例,不过多追求准确率。若数据量过多导致训练速度慢,可适当减少数据。