摘要
本篇主要考察GBDT(更精确的是 sklearn.ensemble.GradientBoostingClassifier)关于预测准确率和学习率、子模型数量、模型最大深度三个参数的变化关系。具体做法是,分割两个数据集,用 x_train 进行训练,考察 x_test 的准确率。
结论
针对 GBDT 这类模型,子模型数量 n_estimators 、学习率 learning_rate 都是非常重要的参数,对于预测的准确率 Accuracy 具有无法忽略的作用。然而,单个模型的最大深度 max_depth 起到的作用并不大。
应用
通过该实验,理解 Boosting 模型中哪些参数会起到比较大的作用,提升建模直觉。另外,文章简述机器学习如何通过目标函数和损失函数结合的模式,每次迭代到最优拟合,帮助建模人员提示阅读模型的能力,使得数据分析更加智能。