01 如何阅读?
1.读书通读、速度,了解大概。规定读书时间,1个月,一天15页。
2.阅读具体分支读物,3 - 6个月。提纲挈领。
3.再回来阅读机器学习。
4.再过1-3年。疏通脉络。
02 理论模型:PAC, Probability Approximation Correct
P{ |f(x)-y| < e } = 1-r
P-NP
P:多项式时间内,能否找到解
NP:多项式时间内,给到你的解,能否判断是否为解/最佳结论/最优解
大多数问题在 NP 问题之外
03 归纳偏好,这本书比较特点的说法
奥卡姆剃刀原则:若无必要,非增实体。
04 ShoelessCai 评注
并非方差小的就一定是好的模型。针对经常出现的情况的模拟,方程大的、不稳定的模型可能才是更好的模拟。
NFL:No Free Lunch 该算法在某些问题表现好,一定在某些问题表现不好
05 误差与过拟合、欠拟合
1.泛化误差,在“未来”样本上的误差
2.经验误差,在训练集上的误差,亦称“训练误差”
06 经验误差 v.s. 训练误差
通常的做法:第一,区分训练集合、测试集合;第二,再将训练集合,分割成训练,v.s. 验证;BTW,最终提交的时候,要将训练集合全体再次训练;
07 机器学习三大问题
未来性能的评估方法:测试集合过小或者过大的时候,评估方差都会较大。依据在于 训练误差始终减小,而训练误差是U字形的。
08 评估方法
1.留出法 - 切分造成的影响,去掉
2.留一法 LOO 这样测试样本太少
3.Bootstrap 包外估计 不断在集合中重复采样
集合中 m 个球,没被取到的概率为 36.8%
超参数:人工调整的参数
参数:模型学习得到
Precision = TP / (TP+FP)
Recall = TP / (TP+FN)
F1-Score = 2 / (1/P+1/R)
09 CV 如何确定模型误差情况
采用列联表检验,考虑反对角线上两个点。基本做法,构造卡方统计量,然后判断统计量显著,或者不显著。
Talk
可能空着的题目太多了,使得阅卷老师都懒得看我做的题目,那么以后我就准备得充分一些。
话说多了很傻。
人际关系真的有“那么”重要吗?