首页   >   新闻   >   文章

周志华机器学习 | Chapter 3 Notes
- 2023 -
02/24
06:42
零号员工
发表时间:2023.02.24     作者:Jingyi     来源:ShoelessCai     阅读:83

01 分类 v.s. 回归



数据类型

  1. 数据类型是有序的 order -- 连续化

  2. 属性之间是无序的,例如 青绿、浅白。 -- 转成K维向量


02 线性回归:最小二乘法





推导过程(课程老师要求自己要推导一遍)

基本思想:(1)先写出截距 b_est; (2)再写出系数估计 w_est





03 多元线性回归



这里注意简化的写法

X= [x1, x2, ... , xn, 1]

系数 = [w1, w2, ..., wn, b]

当且仅当系数矩阵满秩的时候,可得一组系数的估计(第二个框)

归纳偏好:例如, n-1个系数,最后一个系数,是最大?还是最小? -- 属于归纳偏好问题



关于系数估计的推导


为了更好地形成归纳偏好,引入正则化 Regularization

04 实现正则化的正则函数

对率回归(对数几率函数)



上述 y 是一个任意阶可导,性质极其好的函数

Log+odds -> logit

对数几率回归 logistic regression

优势

  1. 分类算法,无需假设数据分布
  2. 可得到类别的近似概率预测
  3. 可以调用函数包


05 求解对率回归

(1)极大似然的基本想法 max( P(实际真)P(预测真) + P(实际假)P(预测假) )


牛顿法,一阶、二阶导数

06 类别不平衡

首先要考虑业务场景。例某些场景,100个中找1个,这时候测准99个都是无用的。

总结为,小类比大类更加重要的时候。



解决

  1. 过采样,关注的类别增加样本
  2. 欠采样,另一个类别少采样
  3. 阈值平移 --- 少数算法,例如 SVM


样本均衡 SMOTE

Easy Ensemble

单元学习查缺补漏

  1. 机器学习这门课,odds function 称为 link function
  2. 直接复制样本,有过拟合样本风险
  3. 对于样本数据,无order 还是有 order 的标记
  4. 广义线性模型定义
  5. 以下哪个选项不是正则化的原因
    正则化主要是解决归纳偏好,让模型往建模者想要的方向跑的方式。

  6. 极大似然估计的优势
    (1)目标函数是凸的;(2)可用梯度下降求解;(3)目标连续可微

  7. 关于最小二乘估计,Estimator 最好背出来
  8. 这里有个新概念,最小化数据集。最小二乘法得到的斜率,小于最小化数据集得到的线性模型求得的斜率
  9. 移动阈值的案例。对于CV训练模型的,阈值应该设定为 10%
  10. 对率回归是否需要假设数据分布。首先,logit函数本身是Classifier,因此是无需假设数据分布的。所以,对率回归不需要数据分布。
  11. 所谓的归纳偏好,本身就是在多元线性回归不满秩的情况下,通过加入归纳偏好来选择较好的解。


更多信息,点击下载。



原文链接

长按/扫码,有您的支持,我们会更加努力!







TOP 5 精选
回到顶部   回上一级
写文章

最新资讯




直播笔记


热点话题


精品论文


有你的鼓励
ShoelessCai 将更努力





文档免费。保护知识产权,保护创新。