新闻
论文
直播
应用
登录
English
   
首页
  >  
新闻   >   文章
周志华机器学习 | Chapter 3 Notes
- 2023 -
02/24
06:42
零号员工
发表时间:2023.02.24     作者:Jingyi     来源:ShoelessCai     阅读:83
01 分类 v.s. 回归
数据类型
数据类型是有序的 order -- 连续化
属性之间是无序的,例如 青绿、浅白。 -- 转成K维向量
02 线性回归:最小二乘法
推导过程(课程老师要求自己要推导一遍)
基本思想:(1)先写出截距 b_est; (2)再写出系数估计 w_est
03 多元线性回归
这里注意简化的写法
X= [x1, x2, ... , xn, 1]
系数 = [w1, w2, ..., wn, b]
当且仅当系数矩阵满秩的时候,可得一组系数的估计(第二个框)
归纳偏好:例如, n-1个系数,最后一个系数,是最大?还是最小? -- 属于归纳偏好问题
关于系数估计的推导
为了更好地形成归纳偏好,引入正则化 Regularization
04 实现正则化的正则函数
对率回归(对数几率函数)
上述 y 是一个任意阶可导,性质极其好的函数
Log+odds -> logit
对数几率回归 logistic regression
优势
分类算法,无需假设数据分布
可得到类别的近似概率预测
可以调用函数包
05 求解对率回归
(1)极大似然的基本想法 max( P(实际真)P(预测真) + P(实际假)P(预测假) )
牛顿法,一阶、二阶导数
06 类别不平衡
首先要考虑业务场景。例某些场景,100个中找1个,这时候测准99个都是无用的。
总结为,小类比大类更加重要的时候。
解决
过采样,关注的类别增加样本
欠采样,另一个类别少采样
阈值平移 --- 少数算法,例如 SVM
样本均衡 SMOTE
Easy Ensemble
单元学习查缺补漏
机器学习这门课,odds function 称为 link function
直接复制样本,有过拟合样本风险
对于样本数据,无order 还是有 order 的标记
广义线性模型定义
以下哪个选项不是正则化的原因
正则化主要是解决归纳偏好,让模型往建模者想要的方向跑的方式。
极大似然估计的优势
(1)目标函数是凸的;(2)可用梯度下降求解;(3)目标连续可微
关于最小二乘估计,Estimator 最好背出来
这里有个新概念,最小化数据集。最小二乘法得到的斜率,
小于
最小化数据集得到的线性模型求得的斜率
移动阈值的案例。对于CV训练模型的,阈值应该设定为 10%
对率回归是否需要假设数据分布。首先,logit函数本身是Classifier,因此是无需假设数据分布的。所以,对率回归不需要数据分布。
所谓的归纳偏好,本身就是在多元线性回归不满秩的情况下,通过加入归纳偏好来选择较好的解。
更多信息,点击下载。
原文链接
长按/扫码,有您的支持,我们会更加努力!
TOP 5 精选
回到顶部  
回上一级
写文章
最新资讯
能力提升 | Viva la vida 如果哪天我也需要管那么多事情!
能力提升 | 最近开始变得慵懒
直播笔记
Test 1.3 / Page 300: Company Speaker
听力训练:关于储蓄,男女有差异吗?
《思考快与慢》读书笔记之四:为什么损失时更冒险
高级口译:五分钟背单词(视频,Episode 25-37)
听力训练:六步创业法
五分钟背单词最终弹 (视频 272 - 280)
高级口译(朗读版):下一个美国世纪
《思考快与慢》读书笔记之一:通才与专才的差异
热点话题
银行工作态度大调查
彭博推送 | 孟加拉国的不确定未来
碳酸锂,10年暴涨,可能持续至2024年
Taylor Swift NYU 2022毕业演讲
得到笔记 | 黄碧云老师的小店创业课
精品论文
天池大赛:淘宝母婴购买情况数据分析
双重差分(DID)方法看“上海自贸区”十年业绩
机器学习的单样本预测可信度问题
基于时间序列及机器学习的上证指数实证研究
Volkswagen Revival Story through Innovation and Management
Jack Welch A Well-skilled Leader
有你的鼓励
ShoelessCai 将更努力
文档免费。保护知识产权,保护创新。
ShoelessCai.com —— 我们致力于,
商业
赋能行业。