第二章机器学习概述

2024-03-24

scientific_research_training

字数统计: 851 | 阅读时长≈ 2 分钟

通过训练集找到特征和标签之间的映射关系，在测试集进行精确度测试

三要素：模型学习准则优化方法

假设一个函数集合F，通过观察在测试集的特性找出理想假设
其中𝑓(𝒙; 𝜃)是参数为𝜃 的函数，也称为模型（Model），𝐷 为参数的数量．

F分为线性模型和非线性模型两种

ℛ(𝜃)为期望风险
ℛ(𝜃) = 𝔼(𝒙,𝑦)∼𝑝𝑟(𝒙,𝑦)[ℒ(𝑦, 𝑓(𝒙; 𝜃))]
ℒ(𝑦, 𝑓(𝒙; 𝜃))为损失函数：

01损失函数/平方损失函数（不用于分类问题）/交叉熵损失函数（用于分类问题）/Hinge损失函数

风险最小化准则：通过数据集计算出经验风险，找到参数使经验风险最小

过拟合问题：经验风险最小化原则很容易导致模型在训练集上错误率很低，但是在未知数据上错误率很高．这就是所谓的过拟合
在经验风险最小化的基础上再引入参数的正则化来限制模型能力,称为结构风险最小化（详见7.7章）

优化算法

如何找到一个最优模型是一个最优化问题

定义模型结构或优化策略的这类参数叫作超参数：聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等．超参数的选取一般都是组合优化问题
梯度下降法，迭代求风险函数最小值
提前终止：每次迭代后测试错误率，不再下降即停止迭代
随机梯度下降法

机器学习例子：线性回归

四种不同的参数估计方法：经验风险最小化、结构风险最小化、最大似然估计、最大后验估计．

经验风险最小化：用平方损失函数计算，求出经验风险，其是关于w的凸函数，求偏导，令偏导为0，得到最优的参数w*
这种求解线性回归方程的方法也叫最小二乘法，使用要求为XXT必须要可逆。

结构风险最小化：要XXT可逆，并且特征之间不能优多重共线性
岭回归算法：给XXT对角线元素加常数使其满秩

最大似然估计：线性回归还可以从建模条件概率𝑝(𝑦|𝒙)的角度来进行参数估计．
假设标签 𝑦 为一个随机变量，并由函数 𝑓(𝒙; 𝒘) = 𝒘T𝒙 加上一个随机噪声 𝜖决定
其中𝜖服从均值为0、方差为𝜎2 的高斯分布．这样，𝑦 服从均值为𝒘T𝒙、方差为𝜎2的高斯分布：𝑝(𝑦|𝒙; 𝒘, 𝜎) = 𝒩(𝑦; 𝒘T𝒙, 𝜎2)
似然函数是关于统计模型的参数的函数．概率p是在w固定时x的分布，似然p则是在w不同对分布的影响
最大似然估计是找到参数 𝒘 使得似然函数 𝑝(𝒚|𝑿; 𝒘, 𝜎) 最大

最大后验估计：
最大似然估计的一个缺点是当训练数据比较少时会发生过拟合，估计的参数可能不准确．为了避免过拟合，我们可以给参数加上一些先验知识．

需要补充数学前置知识

偏差方差分解**************************

在模型的拟合能力和复杂度之间取得平衡