第二章机器学习概述

通过训练集找到特征和标签之间的映射关系,在测试集进行精确度测试

pic1

三要素:模型 学习准则 优化方法

假设一个函数集合F,通过观察在测试集的特性找出理想假设
其中𝑓(𝒙; 𝜃)是参数为𝜃 的函数,也称为模型(Model),𝐷 为参数的数量.

F分为线性模型和非线性模型两种

pic2
pic3

ℛ(𝜃)为期望风险
ℛ(𝜃) = 𝔼(𝒙,𝑦)∼𝑝𝑟(𝒙,𝑦)[ℒ(𝑦, 𝑓(𝒙; 𝜃))]
ℒ(𝑦, 𝑓(𝒙; 𝜃))为损失函数:

01损失函数/平方损失函数(不用于分类问题)/交叉熵损失函数(用于分类问题)/Hinge损失函数

风险最小化准则:通过数据集计算出经验风险,找到参数使经验风险最小

过拟合问题:经验风险最小化原则很容易导致模型在训练集上错误率很低,但是在未知数据上错误率很高.这就是所谓的过拟合
在经验风险最小化的基础上再引入参数的正则化来限制模型能力,称为结构风险最小化(详见7.7章)

优化算法

如何找到一个最优模型是一个最优化问题

定义模型结构或优化策略的这类参数叫作超参数:聚类算法中的类别个数、梯度下降法中的步长、正则化项的系数、神经网络的层数、支持向量机中的核函数等.超参数的选取一般都是组合优化问题
梯度下降法,迭代求风险函数最小值
提前终止:每次迭代后测试错误率,不再下降即停止迭代
随机梯度下降法

机器学习例子:线性回归

四种不同的参数估计方法:经验风险最小化、结构风险最小化、最大似然估计、最大后验估计.

经验风险最小化:用平方损失函数计算,求出经验风险,其是关于w的凸函数,求偏导,令偏导为0,得到最优的参数w*
这种求解线性回归方程的方法也叫最小二乘法,使用要求为XXT必须要可逆。

结构风险最小化:要XXT可逆,并且特征之间不能优多重共线性
岭回归算法:给XXT对角线元素加常数使其满秩

最大似然估计:线性回归还可以从建模条件概率𝑝(𝑦|𝒙)的角度来进行参数估计.
假设标签 𝑦 为一个随机变量,并由函数 𝑓(𝒙; 𝒘) = 𝒘T𝒙 加上一个随机噪声 𝜖决定
其中𝜖服从均值为0、方差为𝜎2 的高斯分布.这样,𝑦 服从均值为𝒘T𝒙、方差为𝜎2的高斯分布:𝑝(𝑦|𝒙; 𝒘, 𝜎) = 𝒩(𝑦; 𝒘T𝒙, 𝜎2)
似然函数是关于统计模型的参数的函数.概率p是在w固定时x的分布,似然p则是在w不同对分布的影响
最大似然估计是找到参数 𝒘 使得似然函数 𝑝(𝒚|𝑿; 𝒘, 𝜎) 最大

最大后验估计:
最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识.

需要补充数学前置知识

偏差方差分解**************************

在模型的拟合能力和复杂度之间取得平衡

  • Copyrights © 2024 MorningStar
  • 访问人数: | 浏览次数:

请我喝杯咖啡吧~

微信