学习笔记—机器学习(周志华) 部分知识点整理

第一章

人工智能分为三大主义

逻辑主义(符号主义) 连接主义 为主义

典型的决策树学习以信息论为基础,以信息熵的最小化为目标,直接模拟了人类对概念进行判断的树形流程。

奥卡姆剃刀 张选择与经验观察一致的最简单假设,并非科学研究唯一可行假设性原则

第二章

现阶段通过拟合的方法来贴合样本,有两种情况,分别为过拟合和欠拟合

拟合比较好解决,过拟合是无法完全避免的

拟合是由于学习能力低下,通过扩展分支、神经网络增加轮数

过拟合是学习能力太强

模型评估方法:留出法、交叉验证法、自助法

交叉的稳定性很大因素取决于k值,也称为k倍交叉验证

留出法和交叉验证法使用的思路都是取出一部分作为样本,使用方法类似

留出的缺陷:由于保留的一部分样本用于测试,因此评估时的样本比总样本要小,必然会引入一些由于训练样本的不同而导致的估计偏差

交叉的缺陷:数据集较大时,计算开销难以忍受,而且是在为调参的情况下。

初始数据量足够时,留出交叉常用

评价一个算法,取决于数据和算法,还有任务需求

查准率高查全率低(反之)

查全率和查全率可能相等,平衡点

图:B完全包住AB绝对好于A

在部分情况下,查准率和查全率的重视程度有所不同

机器学习涉及重要因素:泛化能力、测试集上性能和测试集本身有很大关系,机器学习算法本身有很大随机性

泛化误差:偏差、方差、噪声

第三章

线性模型,形式简单易于建模,但是在机器学习中有很重要的思想第四章

第四章

决策树是一类常见的机器学习的方法

决策树习的目的是为了生成一棵具有泛化能力的树

决策树生成是一个递归的过程,返回的三个条件(123

信息熵是度量样本集合纯度的常用指标

信息增越大,所获得的(纯度提升)越大

为了避免决策树过拟合,一般会采用剪枝处理,分为预剪枝和后剪枝

预剪枝是基于信息增益,贪心本质

预优缺点,降低了过拟合的风险,降低了训练测试时间的开销,但有些分支不能提升泛化能力,甚至可能导致下降。但后续泛化可使其提高,贪心本质展开,带来了欠拟合风险。

优缺点,保留了更多的分支,欠拟合风险很小,泛化性能优于预剪枝,但训练时间开销要比预剪枝要大很多。

第五章

经网络最基本的组成是神经元模型

判别式模型

第七章

贝叶斯决策论是基于概率框架进行的

概率模型的训练过程就是参数估计的过程,对于参数估计,统计学界分了两大派系:频率主义学派和贝叶斯学派

过极大似然法得到的正态分布均值就是样本均值

为了降低贝叶斯公式中估计后验概率的困难,朴素的贝叶斯分类起采用了属性条件独立假设,但现实任务中这个假设往往很呐成立,人们常使对属性条件独立性假设进行一定程度的放松

学习速度较高,采用查表法

如果更新频繁,采用懒惰学习

发表评论

电子邮件地址不会被公开。 必填项已用*标注