人工智能基础-期末复习笔记

目的：用于大三上的《人工智能基础》课程的复习，重点在后半期的“机器学习”部分

Notes:

1.概率计算两个规则
Sum rule
Product rule
2.特征提取：输入数据转化为向量X的过程
3.两个模型
回归模型
分类模型
4.回归树的最优划分动态规划

Chapter0 绪论

1.AI历史
第一次浪潮：搜索技术、知识表示、确定性推理、感知机
第一次寒冬：感知机模型局限、复杂度NP
第二次浪潮：专家系统、不确定性推理、神经网络BP
第二次寒冬：维护成本高
2.机器学习三要素
优化目标建立：基于数据，计算目标函数最小的模型w
优化求解过程
模型预测过程
3.ML概述

标签学习
分类回归思想建模（最小化回归误差、最小化分类信息熵）
决策树、回归树、GBRT
概率思想建模（最大化数据似然）
逻辑回归、朴素贝叶斯
集成方法
Bagging、Adaboost
结构学习
概率图模型（条件独立假设）
有向图
无监督（隐变量与EM）
PLSA
混合高斯
有监督
朴素贝叶斯
逻辑回归
概率矩阵分解
无向图
条件随机场
神经网络（NN是计算流程的可视化）
前馈NN、RNN（序列标注、机器翻译、对话生成）、CNN
前沿研究
闲聊机器人

Chapter1 单变量学习（标签学习）

一决策树

1.信息熵
定义已知随机变量Y的分布P(Y)，度量“预测随机变量Y的取值”的难度
香农信息熵
条件信息熵度量“在随机变量X的前提下，预测随机变量Y”的难度
信息增益度量X对预测Y的能力
2.构造决策树
准则
分类准确
树结构简单（数节点数少，叶节点的预测值绝对值小）
贪心算法：以最大化IG，即最小化条件熵的目的选择根节点属性
H(Y|Xi)哪一个Xi小
3.连续值决策树
4.决策树剪枝
5.对应ML三要素
目标函数：落入叶节点的样本的信息熵均值最小
优化过程：以条件熵为准则的贪心算法，不可导
模型预测：给定新样本，以落入的叶节点的类别为预测值

二回归树

1.如何确定叶节点的wj – 目标函数
推导目标函数
从数据的角度->从树的角度
当叶节点为时目标函数最小
2.如何分裂树的节点 – 优化过程
分裂前
分裂后
要减少量尽量大
也是贪心策略

三 GBRT

1.GBRT Gradient Boost Regression Tree
渐进梯度回归树
GBDT 渐进梯度决策树
MART Multiple Additive Regression Tree多决策累加回归树
基本假设：多个回归树相加
2.目标函数
设有K棵树
最小化训练误差+模型复杂度
3.优化过程
贪心：考虑树的添加过程
设前t-1棵树都算出了，预测值为〖y ̂_i〗^((t-1) )，则〖y ̂_i〗^((t) )=〖y ̂_i〗^((t-1) )+f_t (x_i)
相当于构建一棵(xi, yi-〖y ̂_i〗^((t-1) ))的回归树
极值点取法和上一节一样
4.Hw：最佳的k划分
5.模型预测

四 LR 逻辑回归

1.Sigmoid函数
2.目标函数
最大化目标似然
转化为最小化
3.优化过程梯度下降
最小化，往梯度的反方向走
梯度下降变体：MiniBatch
随机选择部分样例并计算梯度
4.线性回归 vs 逻辑回归
目标函数：
分类平面：
LR对异常点更加robust
共同点：都是线性分类器
5.正则化
目的：目标函数考虑自身权重带来的影响，避免权重太多太大，过拟合
6.特征工程师
套路：决策树+随机森林+GBDT+线性回归
特征非线性临界点划分、不同种类特征的自动组合

五 NB 朴素贝叶斯

1.求p(y|x)的方法
p(y│x)=p(y│x^1,x^2,⋯x^m )=(p(x^1,x^2,⋯x^M│y)p(y))/p(x^1,x^2,⋯x^M ) ∝p(x^1,x^2,⋯x^M│y)p(y)
= p(x^1 │y)⋯p(x^M│y)p(y)条件独立性假设
2.拉格朗日乘数法
证明按频率选可以得到极值
3.连续值
设xj为连续值，通常假设p(xj|y)服从正态分布

六 Ensemble 集成学习

1.策略：改变数据集
Bagging：Bootstrap取样，即有放回
没被采样的概率
Random Forests
随机造K个树：属性选取随机，属性划分随机
那些取样随机的树会被处理为噪声
2.策略：改变算法（权值）
Boosting: Adaboost
训练误差的上界

Chapter 2 结构学习

七概率图模型

1.定义
节点：随机变量
边：随机变量的关系
2.分类
有向边：贝叶斯网络
无向边：马尔科夫随机场
3.转换：
有向图到全概率公式、公式到有向图
任意概率式子，都可借助sum rule变成p(node|pa)的形式
4.盘子模型
5.条件独立
若则称
等价形式：
6.概率图转化为条件独立
Tail to tail 成立
Head to tail 成立
Head to head 不成立
考虑A与B之间的每条（无向）路径，若A与B之间的每条路径都被“阻断”，那么：条件独立成立；反之，不成立。
定义：“A与B之间的某条路径”被阻断，当且仅当，这条路径中存在某个节点满足如下两个条件之一
这个节点在集合C中，且它呈现head-to-tail或tail-to-tail的模式
它呈现head-to-head的模式，且它和它的所有子孙节点都不在C中

八概率矩阵分解

1.电影评分的概率图模型
见笔记
2.目标函数
见笔记

九共现矩阵

1.共现矩阵的推导
2.主题模型PLSA
D->Z->W
隐变量Z有k个取值
需要学习的参数N +NK+KM
推导：EM算法（很重要）
3.引入隐变量的目的：获得可观察变量和隐变量的关系

十混合高斯模型

1.模型输入输出
2.方法论：概率图建模
总结随机变量、引入隐变量、建立图模型、EM求解

十一条件随机场

1.无向图概率图模型
分解
条件独立
2.CRF

十二神经网络

1.实际的观点：神经网络以图形化的方式刻画出从输入到输出的计算过程
2.RNN应用
序列标注
PartOfSpeech标注；分词
翻译系统
核心技术：短语对齐
词嵌入：词->向量
注意力机制Scoring：前面的字词不能忘
对话系统
多机制建模（回答的丰富性）
要求:可控（安全）、流畅、相关
3.Viterbi vs. BeamSearch(RNN)

Notes:

Chapter0 绪论

Chapter1 单变量学习（标签学习）

一 决策树

二 回归树

三 GBRT

四 LR 逻辑回归

五 NB 朴素贝叶斯

六 Ensemble 集成学习

Chapter 2 结构学习

七 概率图模型

八 概率矩阵分解

九 共现矩阵

十 混合高斯模型

十一 条件随机场

十二 神经网络