模式识别线性代数统计分析

发布日期: 2022-05-14

更新日期: 2022-05-17

文章字数: 4.3k

阅读时长: 15 分

阅读次数:

1. 课程纲要

1、模式识别系统的基本构成：

数据获取→预处理(去噪、去模糊、图像校正)→特征提取和选择→分类器设计【分类决策】

2、模式识别中距离的度量问题

欧氏距离：（中学数学“距离”）
L1距离：向量差的绝对值距离
L2距离：同欧氏距离
马氏距离：考虑相关性问题
明氏距离：
余弦距离：余弦角

3、各种距离的定义

点vs点
点vs点集
类内距离
类内散布矩阵
多类模式集散布矩阵
类间距离和类间散布

4、特征提取和特征选择（第五章）

特征提取和特征选择的基本概念
特征选择
- 对于独立特征的选择准则
- 一般特征的散布矩阵准则
特征提取
- 主成分分析最优投影的具体计算过程以及在人脸识别中的应用

5、深层卷积神经网络（第七章）

卷积网络的基本构成：卷积层、池化层、汇聚、激活函数等特征提取
典型的深层卷积神经网络：
- AlexNet,VGG,DenseNet（基本结构，网络发展历程，变化的原因等等）
常用技巧

6、线性判别分类（第三章）

多分类的3种情况
广义线性判别
Fisher判别
- 基本思想
- Fisher准则定义
- 最佳变换向量的求解
感知器算法
- 两类以及多类的情况

7、统计判别（第四章）

统计判别的模式分类问题
贝叶斯分类
- 最小错误率的贝叶斯判别
- 最小风险的贝叶斯判别
- 二者的关系
正态分布模式的贝叶斯判别
- 条件概率服从正态分布
- 核心是计算每类模式羊背的均值和协方差矩阵
- 均值和协方差矩阵估计量的迭代计算

8、最近邻分类和稀疏表示分类（第六章）

最近邻分类
- 最近邻线/面/子空间分类，K近邻分类
线性回归分类
- 线性回归表示分类（L正则）
- 基于模式样本重建的思想判断模式样本的类别归属：
  - 局部表达-局部重建
  - 全局表达-全局重建
- 稀疏表示分类（L1正则）/稳健的稀疏表示

9、聚类分析（第二章）

聚类分析基本概念
聚类准则函数法
基本聚类方法
- 试探聚类、动态聚类
K均值聚类算法以及流程
基于密度的聚类算法

8、生物特征识别系统

生物特征技术简介
基于生理特征的识别技术
基于行为特征的识别结束
重点理解应用背景和技术现状

2. 分章节知识点总结

考试题型：模式识别考察的还是比较……等我考完了再写😜学起来超有意思的一门课~

填空10%

选择10%

简答20%

综述60%

2.1 第一章引言

2.1.1 概念

1、模式系统的目标：在特征空间和解释空间之间找到一种映射关系，这种映射也被称作假说。

监督学习：在特征空间找到一个与解释空间结构相对应的假说（在给定模式下假定一个解决方案）
非监督学习：在解释空间找到一个和特征空间结构相对应的假说

2、模式识别的主要方法：数据聚类、统计分析、结构模式识别、神经网络

数据聚类：用某种相似性度量方式将原始数据组织成有意义的和有用的各种数据集，是一种非监督的方法，解决方案是数据驱动的
统计分类：基于概率统计模型得到各个类别的特征向量的分布，以取得分类的方法。特征向量的分布的获得是基于一个类别已知的训练样本集，是一种监督的学习方法，分类器是概念驱动的
结构模式识别：该方法通过考虑识别对象的各个部分之间的联系来达到分类的目的。识别采用结构匹配的形式，通过计算一个匹配程度值（matching score）来评估一个未知的对象或未知对象某些部分与某种典型模式的关系如何。当成功地制定出了一组可以描述对象部分之间关系的规则后，可以应用一种特殊的结构模式识别方法 – 句法模式识别，来检查一个模式基元的序列是否遵守某种规则，即句法规则或语法。
神经网络：神经网络可以实现监督和非监督学习条件下的分类

3、模式识别过程：数据获取→预处理(去噪、去模糊、图像校正)→特征提取和选择→分类器设计【分类决策】

数据获取：用计算机可以运算的符号来表示所研究的对象
预处理单元：去噪声，提取有用的信息，对退化现象进行复原
特征提取和特征选择：对原始数据进行变换，得到最能反映分类本质的特征
- 测量空间：原始数据组成的空间
- 特征空间：分类识别赖以识别以进行的空间
- 模式表示：维数较高的测量空间->维数角第的特征空间
分类决策：在特征空间中用模式识别方式将被识别对象归为某一类（基本做法，在样本训练集基础上确定某个判决规则，使得按这种规则对被识别对象进行分类所造成的错误识别率最小或引起的损失最小）

4、一些概念：

训练集：是一个已知样本集，在监督方法中，用它来开发模式分类器
测试集：在设计识别和分类系统时没有用过的独立样本集
系统评价原则：为了更好地对模式识别系统性能进行评价，必须使用一组独立于训练集的测试集对系统进行测试

2.1.2 概率统计知识

1、随机向量：每次观测值不一定相同，所以对许多对象而言，各个特征分量都是随机变量，即许多对象的特征向量在n维空间中呈随机性分布

一个特征可以看作n维空间中的向量或点，此空间称为模式识别的特征空间$R^n$

数学期望和方差

协方差矩阵

eg:求随机向量的数学期望和协方差矩阵

两个向量之间的协方差矩阵

import numpy as np
# 首先初始化一个特征集合，一共4个样本，特征维度为8
arr=np.random.randint(1,5,(4,8))
"""
array([[3, 2, 2, 2, 4, 2, 1, 1],
       [2, 4, 2, 4, 2, 1, 4, 2],
       [2, 4, 1, 4, 4, 2, 3, 2],
       [3, 1, 3, 2, 3, 2, 2, 1]])
"""
# 然后我们看一下它的均值,按照列，也就是每个特征取自己的均值
avg=np.mean(arr,axis=0)
"""
array([2.5 , 2.75, 2.  , 3.  , 3.25, 1.75, 2.5 , 1.5 ])
"""
# 然后我们看一下它的均方差
var=np.var(arr,axis=0)
"""
array([0.25  , 1.6875, 0.5   , 1.    , 0.6875, 0.1875, 1.25  , 0.25  ])
"""
# 协方差，是两个向量之间的
# 也有关于自己的

看看自己手算的对不对😜

2、分布：

一维正态密度函数：

$$
\rho(x)=\frac{1}{\sqrt{2Π}\sigma}exp{\frac{-(x-\mu)^2}{2{\sigma}^2}}
$$

多维正态密度函数：

$$
\rho(x)=\frac{1}{\sqrt{2Π}\sqrt{C}}exp{\frac{-(x-\mu)^TC^{-1}{(x-\mu)}}{2}}
$$

2.1.3 线性代数

见基础知识

2.2 第二章聚类分析

纲要复述：

聚类分析基本概念

聚类准则函数法

基本聚类方法

试探聚类、动态聚类

K均值聚类算法以及流程

基于密度的聚类算法

2.2.1 聚类分析的基本概念

1、聚类分析是无监督学习

标记未知
揭示数据地内在性质和规律

2、聚类与分类（有监督学习）的区别在于：聚类不依赖于预先定义好的类，不需要训练集，因此通常作为其他算法的预处理步骤。

3、聚类的定义：对一批没有标出类别的模式样本集，按照样本之间的相似程度分类，相似的归为一类，不相似的归为另一类，这种分类称为聚类分析，也称为无监督分类。

4、聚类的两个目标：簇内距离最小化和簇间距离最大化

5、模式相似/分类的依据：点与点之间的距离作为模式相似性的测量依据

6、特征选择的维度：对于冗余特征，需要去掉相关程度过高的特征（降维）

7、降维的方法：

设有N个样本，它们的特征维度是n,则有nxn维的相关矩阵R，其中$r_{ij}$是第i维和第j维的相关系数
$$
r_{ij}=\frac {\lambda_{ij}}{\sigma_{ii}\sigma_{jj}}
$$
分子是协方差，分母是标准差。

$r_{ij}$ 的范围[0,1],如果 $r_{ij}=0$ 表示两个变量完全不相关，如果 $r_{ij}=1$ 则表示两个变量完全相关，当接近1的时候可以省略其中一个特征或者将它们合并成一个特征，从而使维度降低一维

2.2.2 模式相似性的测度和聚类准则

1、相似性测度

定义：衡量模式之间相似性的一种尺度，如：尺度
目的：为了能将模式划分为不同的类别，必须定义一种相似性的测度，来度量同一类样本之间的类似性和不属于同一样本之间的差异性

2、模式相似性测度可以分为：

距离测度
- 欧式距离：
  $$
  D=||X_1-X_2||
  $$
  
  最常见，量纲对分类有影响
  
  距离越小越相似
  
  各特征向量对应的维度上应当是相同的物理量，注意物理量单位的统一【解决方法：使特征数据标准化，使其与变量的单位无关】
- 马氏距离：
  $$
  D^2=(X-M)^TC^{-1}(X-M)
  $$
  
  特点：马氏距离对于一切非奇异线性变换都是不变的，这说明它不受特征量纲选择的影响，并且是平移不变的
  
  协方差矩阵在实际中难以计算
- 明式距离：
  
  m=2，欧式距离
  
  m=1，街坊距离
例题：
相似测度：
- 角度相似性函数：
  $$
  s(x,y)=cos(x,y)=\frac{x^Ty}{||x||·||y||}
  $$
  这种测度函数对于坐标系的旋转和尺度缩放是不变的，但是对于一般的线性变换和坐标系的平移具有不变性。
- 相关系数测度：数据中心化后的矢量夹角余弦
  $$
  r(x,y)=\frac{(x-\overline{x})^T(y-\overline{y})}{[(x-\overline{x})^T(x-\overline{x})(y-\overline{y})^T(y-\overline{y})]^{1/2}}
  $$
  
  这种相似性测度函数对于坐标系的平移、旋转和尺度缩放都是不变的
用距离测度的时候，距离越小样本相似度越高，用相关性系数的时候，相关系数越大样本越相似
匹配测度：当特征只有两个状态(0,1)时，常用匹配测度
- Tanimoto测度：
  $$
  S(X_i,X_j)=\frac{X_i,X_j中共有的特征数目}{X_i,X_j中占有的特征数目的总数}
  $$

4、类的特征的刻画：

（1）类的均值，又称类的中心

（2）类的直径，类中任意两个点之间的最大距离

（3）类的样本散布矩阵和协方差矩阵

样本散布矩阵：

$$
A_G=\sum^{n_G}_{i=1}(x_i-\overline{x_G})(x_i-\overline{x_G})^T
$$

样本的协方差矩阵为：

$$
S_G=\frac{1}{m-1}A_G=\frac{1}{m-1}\sum^{n_G}_{i=1}(x_i-\overline{x_G})(x_i-\overline{x_G})^T
$$

5、聚类准则：类间距离大，类内距离小

确定聚类准则的两种方式：

（1）阈值准则：根据规定的距离阈值进行分类的准则

（2）函数准则：利用聚类准则函数进行分类的准则

聚类准则函数：在聚类分析中，表示模式之间相似或者相异的函数

6、聚类准则函数法

一种聚类准则函数J的定义,代表了簇内误方差之和，目的：使得J达到最小的簇类形式，适用于样本密集且数目不多，不同类的样本严格分开的情况
$$
J=\sum^C_{j=1}\sum_{x∈S_j}||x-m_j||^2
$$

2.2 3 基本聚类方法

1、基于试探的聚类搜索算法

（1）按照近邻规则的简单试探算法：

问题：有N个待分类的模式{X1,X2,……Xn} ，要求按距离阈值T分类到以{Z1,Z2……}为聚类中心的模式类中

算法描述：P48-P49

算法特点：

局限性：很大程度上依赖第一个聚类中心的位置选择、待分布模式样本的排列次序、距离阈值T的大小以及样本分布的几何性质

优点：计算简单（快速）

（2）最大最小距离算法：

问题：有N个待分类的模式{X1,X2,……Xn} ，要求按距离阈值T分类到以{Z1,Z2……}为聚类中心的模式类中

算法描述：P56

先找中心后分类，关键是怎么开新类，聚类中心如何确定

2、层次聚类法：P61

每个样本先自成一类，然后按照距离逐步合并，减少类数

算法描述：

例题

答案：给出聚类过程和聚类树状表示 PPT69页

（2）动态聚类算法

K-均值算法：聚类中心的选择应使准则函数J极小，即使$J_j$的值极小。

算法描述：P79

为什么说是动态聚类算法？

因为聚类过程中中心位置或者个数发生变化。

K均值算法的结果受到如下选择的影响：聚类数目、聚类中心的初始分布、模式样本的几何性质（一般适合于类别数目已知的情况）

优点：算法简单快速；能处理大数据，时间复杂度为$O(nkt)$;当簇是密集的、球状的或者团状的，聚类效果较好

缺点：必须事先给出簇的数目$k$;对初值敏感，对于不同的初始值，可能会导致不同的聚类结果；不适合发现非凸状的簇，或者大小差别很大的簇；对于噪声和孤立点数据敏感。

K中心点算法

Step1:首先随机选择K个对象作为初始中心点（初始中心点称为代表对象，其他点为非代表对象）

Step2:寻找每个类真正的中心点，该算法重复迭代，直到每个代表对象都成为它的簇的实际中心点，或者最靠近中心点的对象

基本思想：

首先为每个簇随意选择选择一个代表对象; 剩余的对象根据其与代表对象的距离分配给最近的一个簇;然后反复地用非代表对象来替代代表对象, 以改进聚类的质量，聚类的质量用一个代价函数来估算，该函数评估；对象与其参照对象之间的平均相异度：
$$
d(i,j)=|x_{i1}-x_{j1}|+|x_{i2}-x_{j2}|+……+|x_{in}-x_{jn}|
$$
==例题==：P96

2.2.4 基于密度的聚类

核心思想：只要一个区域内的密度大于某个阈值，就把它加到与之相近的聚类中去。

DBSCAN：

稠密区域边缘上的点(边界点)：在半径Eps内点的数量小于MinPts，但是在核心点的邻居；

稀疏区域中的点(噪声)：任何不是核心点或边界点的点.

算法流程：

特点：对噪声不敏感；可以处理形状大小不同的数据

优点：可以对任意形状的稠密数据集进行聚类，相对的，K-Means之类的聚类算法一般只适用于凸数据集；可以在聚类的同时发现异常点，对数据集中的异常点不敏感；聚类结果没有偏倚，相对的，K-Means之类的聚类算法初始值对聚类结果有很大影响；不需要指定簇的个数，在邻域参数(Eps,MinPts)给定的情况下，结果是确定的，只要数据进入算法的顺序不变，与初始值无关，这里就和KMeans不同。

缺点：如果样本集的密度不均匀、聚类间距差相差很大时，聚类质量较差，这时用DBSCAN聚类一般不适合；如果样本集较大时，聚类收敛时间较长，此时可以对搜索最近邻时建立的KD树或者球树进行规模限制来改进；联合调参比较复杂且对结果有较大影响；对于高维数据计算比较麻烦，造成“维数灾难”