机器学习-特征工程


1. 特征归一化

1.为什么需要对数值类型的特征做归一化?

  • 为了消除数据特征之间的量纲的影响,我们需要做归一化处理,使得不同的指标之间具有可比性。
  • 以梯度下降为例,不同指标的更新速度变得更为一致,容易更快地通过梯度下降找到最优解。

2.说说你了解的归一化的方法?

(1)线性函数归一化(Min-Max Scaling):对原始数据进行线性变换,结果映射到[0,1]范围$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$

(2)零均值归一化(Z-Score Normalization):将原始数据映射到均值为0,标准差为1的分布上,假设原始均值为$\mu$,标准差为$\sigma$则归一化的公式定义为$z=\frac{x-\nu}{\sigma}$

**3.什么模型用归一化比较多? **

通过梯度下降求解的模型通常需要归一化的,包括线性回归、逻辑回归、支持向量机、神经网络等模型,但是对于决策树模型等并不适用(决策树主要是考虑信息增益比,而这个和特征是否归一化无关)。

2. 类别型特征

注:类别型特征主要是指诸如性别(男,女)、血型(A、B、AB、O)等,通常是以字符串的形式。除了决策树等少数树模型可以直接处理字符串形式的输入,对于逻辑回归、支持向量机等模型,类别特征必须经过处理转换成数值特征才能正确工作。

1.在对数据进行预处理的时候,应该怎样处理类别特征?

  • 序号编码:类别之间具有大小关系
  • 独热编码:类别之间无大小关系
  • 二进制编码:先给每一类一个ID再映射成二进制编码(节省空间,哈希映射)

3. 高维组合特征的处理

1.什么是组合特征?如何处理高维组合特征?

为了提高复杂关系的拟合能力,在恃征工程中经常会把一阶离散特征两两组合,构成高阶组合特征;

处理方法:用低维向量表示:$Y=sigmoid(\sum_{i}\sum_{j}w_{ij}<x_i,x_j>)$

4. 组合特征

1.怎样有效地找到组合特征?

梯度提升决策树

5. 文本表示模型

1.文本表示模型有哪些?他们各自的优缺点?

  • 词袋模型和N-gram模型
  • 主题模型
  • 词嵌入模型和深度学习模型

6. word2Vec

7. 图像数据不足时的处理方法

1.在图像分类任务中,训练数据不足会带来什么样的问题?如何缓解数据量不足带来的问题?

具体到国像分类任务上,训练数据不足带来的问题主要表现在过拟合方面,即模型在训练样本上的效果可能不错 但在测试集上的泛化效果不佳。

解决方法:


  • 简化模型

  • 添加约束项缩小假设空间(L1/L2正则项)

  • 集成学习

  • dropout超参数等等


  • 数据扩充:,即根据 些先验知识 在保持特定信息的前提下 对原始数据进行适当变换以达到扩充数据集的效果。
  • 具体到图像:随机旋转、平移缩放、裁剪……
  • 颜色变换
  • 高斯噪声、椒盐噪声
  • 亮度、清晰度、对比度、锐度等

文章作者: Gao
版权声明: 本博客所有文章除特別声明外,均采用 CC BY 4.0 许可协议。转载请注明来源 Gao !
评论
  目录