面试理论

AI 机器学习

发布日期: 2022-07-11

更新日期: 2022-07-11

文章字数: 884

阅读时长: 3 分

阅读次数:

1. 特征归一化

1.为什么需要对数值类型的特征做归一化？

为了消除数据特征之间的量纲的影响，我们需要做归一化处理，使得不同的指标之间具有可比性。
以梯度下降为例，不同指标的更新速度变得更为一致，容易更快地通过梯度下降找到最优解。

2.说说你了解的归一化的方法？

（1）线性函数归一化（Min-Max Scaling）：对原始数据进行线性变换，结果映射到[0,1]范围$X_{norm}=\frac{X-X_{min}}{X_{max}-X_{min}}$

（2）零均值归一化（Z-Score Normalization）：将原始数据映射到均值为0，标准差为1的分布上，假设原始均值为$\mu$，标准差为$\sigma$则归一化的公式定义为$z=\frac{x-\nu}{\sigma}$

**3.什么模型用归一化比较多？ **

通过梯度下降求解的模型通常需要归一化的，包括线性回归、逻辑回归、支持向量机、神经网络等模型，但是对于决策树模型等并不适用（决策树主要是考虑信息增益比，而这个和特征是否归一化无关）。

2. 类别型特征

注：类别型特征主要是指诸如性别（男，女）、血型（A、B、AB、O）等，通常是以字符串的形式。除了决策树等少数树模型可以直接处理字符串形式的输入，对于逻辑回归、支持向量机等模型，类别特征必须经过处理转换成数值特征才能正确工作。

1.在对数据进行预处理的时候，应该怎样处理类别特征？

序号编码：类别之间具有大小关系
独热编码：类别之间无大小关系
二进制编码：先给每一类一个ID再映射成二进制编码（节省空间，哈希映射）

3. 高维组合特征的处理

1.什么是组合特征？如何处理高维组合特征？

为了提高复杂关系的拟合能力，在恃征工程中经常会把一阶离散特征两两组合，构成高阶组合特征；

处理方法：用低维向量表示：$Y=sigmoid(\sum_{i}\sum_{j}w_{ij}<x_i,x_j>)$

4. 组合特征

1.怎样有效地找到组合特征？

梯度提升决策树

5. 文本表示模型

1.文本表示模型有哪些？他们各自的优缺点？

词袋模型和N-gram模型
主题模型
词嵌入模型和深度学习模型

6. word2Vec

7. 图像数据不足时的处理方法

1.在图像分类任务中，训练数据不足会带来什么样的问题？如何缓解数据量不足带来的问题？

具体到国像分类任务上，训练数据不足带来的问题主要表现在过拟合方面，即模型在训练样本上的效果可能不错但在测试集上的泛化效果不佳。

解决方法：

简化模型
添加约束项缩小假设空间（L1/L2正则项）
集成学习
dropout超参数等等

数据扩充：，即根据些先验知识在保持特定信息的前提下对原始数据进行适当变换以达到扩充数据集的效果。
具体到图像：随机旋转、平移缩放、裁剪……
颜色变换
高斯噪声、椒盐噪声
亮度、清晰度、对比度、锐度等

Gao

https://ghy0202.github.io/2022/07/11/ji-qi-xue-xi-te-zheng-gong-cheng/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Gao !

面试理论

算法训练26

第七次模拟考试

2022-07-11 算法与数据结构

编程练习机考

算法训练25

第六次模拟考试

2022-07-10 算法与数据结构

编程练习机考

机器学习-特征工程

1. 特征归一化

2. 类别型特征

3. 高维组合特征的处理

4. 组合特征

5. 文本表示模型

6. word2Vec

7. 图像数据不足时的处理方法

你的赏识是我前进的动力