试解面试题-1

看到机器之心发布的25个机器学习面试题，发现不会的还不少，记录一下防止以后面试不会。

因为基本找不到直接的答案，现有的回答可能还有错误，欢迎指正。

1: 不是，置信度表示95%的试验情况下，输出值在真实估计值的置信区间（正态分布$\pm1.96\frac {\sigma} {\sqrt{n} } $）内，不保证是真实的估计值。

2: Hadoop在读取和写入时会考虑节点之间的距离（带宽），保证较好的读写性能；KNN在分类时通过计算距离最小的的K个样本来确定待分类数据点的类别。

3: 决策树。单层的感知机无法表达异或函数，而两层的决策树可以。

4: 决策树。不使用激活函数，整个网络作为整体对于输入仍然是线性的。
决策树是用超平面对数据进行划分，可以得到非线性的决策边界。

5: 神经网络可以通过自编码器的方式来实现数据的降维：即输入输出均为原数据，中间层维度小于原数据维度；整体训练使误差降低，取中间层输出即为数据的降维表达。

6: 去除噪声；表示路程、价格等属性的偏置。

7: 看这里吧。https://blog.csdn.net/zouxy09/article/details/24971995

8: 中心极限定理：任何独立同分布的随机变量序列, 不论它的分布是什么, 只要存在有限的方差, 那么它们的标准化部分和都渐近于标准正态分布。然后由正态分布的性质可知，有99%的数据落在均值附近+/-3个标准差之内。
为什么题给的是89%，这里处理有错？

9: 矩阵乘法的时间复杂度 $O(N^{2.376})$ ，简单的公式 $a^2+b^2\leq(a+b)^2$ 。

10: 自变量不只是时间，过去的数据也是自变量的一部分。
仅有‘变量-时间’一组数据，对过去过拟合，预测能力不足？

11: 无力回答...
以特征数为节点数，能构成的不同的二叉树个数？但是特征不是可能会有重复使用的吗？

12: 神经网络需要的数据量较大，训练时间长；决策树参数少；决策树模型解释性好，可以用来提取规则。

13: 可以使用ES、GA等算法直接优化神经网络的参数。

14: 线性回归。

15: PCA学习一种线性投影将输入数据变换为元素之间彼此不相关的表示。自变量相关性较高会导致主成分保留的信息较多的来自与相关性的较高的数据，而其他的数据信息被较少的保留。
感觉这样理解有问题，直觉上相关性应该带来更好的压缩率啊。

16: 陨石撞地球是一个小概率事件，99%的准确率可能只是粗暴的将所有数据划分到‘不会发生’的类别。同时，陨石撞地球是一个代价敏感的问题。解决方法：1.添加其他评估指标（ $F_1$ 等）；2.对两种事件赋予非均等代价。

17: 决策树的split_node、神经网络的sigmoid函数、SVM的核函数等？

18: 因变量过多，变量数超过样本数， $X^TX$ 不满秩，得到的最小二乘的解不唯一。

19: 时序模型要考虑时间的先后顺序，随机分割数据会有数据泄露的问题。可以通过保证测试集数据时间顺序在训练集之后来解决一部分问题。这样带来另一个问题是数据前面的一部分不会出现在测试集，减少没次的训练集数量，增加折数可以减少这一部分的数据量。

20: 对于分类问题会出现随机选取的样本类别数量不平衡，可能导致得到的分类器对某类过拟合。在原数据类别较为平衡的情况下可以分别对各类随机抽样；原类别不平衡的话可以采用小类过采样，增加其他评估指标等办法。

21: 不太明白。我的理解，准确率是模型性能的一个方面。牺牲精度提升模型运行速度？

22: 并行化使用随机森林。随机森利采用bagging的思想，可以并行化；提升树使用boosting的思想，根据前一轮学习结果选取训练集，树是串行生成的。

23: 感知机能（且一定能）将线性可分的数据集分开，并且感知机训练的迭代步数是有上界的。
线性判别分析（最小化同类投影点距离，最大化异类投影点距离）能用在这里吗？

24: KNN的空间复杂度较高；较小的内存下，logistics回归可以使用mini-batch进行训练。

25: 虽然数据点和特征增长的比例相同，但特征维度增加，变量可能的配置以指数级增长，多收集的数据点不足以描述数据样本特征空间。

参考

https://blog.csdn.net/heyongluoyao8/article/details/49408131
https://blog.csdn.net/login_sonata/article/details/73929426
http://sofasofa.io/forum_main_post.php?postid=1001106
https://www.leiphone.com/news/201706/QFydbeV7FXQtRIOl.html

ji

试解面试题-1

参考

下一篇：二叉树复习