朴素贝叶斯为什么是低偏差低方差?

日期:2021-01-05 00:52:01 | 人气: 53058

朴素贝叶斯为什么是低偏差低方差? 本文摘要:模型的实际误差是两者之和,如下图所示:如果是小的训练集,低偏差/低方差的分类器(例如朴素贝叶斯NB)比低偏差/低方差的大分类器(例如KNN)有更大的优势,因为后者不会超过数值。而且在实践中,训练样本往往存在一定的噪声误差,所以如果因为过于依附于训练集的极值而使用非常简单的模型,就不会使模型将训练集中的误差视为真实的数据分布特征,从而得到错误的数据分布估计。

机器学习算法太多了,分类、重入、聚类、推荐、图像识别等。找到合适的算法并不容易,所以在实际应用中,我们通常采用启发式自学的方法进行实验。

一般来说,在开始的时候,我们可以自由选择广受推崇的算法,比如SVM、GBDT和Adaboost。现在深度自学很热,神经网络也是不错的自由选择。

如果在意精度的话,最差的方法是通过交叉验证逐个测试每个算法,然后调整参数保证每个算法都超过拟合解,最后自由选择最差的。但是如果你只是在寻找一个足够好的算法来解决你的问题,或者这里有一些技巧可以参考,我们来分析一下每种算法的优缺点。

基于算法的优缺点,我们更容易自由选择。离差方差在统计学中,一个模型的优劣取决于离差和方差,那么我们再来推广一下离差和方差:离差:描述的是期望值(估计值)和实际值y的差值,离差越大,越偏离实际数据。方差:描述预测值p的变化范围和线性,p是预测值的方差,即与其期望值e的距离,方差越大,数据越集中。模型的实际误差是两者之和,如下图所示:如果是小的训练集,低偏差/低方差的分类器(例如朴素贝叶斯NB)比低偏差/低方差的大分类器(例如KNN)有更大的优势,因为后者不会超过数值。

但是随着你训练集的快速增长,模型对原始数据的预测能力会更小,偏差也不会减少。此时,低偏差/低方差分类器不会慢慢显示出它的优势(因为它们的递进误差低),此时低偏差分类器足以获得准确的模型。

当然,你也可以指出这是分解模型(NB)和判断模型(KNN)的区别。朴素贝叶斯为什么是低偏差低方差?以下内容众所周知:首先,假设你说出训练集和测试集的关系。很简单的说,我们要在训练集上自学一个模型,然后获取测试集使用。

方差

效果取决于测试集的错误率。然而,在许多情况下,我们不能假设测试集和训练集符合相同的数据分布,但是我们得到了几乎精确的测试数据。这时候只看到训练错误率,怎么能依赖测试错误率呢?因为训练样本很少(至少不够),所以训练集得到的模型并不真正准确。

(即使训练集中正确率为100%,也不能说明它刻画了真实的数据分布。我们的目的是告诉真实的数据分布,而不仅仅是训练集中有限的数据点。)。而且在实践中,训练样本往往存在一定的噪声误差,所以如果因为过于依附于训练集的极值而使用非常简单的模型,就不会使模型将训练集中的误差视为真实的数据分布特征,从而得到错误的数据分布估计。

这样,到了实际测试集,就乱成一团了(这种现象叫数值)。但不能用很简单的模型,否则当数据分布复杂时,模型足以描述数据分布(体现为即使在训练集中错误率也很高,小于数值)。数值表明,使用的模型比实际数据分布简单,而没有数值响应的模型比实际数据分布简单。在统计数据自学的框架下,在描述模型的复杂性时,有一种观点认为误差=偏差方差。

这里的误差可以解释为模型的预测误差率,它由两部分组成,一部分是由于模型过于简化而导致的估计不准确的偏差,另一部分是由于模型过于简化而导致的更大的变化空间和不确定性。所以更容易分析朴素贝叶斯。它只是假设每一个数据都被包含在内,这是一个经过非常严重修改的模型。

所以对于这样一个非常简单的模型,大部分情况下Bias部分比Variance部分小,也就是偏差小,方差小。在实践中,为了使误差尽可能小,我们在自由选择模型时必须平衡偏差和方差的比例,即平衡过拟合和欠拟合。偏差和方差与模型复杂度的关系在右图中更清晰:当模型复杂度降低时,偏差不会逐渐增加,而方差不会逐渐反向增加。


本文关键词:算法,模型,训练集,离差,登陆,错误率

本文来源:亚博网页版-www.junko-mizuno.com