在数据挖掘过程中,有哪些信息增益的替代指标,找出相关英文论文,我只找到了基尼指数,帮帮我。
不仅仅是选择的算法是10,其实选择18的算法只是想拿出一个可以称之为经典算法的数据挖掘领域,影响深远。
C4.5
C4.5算法是一种分类决策树算法,也是一种机器学习算法。核心算法是ID3算法。C4.5算法继承了ID3算法的优点,ID3算法在以下方面有所改进:
1)提高信息增益率,选择属性克服偏差值选择属性信息增益选择属性的不足;
2)树形结构中的剪枝;
3)完成过程中连续属性的离散化;
4)数据不完整。
C4.5算法有以下优点:生成的分类规则易于理解,准确率高。其缺点是在树形结构中,对数据集进行顺序扫描和排序,导致算法效率低下。
2。k-均值算法
k-means算法K-means算法是一种聚类算法,分为K,K
支持向量机
支持向量机(SVM)是SV机器(通常称为SVM)的简称。这是一种监督学习方法,广泛应用于统计分类和回归分析。将支持向量机映射到一个高维空间,在这个空间中创建一个具有最大区间的超平面。两个相互平行的超平面,位于单个数据的超平面的两侧。分离超平面以最大化两个平行超平面之间的距离。假设平行超平面之间的距离或间隙越大,分类器的总误差越小。优秀导游CJC·伯格《模式识别支持向量机指南》。范德瓦尔斯和巴纳德的支持向量机进行了比较。
Apriori算法
Apriori算法是挖掘布尔关联规则频繁项集最有影响力的算法,其核心是基于一套递归算法思想的两阶段频率。关联规则分为一维、单一和布尔关联规则。这里,支持度大于最小支持度的所有项目集被称为频繁项目集作为频率设置。
最大期望(EM)算法在统计计算的最大期望(EM)算法中寻找参数最大的期望,常用于机器学习和计算机视觉数据采集领域(数据聚类模型中的概率(probability)似然估计算法,其中概率模型依赖于不可观测的隐变量(latent variabl)。)
6。PageRank of
Google的PageRank算法于2006年9月获得美国专利,5438+0。这项专利是谷歌创始人拉里·佩奇(Larry Page)的。PageRank和years不是指页面,而是这个级别命名的。
PageRank是根据一个网站的数量和质量,内部和外部链接来衡量一个网站的价值。PageRank背后的概念是,每个链接页面都是一个投票页面。链接和投票意味着其他网站,这被称为“链接流行度”——衡量有多少人愿意被链接到他们的网站,你的网站。学术论文中经常引用PageRank这个被引用的概念——即引用自其他更一般的权威判断。
7 AdaBoost
Adaboost是一种迭代算法,其核心思想是不同的分类器(弱分类器)具有相同的训练集,然后这些弱分类器* * *一起形成一个更强的最终分类器(强分类器)。算法本身是通过改变数据分布来修正的,每个样本的权重是根据每个训练集中每个样本的分类情况和最终的总分类准确率来确定的。新数据集的权重被给予较低分类器的训练,并且每个训练上的最终分类被融合作为最终的决策分类。
KNN: K近邻分类
k近邻(KNN)分类算法是理论上比较成熟的方法,也是机器学习算法中最简单的思想?方法如下:如果特征空间中k最相似的样本(即特征空间中最接近的大部分样本)属于一个类别,则该样本也属于该类别。BR p & gt9。朴素贝叶斯
在众多分类模型中,最常用的两种分类模型是决策树模型(decision tree model)和Na?贝叶斯分类模型(NBC)朴素贝叶斯模型源于经典数学理论,具有坚实的数学基础和稳定的分类效率。同时,估计NBC模型所需的参数很少,缺失数据不敏感,算法相对简单。理论上,与其他分类方法相比,NBC模型的错误率最小。但实际上并不总是这样,因为NBC模型的假设是相互独立的,在实际应用中,这种假设往往是站不住脚的,对NBC模型的正确分类有一定的影响。NBC模型的分类比较了决策树模型在属性个数或属性间相关性较大时的效率。物业相关较少,NBC模式最优惠。
10。Car:分类和回归树
汽车,分类和回归树。分类树下有两个关键的想法。第一个想法是是?独立变量的递归分割空间;第二个想法是修剪和验证数据。