ZKX's LAB

k近邻算法 误差平衡法 机器学习中的回归算法有哪些,各有何优劣?

2020-07-22知识16

数据挖掘中常见的「异常检测」算法有哪些? 图片来源:https://github.com/yzhao062/Pyod 2.模型检测效果 我们采用ROC和Precision@Rank n(prn)作为衡量标准。ROC大家很熟悉了,而后者指的是在假设有n个异常点时的。欠采样(undersampling)和过采样(oversampling)会对模型带来怎样的影响? 现在最常见的undersampling和oversampling方法是SMOTE,详见https://www. jair.org/media/953/live -953-2037-jair.pdf . 下面以逻辑回归为例,说一说oversample对模型的影响。机器学习中如何融合多种特征或分类方法? 我现在做分类遇到一个问题,就是我对手中的文本数据用词袋模型方式进行了分类,同时手中也有一些其他特征…k近邻算法的案例介绍 如 上图所示,有两类不同的样本数据,分别用蓝色的小正方形和红色的小三角形表示,而图正中间的那个绿色的圆所标示的数据则是待分类的数据。也就是说,现在,我们不知道中间那个绿色的数据是从属于哪一类(蓝色小正方形or红色小三角形),下面,我们就要解决这个问题:给这个绿色的圆分类。我们常说,物以类聚,人以群分,判别一个人是一个什么样品质特征的人,常常可以从他/她身边的朋友入手,所谓观其友,而识其人。我们不是要判别上图中那个绿色的圆是属于哪一类数据么,好说,从它的邻居下手。但一次性看多少个邻居呢?从上图中,你还能看到:如果K=3,绿色圆点的最近的3个邻居是2个红色小三角形和1个蓝色小正方形,少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于红色的三角形一类。如果K=5,绿色圆点的最近的5个邻居是2个红色三角形和3个蓝色的正方形,还是少数从属于多数,基于统计的方法,判定绿色的这个待分类点属于蓝色的正方形一类。于此我们看到,当无法判定当前待分类点是从属于已知分类中的哪一类时,我们可以依据统计学的理论看它所处的位置特征,衡量它周围邻居的权重,而把它归为(或分配)到权重更大的那一类。这就是K近邻算法的核心。

#统计学#机器学习

随机阅读

qrcode
访问手机版