ZKX's LAB

数据挖掘中的滑窗法 怎么从一个有算法基础但是没有项目经验的学生,成长为数据挖掘工程师?

2020-07-26知识18

数据挖掘中常见的“异常算法”有哪些,都是怎样计算的? 数据挖掘约等于机器学习,机器学习算法可分为两种:一是有监督算法,即参数需要利用已有知识加以训练的算法,二是半监督算法,即虽不需要训练参数但需要定义任务的算法。不存在真正意义的无监督算法,理由见最后一段。有监督算法包括:分类(knn/logit/probit/cart/treenet/svm/ann…)、预测(regression)、推理(rbr/cbr);半监督算法包括:聚类(kmeans/birch/…)、pca(sdv)、频繁项集分析与关联分析(apriori)。有监督算法替代人工推理,运用已知经验解决已知问题,半监督算法主动探索对象,发现隐秘关联,实现未知知识发现。几乎不可能实现真正意义上的无监督算法,因为无监督意味着机器的自由意志,机器可以自主发起任务而无须人类布置。如果真正的无监督算法能实现,强人工智能就能实现。对数据挖掘有兴趣: 为了实现“ 海量数据处理和挖掘的基本算法”这一点我该怎么学习,或者培训点什么课程 1楼疯了,那里都能看到。是这样的,数据挖掘是建立在庞大的数据集上的。基本算法没法说,太乱。建议你先找点书去看看。比如《数据挖掘导论》,《数据挖掘概念与技术》看看再说。在数据挖掘过程中,好像有些算法要求变量必须是正太分布的,我想知道什么时候需要对数据进行标准化处理? 标准化/归一化都是对变量进行scale的数据预处理基本方法,是否采用或采用哪种,完全取决于你使用的数据分析处理算法的需求。此类预处理主要有两个目的,一是使变量间尺度接近,避免出现计算误差或影响如距离之类度量的均衡性。二是使各变量值或样本矢量的度量值在算法要求的区间内。至于正态分布性,一般是算法的适用假设,应该在算法应用前或后做此检验以保证可靠性,而不是要求用什么变换方法把数据处理成正态分布。如误差的正态分布假设是回归无偏的基本条件,或某些基于类簇是正态分布的聚类算法只有在问题确实符合这种模式下才能得到正确结果。当然,如果仅仅要将特定分布数据转换成另一种分布还是有办法的。但用途应该比较特殊。用于数据挖掘的分类算法有哪些,各有何优劣? 尝试将quora上的这翻译了下。第一次翻译,不好之处请见谅。What are the advantages of different…急用!!!数据挖掘的六种常用算法和技术分别是什么? 分类和回归关联规则聚类分析孤立点分析演变分析数据挖掘中常见的“异常算法”有哪些,都是怎样计算的? 1.Ksigma:数值异常检测中常用的方法,简单易用2.Box Plot:数据如果不满足正态假设的话,可以用Box plot3.Isolation forest:典型的无监督算法,不需要任何标注,只需要数据即可。4.SOS异常检测:类似KNN的思路,但效率成问题5.LOF:同样是可能有效率问题6.基于聚类的方法:聚类结果中的大类认为正常,小类认为异常怎么从一个有算法基础但是没有项目经验的学生,成长为数据挖掘工程师? 考研数一146分怒答。同养是其他专业想要尝试转数据挖掘,我的学习路线如下,供题主参考:1,coursera上NG…

#数据挖掘算法#算法#聚类#监督分类#大数据

随机阅读

qrcode
访问手机版