数据挖掘中常见的“异常算法”有哪些,都是怎样计算的? 数据挖掘约等于机器学习,机器学习算法可分为两种:一是有监督算法,即参数需要利用已有知识加以训练的算法,二是半监督算法,即虽不需要训练参数但需要定义任务的算法。不存在真正意义的无监督算法,理由见最后一段。有监督算法包括:分类(knn/logit/probit/cart/treenet/svm/ann…)、预测(regression)、推理(rbr/cbr);半监督算法包括:聚类(kmeans/birch/…)、pca(sdv)、频繁项集分析与关联分析(apriori)。有监督算法替代人工推理,运用已知经验解决已知问题,半监督算法主动探索对象,发现隐秘关联,实现未知知识发现。几乎不可能实现真正意义上的无监督算法,因为无监督意味着机器的自由意志,机器可以自主发起任务而无须人类布置。如果真正的无监督算法能实现,强人工智能就能实现。对数据挖掘有兴趣: 为了实现“ 海量数据处理和挖掘的基本算法”这一点我该怎么学习,或者培训点什么课程 1楼疯了,那里都能看到。是这样的,数据挖掘是建立在庞大的数据集上的。基本算法没法说,太乱。建议你先找点书去看看。比如《数据挖掘导论》,《数据挖掘概念与技术》看看再说。在数据挖掘过程中,好像有些算法要求变量必须是正太分布的,我想知道什么时候需要对数据进行标准化处理? 标准化/归一化都是对变量进行scale的数据预处理基本方法,是否采用或采用哪种,完全取决于你使用的数据分析处理算法的需求。此类预处理主要有两个目的,一是使变量间尺度接近,避免出现计算误差或影响如距离之类度量的均衡性。二是使各变量值或样本矢量的度量值在算法要求的区间内。至于正态分布性,一般是算法的适用假设,应该在算法应用前或后做此检验以保证可靠性,而不是要求用什么变换方法把数据处理成正态分布。如误差的正态分布假设是回归无偏的基本条件,或某些基于类簇是正态分布的聚类算法只有在问题确实符合这种模式下才能得到正确结果。当然,如果仅仅要将特定分布数据转换成另一种分布还是有办法的。但用途应该比较特殊。用于数据挖掘的分类算法有哪些,各有何优劣? 尝试将quora上的这翻译了下。第一次翻译,不好之处请见谅。What are the advantages of different…急用!!!数据挖掘的六种常用算法和技术分别是什么? 分类和回归关联规则聚类分析孤立点分析演变分析数据挖掘中常见的“异常算法”有哪些,都是怎样计算的? 1.Ksigma:数值异常检测中常用的方法,简单易用2.Box Plot:数据如果不满足正态假设的话,可以用Box plot3.Isolation forest:典型的无监督算法,不需要任何标注,只需要数据即可。4.SOS异常检测:类似KNN的思路,但效率成问题5.LOF:同样是可能有效率问题6.基于聚类的方法:聚类结果中的大类认为正常,小类认为异常怎么从一个有算法基础但是没有项目经验的学生,成长为数据挖掘工程师? 考研数一146分怒答。同养是其他专业想要尝试转数据挖掘,我的学习路线如下,供题主参考:1,coursera上NG…
随机阅读
- 碱液氧化塔酸洗 酸碱洗涤塔的工作原理
- 原90年亚运村水上乐园 去广州玩,想去长隆水上乐园,带着孩子,想问下去过的人,那对年龄有没限制?太小的孩子能去吗?
- 城市规划史上出现过哪些重大失误? 双流天然气一到高峰期气就很小
- 浅谈供应链金融业务模式有哪些? 供应链管理业务模式
- 袁希福看好的脑癌有几个 袁希福的中药对肺癌有用吗拜托了各位 谢谢
- 骇客小说txt全集免费下载 骇客伶姨贼书吧
- 跑得快怎么打 酶切载体比对照跑得快
- 欧莱雅清润净白海水仙晶萃露成分 有哪些化妆品和护肤品,你知道好用,但是用过之后才发现竟然这么好用?
- 20171222股市分析及2017.12.25股市预测? 卫信康目标价位
- 北京市朝阳区辛庄村村委会电话 我家住朝阳区司辛庄村,不知道今年能否列入拆迁范围
- 武林广场附近有什么适合家庭的餐厅?要口味环境好些的 杭州武林路附近商场酒吧餐厅
- 我发现了荼水的秘密 作文开头 年俗作文800字
- 海贼王骷髅布鲁克的经典语录 海贼王经典句语音
- 上海师范大学是几本啊 为什么好多人说二本 上海师范大学是二本吗
- 无限之美女如云QQ群号 军训和教官谈恋爱的女学生心里是怎么想的?
- 应收账款账龄分析计提比例 账龄分析标准
- 货物防水袋 为什么快递的包装那么难打开,能不能做到既密封又便于撕开?
- 当代大学生心理健康现状分析与对策 大学生心理健康问题的对策
- 茂名亿城名苑价格 宜兴二手房价高不高有人知道吗
- 上东莱克辛顿 莱克辛顿高中