我是学Java的，想尝试大数据和数据挖掘，该怎么规划学习 spark 聚类

2020-10-11知识17

Kafka是什么 Kafka是一种高吞吐量的分布式发布订阅消息系统，它可以处理消费者在网站中的所有动作流数据。这种动作是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于。

sparkr做kmeans 聚类能指定迭代次数吗？怎么指定？我把K-mediods的matlab代码贴出来，你好2113好学习5261一下function label=kmedoids(data，k，start_data)kmedoids k中心点算法函数data 待聚类的数据4102集，每一行1653是一个样本数据点k 聚类个数start_data 聚类初始中心值，每一行为一个中心点，有cluster_n行class_idx 聚类结果，每个样本点标记的类别初始化变量n=length(data)；dist_temp1=zeros(n，k)；dist_temp2=zeros(n，k)；last=zeros(n，1)；a=0；b=0；if nargin=3centroid=start_data；elsecentroid=data(randsample(n，k)，：)；endfor a=1：ktemp1=ones(n，1)*centroid(a，：)；dist_temp1(：，a)=sum((data-temp1).^2，2)；end[~，label]=min(dist_temp1，[]，2)；while any(label~=last)for a=1：ktemp2=ones(numel(data(label=a))，1)；temp3=data(label=a)；for b=1：ntemp4=temp2*data(b，：)；temp5=sum((temp3-temp4).^2，2)；dist_temp2(b，a)=sum(temp5，1)；endend[~，centry_indx]=min(dist_temp2，[]，1)；last=label；centroid=data(centry_indx，：)；for a=1：ktemp1=ones(n，1)*centroid(a，：)；dist_temp1(：，a)=sum((data-temp1).^2，2)；end[~，label]=min(dist_temp1，[]，2)；endend

如何快速了解Spark？环境搭起来，。m%n#Settings to quiet third party logs that are too verbose log4j.logger.org.eclipse.jetty=WARN log4j.logger.org.eclipse.jetty.util。.

我是学Java的，想尝试大数据和数据挖掘，该怎么规划学习羡慕，我是学Python的，没有java的优势，Hadoop和mapreduce都是用java编的，这两个深入学习一下，如何架构，常用的聚类和分类算法深入学习一下，有余力的话学习spark，spark是在Hadoop和mapreduce的基础上发展而来的，有很多现成的数据挖掘的java接口可以用，未来的大数据方向的趋势还是spark的天下

#dot #聚类 #数据处理 #大数据 #kafka

阅读全文

我是学Java的，想尝试大数据和数据挖掘，该怎么规划学习 spark 聚类

随机阅读