ZKX's LAB

我在做文本数据挖掘,要用到聚类分析,想请问matlab、weka这两款软件哪一个更加适合文本聚类分析呢,谢谢 文本聚类 java

2020-10-07知识15

我在做文本数据挖掘,要用到聚类分析,想请问matlab、weka这两款软件哪一个更加适合文本聚类分析呢,谢谢 数据量小的话可以用Weka,数据量大一点可以考虑Spss或者Sas.Matlab不是专门干这个的。

对微博这种短文本进行分类或者聚类,会有什么前景吗

在大数据分析中哪些聚类算法是最常使用的? 聚类算法那么多,并不清楚具体哪些才是真正用的到的,不能够选择性的学习.

k-means聚类算法的java代码实现文本聚类 K-MEANS算法:k-means 算法接受输入量 k;然后将n个数据对象划分为 k个聚类以便使得所获得的聚类满足:同一聚类中的对象相似度较高;而不同聚类中的对象相似度较小。。

文本分类和聚类有什么区别

LDA进行文本分类时通过聚类来对文本分类效果如何? LDA训练得到文本主题分布概率矩阵后,利用K-Means聚类方法对该矩阵进行聚类与利用LDA模型推断每篇文档所…

如何在事先不知道文本数据聚类数的情况下对海量文本进行聚类? 如题目前手上有十一万条文本数据分别对应到17条分类目前想做到将分类增加到50类现在的作法是先用神经网路…

文本聚类 一个文本的中心怎么表示 最简单的来说文本聚类就是从很多文档中把一些 内容相似的文档聚为一类。文本聚类主要是依据著名的聚类假设:同类的文本相似度较大,而不同类的文本相似度较小。作为一种无监督的机器学习方法,聚类由于不需要训练过程,以及不需要预先对文本手工标注类别,因此具有一定的灵活性和较高的自动化处理能力,已经成为对文本信息进行有效地组织、摘要和导航的重要手段,为越来越多的研究人员所关注。一个文本表现为一个由文字和标点符号组成的字符串,由字或字符组成词,由词组成短语,进而形成句、段、节、章、篇的结构。要使计算机能够高效地处理真是文本,就必须找到一种理想的形式化表示方法,这种表示一方面要能够真实地反应文档的内容(主题、领域或结构等),另一方面,要有对不同文档的区分能力。目前文本表示通常采用向量空间模型(vector space model,VSM)。VSM法即向量空间模型(Vector SpaceModel)法,由Salton等人于60年代末提出。这是最早也是最出名的信息检索方面的数学模型。其基本思想是将文档表示为加权的特征向量:D=D(T1,W1;T2,W2;Tn,Wn),然后通过计算文本相似度的方法来确定待分样本的类别。当文本被表示为空间向量模型的时候,文本的相似度。

基于新闻评论的短文本聚类,怎么利用nlp相关技术? 首先回答短文本聚类用到哪些技术,中分分词(好的分词器会减少分词碎片),过滤停用词一些对于聚类影响不大的词语比如的,了,代词,助词等,语义扩展如本文的word2vec,特征选择,卡方,互信息,本文中用到的tfidf等,提问中说的内存,可以通过调整参数处理

现在有哪些成熟的适用于中文短文本主题聚类的平台可以使用? 国内的大数据中文主题聚类的工具比较多,但大部分都是近几年出现的大数据技术,通过对国内几家主流中文工…

#无监督学习#自然语言处理#文本分类#文本分析#聚类

随机阅读

qrcode
访问手机版