不均衡数据集上文本分类的特征选择研究如何通过条件协方差进行核特征选择？

2020-10-05知识13

数据集样本类别不均衡时，训练测试集应该如何做？ 6(2020).https：// doi.org/10.1186/s12864- 019-6413-7】当然，类别不平衡问题是一个深坑，很多出色的算法遇到它时也风光不再。不过有时候，你可能会发现类别不平衡并未对你。

adaboos文本分类的数据集，怎么构建矩阵？文本分类的步骤典型的文本分类过程可以分为三个步骤：文本表示（Text Representation）这一过程的目的是把文本表示成分类器能够处理的形式。最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。选取哪些词来代表一个文本，这个过程称为特征选择。常见的特征选择方法有文档频率、信息增益、互信息、期望交叉熵等等，[Yang&Pedersen，1997]对这几种方法做了比较。为了降低分类过程中的计算量，常常还需要进行降维处理，比如LSI。2分类器构建（Classifier Construction）这一步骤的目的是选择或设计构建分类器的方法。没有一种通用的方法可以适用所有情况。不同的方法有各自的优缺点和适用条件，要根据问题的特点来选择一个分类器。我们会在后面专门讲述常用的方法。选定方法之后，在训练集上为每个类别构建分类器，然后把分类器应用于测试集上，得到分类结果。效果评估（Classifier Evaluation）在分类过程完成之后，需要对分类效果进行评估。评估过程应用于测试集（而不是训练集）上的文本分类结果，常用的评估标准由IR领域继承而来，包括查全率、查准率、F1值等等。对于某一类别i，查全率ri=li/ni，其中ni为。

不均衡数据集上文本分类的特征选择研究如何通过条件协方差进行核特征选择？