`

[转]非均衡数据集的分类问题

 
阅读更多

传统的机器学习分类研究大多基于如下假设:(1)分类以最大正确率为目标;(2)所有的分类错误会带来相同的错误代价;(3)数据集中的各类样本数目基本均衡,即各类所含的样本数大致相当。

  显然,这三个假设在现实应用领域中很多时候是不成立的。很多类别并不均衡,数据集中某个类别的样本数可能会远多于其他类别;不同的分类错误往往会带来显著不同的损失。例如信用卡交易中的欺诈识别。非均衡数据集(Imbalance Data Set)的分类问题,有其特殊的地方,需要对传统方法做进一步的演化和改进。

  传统机器学习通常以总体最大分类精度为目标,这一目标必然会导致算法提高多数类样本的分类精度,而忽略样本集中小样本的预测精度。机器学习分类算法面对不均衡数据分类时性能下降的原因很多,例如不恰当的性能评价准则、不恰当的归纳偏置、某类样本数据过少产生的绝对稀少问题、各类样本数据相差悬殊产生的相对稀少问题以及采取分而治之策略算法所独有的数据碎片问题和噪音等。

  现有的对策大致包括:选择合适的性能评价准则、采用非贪婪的搜索策略、选择合适的归纳偏置、与专家或知识交互、分割数据以降低数据的不平衡性、通过取样方法改变数据的原始分布、只对一类进行学习、利用代价敏感学习解决不平衡问题等。这些对策均在一定程度上缓解了不均衡数据集的机器学习问题。

  归纳一下解决方法,主要有两大方向:一是从数据集的角度,即重构数据集,通过数据预处理的方法解决;另一个是从算法角度,即改进分类算法,主要通过对不同类样本设置不同的权值、改变概率密度、调整分类边界等措施解决。

  1、重构数据集

  重构数据集,又叫重采样/重抽样/重取样,是解决数据失衡的一个有效途径。该方法主要是通过减轻数据集的不均衡程度来提高少数类的分类性能。其关键在于:如何既能消除大量的噪声信息,显著减少数据不均衡程度,又能保证最小的信息损失,以保留绝大多数对分类学习有用的样本点。重采样方法,包括过取样和欠取样。

  过取样通过增加少数类的样本来提高少数类的分类性能,最简单的过取样方法是随机复制少数类样本,缺点是没有给少数类增加任何新的信息,会使分类器学到的决策域变小,从而导致过学习。改进的方法有SMOTE算法(根据一定的规则随机制造生成新的少数类样本点,并将这些新合成的少数类样本点合并到原来的数据集里,生成新的训练集)、Borderline-SMOTE(主要是通过在适当区域内进行插值,以保证新增加的样本是有价值的)。

  欠取样是通过减少多数类样本来提高少数类的分类性能,最简单的欠取样方法是随机的去掉某些多数类样本来减少多数类的规模,缺点是容易丢失多数类的一些重要信息。改进的方法有Condensed Nearest Neighbor Rule、Neighborhood Cleaning Rule、One sided Selection、Tomek Link等,这些方法通过一定的规则和技术,找出边界样本和噪音样本,有选择地去掉对分类作用不大,即远离分类边界或者引起数据重叠的多数类样本,并将其从大类中去掉,只留下安全样本和小类样本作为分类器的训练集。

  2、改进分类算法

  对已有分类算法的改进,主要是通过调节各类样本之间的代价函数、对于不同类的样本设置不同的权值、改变概率密度、调整分类边界等措施使其更有利于少数类的分类。算法层面的操作主要集中在以下四种类型:

  ·代价敏感学习

  代价敏感学习方法是将各类不同的错分代价用到分类决策中,尽可能降低误分类的总体代价而不是尽可能降低误分类的错误率。改变现有分类算法使其变得代价敏感是非常困难的工作,有时效果并不明显,通常的方法是不改变原有的算法,通过增加一个过程使得原来的分类算法变得代价敏感。常用方法:调整样本分布(根据错误分类的代价按一定比例变换训练集中类别的频率,其缺点是改变了样本的分布情况,有时会影响算法的性能)、元代价方法(通过“元学习”过程,根据最小期望代价修改训练样本的类标记,并用修改过的训练集重新学习新的模型)、代价敏感决策(首先在训练集中多次抽样,生成多个模型,在根据模型,得到测试样本属于每个类别的概率,然后计算测试样本的所有错误分类代价,并根据最小代价得到类标记)。

  ·支持向量机(SVM)

  SVM对数据的不均衡本身并不敏感。但可以对SVM进行适当改进以更好的处理不均衡数据分类。简单的分类是将分类边界朝多数类进行适当的偏移,以使更多的少数类样本不会被误判;另一种方法是对正类和负类赋予不同的代价,作为SVM的惩罚因子;还可以对支持向量进行裁剪,通过适当牺牲多数类的分类精度以提高少数类的精度。

  ·单类学习分类

  可以将不均衡数据集基于区别的分类方法改为基于识别的方法进行学习,从而提出了单类学习的分类算法。其主要思想在于只利用感兴趣的目标类学习样本进行学习和训练,即只对少数类样本进行训练,其目标是从测试样本中识别出感兴趣的少数类样本,而不是对少数类和多数类进行区分。对于新的样本,通过比较该样本与目标类的相似程度而识别该样本是否归属于目标类。

  ·组合方法

  组合方法的主要思想在于将多个分类器组合成一个分类器,以提高分类性能。其中提升是组合方法中被广泛使用的技术。通过提升,多个弱分类器可以组合成一个强分类器,能有效改善不均横数据集的分类性能。AdaBoost是提升算法的代表,它给训练集数据的分布迭代加权。在每次迭代中,提升算法增加错误分类的样本权值,减少正确分类的样本权值。这使训练系统在下次迭代中更关注于分类错误的样本。改进的算法还有AdaCost算法、RareBoost算法。

  总而言之,不均衡数据集的分类问题是机器学习和模式识别领域中心的研究热点,是对传统分类方法的重大挑战。

分享到:
评论

相关推荐

    一种基于混合重取样策略的非均衡数据集分类算法

    非均衡数据是分类中的常见问题,当一类实例远远多于另一类实例,则代表类非均衡,真实世界的分类问题存在很多类别非均衡的情况并得到众多专家学者的重视,非均衡数据的分类问题已成为数据挖掘和模式识别领域中新的研究...

    论文研究-非均衡数据的支持向量机新方法.pdf

    为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对...

    基于边界混合采样的非均衡数据处理算法

    针对非均衡数据分类效果差的问题,提出一种新的基于边界混合采样的非均衡数据处理方法(BMS).首先通过引进“变异系数”找出样本的边界域和非边界域;然后对边界域中的少数类样本进行过采样,对非边界域中的多数类样本...

    非均衡数据的支持向量机新方法* (2009年)

    为了弥补支持向量机对非均衡样本集分类时倾向于较大类的不足,提出一种平衡策略。基于Fisher判别思想,计算出两类样本在分类超平面法向量上投影后的均值和方差,再依据两类错分概率相等准则,给出新的阈值计算方法对...

    cash数据集

    人工智能中常用来进行非均衡数据的分类训练,常见的数据集.

    论文研究-一种旅行数据约束关联规则挖掘算法.pdf

    齿轮是传动机械中的重要部件,也是在运行过程中产生故障的主要原因之一,因此对齿轮进行故障诊断研究就具有十分...在UCI数据集和齿轮数据集上的实验结果表明新算法提高了分类器在不均衡数据集上的分类性能和预报能力。

    一种改进的少数类样本识别方法

    非均衡数据集的分类过程中,产生了向多数类偏斜、少数类识别率较低的问题。为了提高少数类的分类精度,提出了一种S-SMO-Boost方法。该方法基于Adaboost提升算法迭代过程中错分少数类样本,构造虚拟样本,以加强对...

    基于ν-最大间隔超球体支持向量机的非平衡数据分类 (2012年)

    针对传统超球体支持向量机在处理非平衡数据集时出现的少数类查全率较低的问题,通过引入最大间隔和参数ν,提出了ν-最大间隔超球体支持向量机。...结果表明,该算法能有效提高对非均衡分布数据的分类准确率。

    论文研究-一种平衡负载的分布式动态型微移动管理方案.pdf

    支持向量机是在统计学习理论...在UCI标准数据集上进行的实验表明,该算法能够有效提高支持向量机对非均衡分布数据的正确性,尤其对于大规模训练集的情况,该算法在保证不损失训练精度的前提下,使训练速度有较大提高。

    论文研究-基于分形SMOTE重采样集成算法圈定区域化探异常.pdf

    结合集成学习Adaboost技术更新样本权值, 改善非均衡数据的分类性能, 并对云南个旧锡铜多金属矿床进行了仿真实验, 结果表明新算法预测结果能较好地检测成矿异常, 为成矿预测与评价提供新的解决途径。

    基于深度学习的图像分类方法研究_孟丹.caj

    本文详细分析了 CHDNet的不同组件对分类性能的影响,针对PCANet的局限性,设计了非线性变化层、多尺度特征池化层,以提高分类性能。将CHDNet应用在医学图像分类中,包括基于Kinect深度图像的人体生理机能自动检测和...

    论文研究-模糊近似支持向量机模型及其在信用风险评估中的应用.pdf

    论文研究-模糊近似支持... 为验证模糊近似支持向量机的效果, 利用两个公开的信用数据集进行实证研究. 实证研究结果表明:与其它模型相比,所提出的模糊近似支持向量机能够显著地提高信用风险分类精度,具有较高的实用价值.

    类别非均衡遥感图像语义分割的全卷积网络方法

    基于U-Net模型, 提出了一个全卷积网络(FCN)模型, 用于高分辨率遥感图像...在DSTL数据集上进行了实验, 结果表明所提方法将预测结果的平均Jaccard指数从0.611提升到0.636, 可实现对高分辨率遥感图像端到端的精确分类。

    基于改进的SMOTE和RST的新型混合重取样算法

    本文提出一种新的解决非均衡数据集的预处理方法(ImSMOTE-RSTR*).通过改进的SMOTE方法创建新的人工合成少数类实例,并在此基础上应用基于粗糙集理论的子集下近似技术对训练集进行清理,该算法被验证得到较理想的结果.

    基于改进的SVM方法的异常检测研究

    利用非参数检验的方法提取出对分类结果影响显著的特征变量,提出一种改进的 SVM多分类方法(D-SVM),其融合了判别分析,可以解决样本不均衡导致的分类不准确和误报率高的问题。将多分类问题处理成一个个二分类问题...

    葡萄酒品质-使用SVM-内核SVM

    这些数据集可以视为分类或回归任务。 这些课程是有序的,而不是均衡的(例如,普通葡萄酒比优质或劣等葡萄酒要多得多)。 输入变量(基于理化测试): 固定酸度 挥发性酸度 柠檬酸 残留糖 氯化物 游离二氧化硫 总...

    基于opencv3.1库的JAVA源码

    范例5-11-4 YUV彩色强化对比效果,使用均衡化直方图及融合 151 范例5-12-1 影像梦幻沙龙处理使用GUI显示 152 范例5-13-1 影像各式颜色空间转换于GUI显示 154 范例5-14-1 影像堆叠 155 范例5-15-1 影像马赛克处理 157 ...

    sklearn0.19中文文档

    非均衡问题 1.4.2. 回归 1.4.3. 密度估计, 异常(novelty)检测 1.4.4. 复杂度 1.4.5. 使用诀窍 1.4.6. 核函数 1.4.6.1. 自定义核 1.4.6.1.1. 使用 python 函数作为内核 1.4.6.1.2. 使用 Gram 矩阵 1.4.6.1.3. RBF ...

    Excel新增工具集

    2、人民币大小写等常用数据转换:可将人民币小写转换成大写、能四舍五入四舍五入、甩去零头取整、提取甩去的零头、工资纳税计算、分数或名次转等次、汉字转拼音、英语单词首字母转大写等。由于采用在单元格输入公式...

    基于分形SMOTE重采样集成算法圈定区域化探异常 (2012年)

    结合集成学习Adaboost技术更新样本权值, 改善非均衡数据的分类性能, 并对云南个旧锡铜多金属矿床进行了仿真实验, 结果表明新算法预测结果能较好地检测成矿异常, 为成矿预测与评价提供新的解决途径。

Global site tag (gtag.js) - Google Analytics