博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
数据挖掘学习—孤立点分析(异类分析)
阅读量:2354 次
发布时间:2019-05-10

本文共 1431 字,大约阅读时间需要 4 分钟。

孤立点是指数据集中那些小模式数据
,它
可能是度量或执行错误所导致的, 也可能是固有数据变异性的结果。Hawkins给出了其本质性
定义: 孤立点是在数据集中与众不同的数据, 使人怀疑这些数据并非随机偏差, 而是产生于完全不同的机制。一般的孤立点挖掘中存在两个基本任务:一是在给定的数据集合中定义什么样的数据可以被认为不一致的; 二是找到一个有效的方法来挖掘这样的孤立点。

 
 
 
传统的孤立点挖掘算法

 
 
 目前已有的传统的孤立点挖掘算法主要包括四类算法基于统计的方法,基于距离的方法,基于密度的方法,基于偏离的方法和基于聚类的挖掘算法。

 
 
 
基于统计的方法:
 
 
 基于统计的算法基本思想是根据数据集的
特性事先假定一个数据分布的概率模型,然后根据模型的不一致性来确定异
常。
存在的问题是, 在许多情况下, 我们并不知道数据的分布, 而且现实数据也往往不符合任何一种理想状态的数学分布,这样就对后期的孤立点发掘产生了很大的困难。另一方面基于统计的方法比较
适合于低维空间的孤立点挖掘,而实际
的数据大多都是高维空间的数据,在这种情况下,事先估算
数据的分布是很困难的.

 
 
 
 
基于距离的方法:

 
 
 
 基于距离的算法的基本思想是以距离的大小
来检测小模式
,孤立点被认为是没有足够多的邻
居。它可以描述为在数据对象集合中N中
,至
少有P个对象和对象O的距离大于d, 则对象O是一个带参数P和d的基于距离的异常点。基于距离的检测方法的优势在于他不需要事先了解数据集本身的特性,是与领域无关的,但是问题在于对参
数P和D估计的困难性。不同的P和D参数的确定会对结果带来很大的影响。由于基于距离的方法的参数P和D是一定的所以发现的孤立点是全局孤立点。

 
 
 
基于密度的方法:
   
基于距离的方法对全局各个聚类的数据提出了统一的P和D的参数,但是如果各个聚类本身的密度存在不同,则基于距离的方法则出出现问题,因此提出了基于密度模型的局部异常点挖掘算法,通过局部异常点因子LOF的计算来确定异常点, 只要一个对象的LOF远大于1, 它可能就是一个异常点。簇内靠近核心点的对象的LOF接近于1,处于簇的边缘或是簇的外面的对象的LOF相对较大,这样便能检测到局部异常点,更贴近于实际的数据集的特性。这种传统的局部异常点的挖掘算法的主要问题在于局部范围的参数Minpts值存在选择上的困难,可以运用多粒度偏差因子代替Minpts来评价,这样便能得到比较好的解决方案。
  
 
基于偏离的方法:
  
 
基于偏差的方法的基本思想是通过检查一组对象的主要特征来确定异常点, 如果一个对象的特征与给定的”描述”过分”偏离” , 则该对象被认为是异常点。现有的基于偏离的方法主要有序列异常技术和OLAP 数据立方体方法。前者是以样本集的总体的方差为相异度函数,描述了样本集的基本特征,所有背离这些特征的样本都是异常样本,这种方法在对异常存在的假设太过理想化, 对现实复杂数据效果不太好。而后者利用在大规模的多维数据中采用数据立方体确定反常区域,如果一个立方体的单元值显著地不同于根据统计模型得到的期望值,该单元值被认为是一个孤立点,当存在许多涉及多层概念层次的维时, 人工探测变得非常困难。
  基于聚类的方法:
基于聚类的方法的基本思想是将孤立点挖掘的过程转换成聚类的过程。首先将数据集利用已经成熟的模型进行聚类分析,是数据集形成簇,而那些不在簇中的样本点即被视为异常点进行再处理。除了上述所述的4中基本的聚类方法外,还包括基于网格的的方法等。

转载地址:http://dhutb.baihongyu.com/

你可能感兴趣的文章
linux命令学习之cut
查看>>
[think in java]知识点学习
查看>>
linux下线程调试 ulimit core
查看>>
linux 知识点拾遗
查看>>
java equal和==的区别
查看>>
虚继承与虚基类的本质
查看>>
函数式编程
查看>>
GitHub上整理的一些工具
查看>>
python range 与xrange的区别
查看>>
算法-最长递增子序列
查看>>
最大子序列、最长递增子序列、最长公共子串、最长公共子序列、字符串编辑距离
查看>>
回文字符序列
查看>>
inline函数必须在头文件中定义吗?
查看>>
内存泄漏检查工具valgrind使用方法
查看>>
Solution of Codility
查看>>
java解析XML的四种方式及比较
查看>>
单例模式(java)详细
查看>>
策略模式(java)
查看>>
java线程中信号量Semaphore类的应用
查看>>
如何设置CentOS为中文显示
查看>>