大数据时代入门<二>——数据挖掘方法和技术 理论篇

概述

数据挖掘方法依据的基本原理主要有:

  1. 信息论,主要是计算数据库中属性的信息量,如ID3、IBLE等方法

  2. 集合论,利用集合之间的覆盖关系(如粗糙集方法、覆盖正例排斥反例的AQ11方法),或计算数据项在整个集合中所占的比例(如关联规则挖掘方法);

  3. 仿生物技术,把生物体的运转过程转换成数学模型,再用数学模型去解决现实世界的非生物问题,如神经网络、遗传算法等

  4. 人工智能技术,主要是利用启发式搜索方法,如公式发现的BACOM、FDD等方法

  5. 可视化技术,主要是利用图形显示技术


归纳学习的信息论方法

  归纳学习方法是目前重点研究的方向,研究成果角落。从采用的技术上看,分为两大类:信息论方法(这也是常说的决策树方法)和集合论方法。每类方法又包含多个具体方法。

信息论方法是利用信息论的原理建立决策树。由于该方法最后获得的知识表示形式是决策树,因此一般文献中称它为决策树方法。该类方法的实用效果好,影响较大。

信心轮方法中较有特色的方法有以下几种。

1. ID3等方法(决策树方法)

Quiulan研制的ID3方法是利用信息论中互相信息(Quiulan称为信息增益)寻找数据库中具有最大信息量的字段,建立决策树的一个结点,再根据字段的不同取值建立树的分支,再由每个分支的数据子集重复建树的下层结点和分支的过程,这样就建立了决策树。这种方法对数据库越大这种方法效果越好。ID3方法在国际上影响很大。ID3方法以后又陆续开发了ID3、ID5、C4.5等方法。

2. IBLE方法(决策规则树方法)

IBLE方法,是利用信息论中信道容量,寻找数据库中信息量从大到小的多个字段的取值建立决策规则树的一个结点,根据该结点中指定字段取值的权利之和与两个阀值比较,建立左中右三个分支,在各分支子集中重复建树结点和分支的过程,这就建立了决策规则树。IBLE方法比ID3方法在识辨率上提高了10个百分点。以后又研制了IBLE-R方法。

归纳学习的集合论方法

  集合论方法是开展较早的方法。近年来,粗糙集理论的发展使集合论方法得到了迅速的发展。这类方法中包括覆盖正例排斥反例的方法(典型的方法是AQ系列方法)、概念树方法和粗糙集(Rough Set)方法。关联规则挖掘方法也属于集合论方法。

1. 粗糙集(Rough Set)方法

在数据库中将元素看成对象,列元素是属性(分为条件属性和决策属性)。等价关系R定义为不同对象在某个(或几个)属性上取值相同,这些满足等价关系的对象组成的集合成为该等价关系R的等价类。条件属性上的等价类E与决策属性上的等价类Y之间有三种情况:

  1. 下近似:Y包含E;
  2. 上近似:Y和E的交非空;
  3. 无关:Y和E的交为空。
    对下近似简历确定性规则,对上近似简历不确定性规则(含可信度),无关情况下不存在规则。

2. 关联规则挖掘

  关联规则挖掘是在交易事物数据库中,挖掘出不同项(商品)集的关联关系,即发现哪些商品频繁地被顾客同时购买。

  关联规则挖掘是在事务数据库D中寻找那些不同项集(如含A和B量个商品)同时出现的概率(即P(AB))大于最小支持度(min_sup),且包含一个项集合(如A)的所有事务中,又包含另一个项集(如B)的条件概率(即P(A|B))大于最小可信度(min_conf)时,则存在关联规则(即A→B)。

3. 覆盖正例排斥反例方法

  它是利用覆盖所有正例,排斥所有反例的思想来寻找规则。比较典型的有Michalski的AQ11方法、洪家荣改进的AQ15方法以及洪家荣的AE5方法。

  AQ系列的核心算法是在正例集中任选一个种子,它到反例集中诸葛比较,对字段取值构成的子相容则舍去,相斥则保留。按此思想循环所有正例种子,将得到正例集的规则(选择子的合取式)。

  AE系列方法是在扩张矩阵中寻找覆盖正例排斥反例的字段值的公共路(规则)。

####4. 概念树方法
  数据库中记录的属性字段按归类方式进行合并,建立起来的层次结构称为概念树。例如对“城市”概念树的最下层是具体市名或县名(如长沙、南京等),它的直接上层是省名(湖南、江苏等),省名的直接上层是国家行政区(华南、华东等),再上层是国名(中国、日本等)。

  利用概念树提升的方法可以大大浓缩数据库中的记录(元组)。对多个属性字段的概念树提升,将得到高度概括的知识基表,然后再将它转换成规则

仿生物技术的神经网络方法

  仿生物技术典型的是神经网络方法和遗传算法。这两类方法已经形成了独立的研究体系。它们在数据挖掘中也发挥了巨大的作用,可以将它们归并为仿生物技术类。

  神经网络方法模拟了人脑神经元结构,是以MP数学模型和Hebb学习规则为基础的,建立了三大类多种神经网络模型。

1. 前馈式网络

  它以感知机、BP反向传播模型、函数型网络为代表。此类网络可用于预测、模式识别等方面。

2. 反馈式网络

  它以Hopfield的离散模型和连续模型为代表,分别用于联想记忆和优化计算。

3. 自组织网络

  它以ART模型、Kohonen模型为代表,用于聚类。

  神经网络的知识体现在网络连接的权值上,是一个分布式矩阵结构。神经网络的学习体现在神经网络权值的逐步计算上(包括反复迭代或累加计算)。

仿生物技术的遗传算法

  这是模拟生物进化过程的算法。它由三个基本算子组成

1. 繁殖(选择)

  从一个旧种群(父代)选择出生命力强的个体产生新种群(后代)的过程。

2. 交叉(重组)

  选择两个不同个体(染色体)的部分(基因)进行交换,形成两个新个体。

3. 变异(突变)

  对某些个体的某些基因进行变异(1变0,0变1),形成新个体。

  这种遗传算法起到产生优良后代的作用。这些后代需要满足适应值,经过若干代的遗传,将得到满足要求的后代(问题的解)。遗传算法已在优化计算的分类机器学习方法发挥了显著的效果。

数值数据的公式发现

  在工程和科学数据库(由实验数据组成)中,利用人工智能启发式搜索方法(反复试验),对若干数据项(变量)进行一定的数学运算,可求得相应的数学公式。

1. 物理定律发现系统BACON

  BACON发现系统完成了物理学中大量定律的重新发现。它的基本思想是对数据项反复进行初等数学运算(加减乘除等)形式的组合数据项,若它的值为常数(启发式),就得到了组合数据项等于常数的公式。该系统有5个版本,分别为BACON.1到BANCON.5。

2. 经验公式发现系统FDD

  基本思想是对两个数据项交替取初等函数后与另一数据项的线性组合,反复进行不同的初等函数实验,当线性组合为直线时(启发式),就找到了数据项(变量)的初等函数的线性组合公式。该系统所发现的公式比BACON系统发现的公式更宽些。该系统有三个版本分别为FDD.1到FDD.3。

可视化技术

  可视化技术是一种图形显示技术。例如,把数据库中多维数据变成多种图形,这对于揭示数据中内在本质以及分布规律起到很强的作用。对于数据挖掘过程可视化,并进行人机交互可提高数据挖掘的效果。

  数据可视化是创建二维或三维业务数据集的图标,使得用户用于理解业务数据,从而提升知识和洞察力。例如,多维数据和多维结构类型(MTS)图与多维表格是对多维数据可视化的显示。利用直方图(二维)、柱形图(三维)、饼图、折线图、雷达图、散点图等能更形象地表示数据之间对比与变化的关系。

  可视化数据挖掘是创建可视化的数据挖掘的模型,利用这些模型发现业务数据集中存在的模式,从而辅助决策支持及预测新的商机。

  可视化技术的基本工作如下。

  1. 提取几何图元
  2. 绘图
  3. 显示和演放

参考:

《数据仓库》[美] 荫蒙(Inmon,W.H) 著

《数据仓库与数据挖掘教程》 清华大学出版社 陈文伟


有什么问题都可以在博文后面留言,或者微博上私信我,或者邮件我 coderfish@163.com

博主是 iOS 妹子一枚。

希望大家一起进步。

我的微博:小鱼周凌宇

周小鱼 wechat
欢迎订阅我的个人公众号~╮(╯▽╰)╭
坚持原创技术分享,支持萌妹子,您的支持将鼓励我继续创作!