国内外数据挖掘的研究现状

随着网络和数据库技术的飞速发展以及数据库管理系统的广泛应用人们积累了越来越多的数据。数据挖掘是从大量的实际应用数据中提取隐藏的信息和知识。它运用了数据库、人工智能、数理统计等多项技术,是一种深度数据分析方法。

关键词:数据挖掘;知识;分析;营销;财务投资

随着网络和数据库技术的飞速发展以及数据库管理系统的广泛应用,人们积累了越来越多的数据。于是,数据挖掘技术应运而生。下面,本文对数据技术及其应用做一个简单的介绍。

一,数据挖掘的定义

数据挖掘是从大量不完整、有噪声、模糊和随机的实际应用数据中提取隐藏的、未知的但潜在有用的信息和知识的过程。它是一种新兴的商业信息处理技术,其主要特点是对商业数据库中的大量商业数据进行提取、转换、分析和建模,提取关键数据辅助商业决策。简而言之,数据挖掘实际上是一种深度的数据分析方法。从这个角度来看,数据挖掘也可以描述为根据企业设定的业务目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或已验证的规律,并进一步建模的一种先进有效的方法。

第二,数据挖掘技术

数据挖掘技术是数据库技术长期研究和发展的结果,数据仓库技术的发展与数据挖掘密切相关。在大多数情况下,数据挖掘首先要将数据从数据仓库中取出,放到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,解决数据不一致的问题,这将给数据挖掘带来很多好处。此外,数据挖掘还利用了人工智能(AI)和统计分析的进步,这两者都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘中发现的知识不同,使用的技术也不同。

1.广义的知识。指范畴特征的一般描述知识。根据数据的微观特征,发现其代表性、普遍性、高层次的概念、中观和宏观层次的知识反映了相似事物的相似性,是对数据的概括、提炼和抽象。发现广义知识的方法和技术有很多,如数据立方体和面向信息的约简。数据立方体的基本思想是实现一些常用的高成本聚集函数的计算,如计数、求和、平均、最大值等。,并将这些实现视图存储在多维数据库中。面向属性的约简是用类SQL语言表达数据挖掘查询,收集数据库中的相关数据集,然后对相关数据集应用一系列数据提升技术进行数据提升,包括属性删除、概念树提升、属性阈值控制、计数等聚合函数传播。

2.相关知识。它反映了一个事件与其他事件之间的依赖性或相关性的知识。如果两个或多个属性之间存在关联,则可以根据其他属性值预测其中一个属性的属性值。最著名的关联规则

然后是Apriori算法和FP-growth算法。关联规则的发现可分为两步:第一步迭代识别所有频繁项集,频繁项集的支持度不低于用户设定的最小值;第二步,从频繁项集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项集是关联规则发现算法的核心,也是计算量最大的部分。

3.分类知识。它反映了同类事物的特征知识和不同事物之间的不同特征知识。分类方法包括决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K-means除法。最典型的分类方法是决策树。它是由案例集构造的决策树,是一种有指导意义的学习方法。

该方法首先根据训练子集形成决策树。如果该树不能给所有对象一个正确的分类,则选择一些例外并将其添加到训练子集中,并且重复该过程,直到形成正确的决策集。最后的结果是一棵树,它的叶子节点是类名,中间的节点是有分支的歧义,对应着一些可能的歧义值。

4.预测知识。根据时间序列数据,从历史和当前数据推断未来数据,也可以看作是以时间为关键属性的相关知识。目前,时间序列预测方法包括经典统计方法、神经网络和机器学习。在1968中,BoX和Jenkins提出了一套完善的时间序列建模理论和分析方法。这些经典的数学方法通过建立随机模型来预测时间序列。由于大量的时间序列是非平稳的,它们的特征参数和数据分布是随时间变化的。因此,仅仅通过训练一些历史数据,建立单一的神经网络预测模型,是无法完成准确预测任务的。因此,人们提出了基于统计和准确性的再训练方法。当现有预测模型不再适用于当前数据时,对模型进行重新训练,获得新的权重参数,建立新的模型。

5.有偏见的知识。它是对差异和极端特例的描述,揭示事物偏离常态的异常现象,如标准类之外的特例和数据聚类之外的离群值。所有这些知识都可以在不同的概念层面找到,并随着概念层面的推进,从微观到中观和宏观,满足不同用户在不同决策层面的需求。

第三,数据挖掘过程

数据挖掘是指从大型数据库中挖掘出以前未知的、有效的、实用的信息,撰写毕业论文并利用这些信息进行决策或丰富知识的完整过程。数据挖掘的基本过程和主要步骤如下:

流程中每一步的大致内容如下:

1.识别业务对象并清楚地定义业务问题。认识数据挖掘的目的是数据挖掘的重要一步。挖掘的最终结构是不可预测的,但是要探索的问题应该是可以预见的。为数据挖掘而挖掘是盲目的,不会成功的。

2.数据准备。(1)数据选择搜索与业务对象相关的所有内部和外部数据信息,并选择适合数据挖掘应用的数据。(2)数据预处理。研究数据质量,进行数据整合、转换、归约、压缩等。,为进一步分析做准备,并确定要进行的采矿作业的类型。(3)数据转换。将数据转换成分析模型,并为挖掘算法建立分析模型,是数据挖掘成功的关键。

3.数据挖掘。挖掘转换后的数据。除了完善和选择合适的挖掘算法,其他所有工作都可以自动完成。

4.结果分析。解释并评估结果。一般而言,所用的分析方法应取决于采矿作业,通常使用可视化技术。

5.知识的吸收。将从分析中获得的知识整合到业务信息系统的组织结构中。

第四,数据挖掘的应用

数据挖掘技术从一开始就是面向应用的。目前,数据挖掘在很多领域都是一个非常时髦的词,尤其是在银行、电信、保险、交通、零售(如超市)等商业领域。

1.营销。由于管理信息系统和P0S系统在商业尤其是零售业中的广泛应用,尤其是条形码技术的使用,可以收集到大量关于用户购买的数据,并且数据量在不断增加。对于营销来说,通过数据分析了解顾客购物行为的一些特征,对提高竞争力,促进销售有很大的帮助。利用数据挖掘技术,我们可以通过对用户数据的分析,获得客户的购买取向和兴趣等信息,从而为商业决策提供可靠的依据。数据挖掘在市场营销中的应用可以分为两类:数据库营销和购物篮分析。数据库营销的任务是通过交互查询、数据分割和模型预测来选择潜在客户,从而向他们销售产品。通过对已有客户数据的侮辱,可以将用户分为不同的等级,等级越高,其购买的可能性越大。篮子分析

它是通过分析市场销售数据来识别客户的购买行为模式。比如购买了A货,那么B货被购买的可能性是95%,这有助于确定店铺货架的布局和摆放来促销某些商品,也更有目的性的挑选和搭配商品。该领域的系统包括:Opportunity explorer,可用于超市异常销售的因果分析等。此外,IBM还开发了一些识别客户购买行为模式的工具(IntdligentMiner和QUEST的一部分)。

2.金融投资。典型的财务分析领域包括投资评价和股市预测,分析方法一般采用模型预测方法(如神经网络或统计回归技术)。由于金融投资的高风险性,在进行投资决策时,更需要对各种投资方向的相关数据进行分析,以便选择最佳的投资方向。无论是投资评估还是股市预测,都是对事物发展的预测,都是建立在对数据的分析基础上的。数据挖掘可以通过处理现有的数据来发现数据对象之间的关系,然后利用学习到的模式做出合理的预测。这个系统里有富达选股和LBS资金管理。前者的任务是利用神经网络模型选择投资,后者利用专家系统、神经网络和遗传算法技术辅助管理高达6亿美元的证券。

3.欺诈筛查。银行或企业经常发生恶性透支等欺诈行为,给银行和商业单位带来巨大损失。预测这种欺诈可以减少损失。舞弊甄别主要是总结正常行为和舞弊之间的关系,得到舞弊的一些特征,这样当一个企业符合这些特征时,就可以警示决策者。

这一领域最成功的系统是猎鹰系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估计系统,已被相当多的零售银行用于检测可疑的信用卡交易;FAIS是一个识别与洗钱有关的金融交易的系统,它使用一般的政府数据表格。此外,数据挖掘还可以用于天文学中的遥远恒星探测、基因工程研究、web信息检索等。

结束语

随着数据库、人工智能、数理统计和计算机软硬件技术的发展,数据挖掘技术将在更多领域得到广泛应用。

参考资料:

[1]严数据库系统概论教学改革与探索[J].山西广播电视大学学报,2006,(15): 16-17。