国内外数据挖掘的研究现状
关键词:数据挖掘;知识;分析;营销;财务投资
随着网络和数据库技术的飞速发展以及数据库管理系统的广泛应用,人们积累了越来越多的数据。于是,数据挖掘技术应运而生。下面,本文对数据技术及其应用做一个简单的介绍。
一,数据挖掘的定义
数据挖掘是从大量不完整、有噪声、模糊和随机的实际应用数据中提取隐藏的、未知的但潜在有用的信息和知识的过程。它是一种新兴的商业信息处理技术,其主要特点是对商业数据库中的大量商业数据进行提取、转换、分析和建模,提取关键数据辅助商业决策。简而言之,数据挖掘实际上是一种深度的数据分析方法。从这个角度来看,数据挖掘也可以描述为根据企业设定的业务目标,对大量企业数据进行探索和分析,揭示隐藏的、未知的或已验证的规律,并进一步建模的一种先进有效的方法。
第二,数据挖掘技术
数据挖掘技术是数据库技术长期研究和发展的结果,数据仓库技术的发展与数据挖掘密切相关。在大多数情况下,数据挖掘首先要将数据从数据仓库中取出,放到数据挖掘库或数据集市中,因为数据仓库会对数据进行清理,解决数据不一致的问题,这将给数据挖掘带来很多好处。此外,数据挖掘还利用了人工智能(AI)和统计分析的进步,这两者都致力于模式发现和预测。数据库、人工智能和数理统计是数据挖掘技术的三大支柱。由于数据挖掘中发现的知识不同,使用的技术也不同。
1.广义的知识。指范畴特征的一般描述知识。根据数据的微观特征,发现其代表性、普遍性、高层次的概念、中观和宏观层次的知识反映了相似事物的相似性,是对数据的概括、提炼和抽象。发现广义知识的方法和技术有很多,如数据立方体和面向信息的约简。数据立方体的基本思想是实现一些常用的高成本聚集函数的计算,如计数、求和、平均、最大值等。,并将这些实现视图存储在多维数据库中。面向属性的约简是用类SQL语言表达数据挖掘查询,收集数据库中的相关数据集,然后对相关数据集应用一系列数据提升技术进行数据提升,包括属性删除、概念树提升、属性阈值控制、计数等聚合函数传播。
2.相关知识。它反映了一个事件与其他事件之间的依赖性或相关性的知识。如果两个或多个属性之间存在关联,则可以根据其他属性值预测其中一个属性的属性值。最著名的关联规则
然后是Apriori算法和FP-growth算法。关联规则的发现可分为两步:第一步迭代识别所有频繁项集,频繁项集的支持度不低于用户设定的最小值;第二步,从频繁项集中构造可信度不低于用户设定的最低值的规则。识别或发现所有频繁项集是关联规则发现算法的核心,也是计算量最大的部分。
3.分类知识。它反映了同类事物的特征知识和不同事物之间的不同特征知识。分类方法包括决策树、朴素贝叶斯、神经网络、遗传算法、粗糙集方法、模糊集方法、线性回归和K-means除法。最典型的分类方法是决策树。它是由案例集构造的决策树,是一种有指导意义的学习方法。
该方法首先根据训练子集形成决策树。如果该树不能给所有对象一个正确的分类,则选择一些例外并将其添加到训练子集中,并且重复该过程,直到形成正确的决策集。最后的结果是一棵树,它的叶子节点是类名,中间的节点是有分支的歧义,对应着一些可能的歧义值。
4.预测知识。根据时间序列数据,从历史和当前数据推断未来数据,也可以看作是以时间为关键属性的相关知识。目前,时间序列预测方法包括经典统计方法、神经网络和机器学习。在1968中,BoX和Jenkins提出了一套完善的时间序列建模理论和分析方法。这些经典的数学方法通过建立随机模型来预测时间序列。由于大量的时间序列是非平稳的,它们的特征参数和数据分布是随时间变化的。因此,仅仅通过训练一些历史数据,建立单一的神经网络预测模型,是无法完成准确预测任务的。因此,人们提出了基于统计和准确性的再训练方法。当现有预测模型不再适用于当前数据时,对模型进行重新训练,获得新的权重参数,建立新的模型。
5.有偏见的知识。它是对差异和极端特例的描述,揭示事物偏离常态的异常现象,如标准类之外的特例和数据聚类之外的离群值。所有这些知识都可以在不同的概念层面找到,并随着概念层面的推进,从微观到中观和宏观,满足不同用户在不同决策层面的需求。
第三,数据挖掘过程
数据挖掘是指从大型数据库中挖掘出以前未知的、有效的、实用的信息,撰写毕业论文并利用这些信息进行决策或丰富知识的完整过程。数据挖掘的基本过程和主要步骤如下:
流程中每一步的大致内容如下:
1.识别业务对象并清楚地定义业务问题。认识数据挖掘的目的是数据挖掘的重要一步。挖掘的最终结构是不可预测的,但是要探索的问题应该是可以预见的。为数据挖掘而挖掘是盲目的,不会成功的。
2.数据准备。(1)数据选择搜索与业务对象相关的所有内部和外部数据信息,并选择适合数据挖掘应用的数据。(2)数据预处理。研究数据质量,进行数据整合、转换、归约、压缩等。,为进一步分析做准备,并确定要进行的采矿作业的类型。(3)数据转换。将数据转换成分析模型,并为挖掘算法建立分析模型,是数据挖掘成功的关键。
3.数据挖掘。挖掘转换后的数据。除了完善和选择合适的挖掘算法,其他所有工作都可以自动完成。
4.结果分析。解释并评估结果。一般而言,所用的分析方法应取决于采矿作业,通常使用可视化技术。
5.知识的吸收。将从分析中获得的知识整合到业务信息系统的组织结构中。
第四,数据挖掘的应用
数据挖掘技术从一开始就是面向应用的。目前,数据挖掘在很多领域都是一个非常时髦的词,尤其是在银行、电信、保险、交通、零售(如超市)等商业领域。
1.营销。由于管理信息系统和P0S系统在商业尤其是零售业中的广泛应用,尤其是条形码技术的使用,可以收集到大量关于用户购买的数据,并且数据量在不断增加。对于营销来说,通过数据分析了解顾客购物行为的一些特征,对提高竞争力,促进销售有很大的帮助。利用数据挖掘技术,我们可以通过对用户数据的分析,获得客户的购买取向和兴趣等信息,从而为商业决策提供可靠的依据。数据挖掘在市场营销中的应用可以分为两类:数据库营销和购物篮分析。数据库营销的任务是通过交互查询、数据分割和模型预测来选择潜在客户,从而向他们销售产品。通过对已有客户数据的侮辱,可以将用户分为不同的等级,等级越高,其购买的可能性越大。篮子分析
它是通过分析市场销售数据来识别客户的购买行为模式。比如购买了A货,那么B货被购买的可能性是95%,这有助于确定店铺货架的布局和摆放来促销某些商品,也更有目的性的挑选和搭配商品。该领域的系统包括:Opportunity explorer,可用于超市异常销售的因果分析等。此外,IBM还开发了一些识别客户购买行为模式的工具(IntdligentMiner和QUEST的一部分)。
2.金融投资。典型的财务分析领域包括投资评价和股市预测,分析方法一般采用模型预测方法(如神经网络或统计回归技术)。由于金融投资的高风险性,在进行投资决策时,更需要对各种投资方向的相关数据进行分析,以便选择最佳的投资方向。无论是投资评估还是股市预测,都是对事物发展的预测,都是建立在对数据的分析基础上的。数据挖掘可以通过处理现有的数据来发现数据对象之间的关系,然后利用学习到的模式做出合理的预测。这个系统里有富达选股和LBS资金管理。前者的任务是利用神经网络模型选择投资,后者利用专家系统、神经网络和遗传算法技术辅助管理高达6亿美元的证券。
3.欺诈筛查。银行或企业经常发生恶性透支等欺诈行为,给银行和商业单位带来巨大损失。预测这种欺诈可以减少损失。舞弊甄别主要是总结正常行为和舞弊之间的关系,得到舞弊的一些特征,这样当一个企业符合这些特征时,就可以警示决策者。
这一领域最成功的系统是猎鹰系统和FAIS系统。FALCON是HNC公司开发的信用卡欺诈估计系统,已被相当多的零售银行用于检测可疑的信用卡交易;FAIS是一个识别与洗钱有关的金融交易的系统,它使用一般的政府数据表格。此外,数据挖掘还可以用于天文学中的遥远恒星探测、基因工程研究、web信息检索等。
结束语
随着数据库、人工智能、数理统计和计算机软硬件技术的发展,数据挖掘技术将在更多领域得到广泛应用。
参考资料:
[1]严数据库系统概论教学改革与探索[J].山西广播电视大学学报,2006,(15): 16-17。