为什么要进行数据挖掘？

问题1:为什么要做数据挖掘，收集客户信息？数据挖掘技术在客户关系管理中的典型应用。

客户获取

传统的获客方式是通过大量的媒体广告和传单来吸引新客户。这种方法涉及的方面太多，针对性不强，企业投入太大。数据挖掘技术可以从以往的市场活动中收集到的有用数据建立数据挖掘模型(主要指对潜在客户反应模式的分类)。因此，企业可以了解真实潜在客户的特征分类，从而在未来的市场活动中有的放矢，而不是传统的经验猜测。

客户细分

细分是指将一个庞大的消费群体划分为细分市场的行为。属于同一细分市场的消费者彼此相似，而属于不同细分市场的消费者则被视为不同。比如将数据库中的数据按照不同的年龄进行组织和存储的简单动作就是细分。细分让用户从更高的层面观察数据库中的数据，细分让人们以不同的方式对待不同细分群体中的客户。数据挖掘中的分类、聚类等技术允许用户根据企业感兴趣的属性，如类别、年龄、职业、地址、偏好等，对数据库中的数据进行细分。客户细分是企业确定产品和服务的基础，也是建立对客户一对一营销的基础。

客户盈利能力分析

就企业的客户而言，企业的利润大部分来自少数客户，企业很难确定哪些客户是高利润回报，哪些客户是低利润回报甚至负利润回报。数据挖掘技术可以帮助企业区分不同利润回报的客户。因此，可以将更多的资源分配给高利润回报的客户，以产生更大的利润，同时可以减少低利润回报或负利润回报的客户的投资。因此，在进行数据挖掘之前，企业应该建立一套优化目标方法来计算利润回报。可以是简单的计算，比如一个客户产生的收入减去所有相应的费用，也可以是更复杂的公式。然后利用数据挖掘工具从交易记录中挖掘出相应的知识。

客户保留

随着行业竞争的日益激烈，人们普遍认识到，获得一个新客户的成本远大于留住一个老客户的成本。因此，如何留住老客户，防止他们流失，成为CRM的重要课题。在实际应用中，利用数据挖掘工具为已经流失的客户建立模型，然后利用这些模型预测未来可能流失的客户，让企业研究这些客户的需求，采取相应的措施防止他们流失，从而达到维护客户的目的。

问题2:数据挖掘为什么要对数据进行分类？我不太明白你说的分类是什么意思。是在数据预处理阶段还是挖掘的目的？

如果我们是在数据预处理阶段，可能只是对某个领域的数据进行挖掘，从而得出更有把握的结论；

如果是挖掘的目的，也就是模型的输出，就比较好理解了。

问题3:数据挖掘到底要做什么？数据挖掘是一个很大的方面。你懂java，很好。可以借鉴weka这个工具，这是一个java写的工具包。对于一个特定的问题，比如如何获取测试数据，如何对数据进行预处理，这些weka都有直接的接口。

至于你说的建模，不是一句话就能说清楚的。首先你要调查在这个领域有哪些方法做得比较好，然后从中选择至少几种方法，这些方法都要根据你的数据集去实现，去统计，去总结，去选择。当然，你的数据* * *必须具有代表性，这是国际公认的。至于这些数据怎么罚，一般都是在比较有名的论文里引用的，没问题。当然，使用的工具也很多。不能局限于一种方式或者一种工具。不同情况使用不同的工具，根据实际需要选择。比如你要做聚类，你选择了一个weka作为神经元，你可能更喜欢matlab，实际情况决定了你选择的工具。

流程:数据采集-数据预处理-完成预定任务。这是一个大致的过程。这个集合可以用weka实现。对于数据挖掘来说，都是80%的数据+20%的算法，数据很重要，算法其实只是一个测试数据集。这是我的看法，希望对你有帮助。

问题4:数据挖掘前为什么要对原始数据进行预处理？数据中包含大量噪声数据，需要剔除无关数据，比如与分析无关的字段。

了解数据质量，有些数据质量不足以直接使用，比如包含太多缺失值，需要进行处理。

数据字段不能直接使用，需要派生新的字段进行进一步的数据挖掘。

数据比较分散，需要整合，比如加表(加行)或者合并表(加列)。

通过数据预处理，可以对数据有一个初步的了解和认识。

数据预处理我推荐一款数据挖掘软件:SmartMining桌面版，在面板操作上和SPSS modeler一样，预处理能力和计算能力都很不错。

问题5:为什么要采样数据？作为一个迅速发展的领域，数据挖掘的目的是从数据中提取有效的模式或有用的规则。数据挖掘的任务一般分为关联规则、分类和聚类。这些任务通常涉及大量的数据集，其中隐藏着有用的知识。我们说数据集很大，数据集要么有大量的记录，要么有大量的属性，要么两者兼而有之。拥有大量记录会使匹配模型花费的时间更长，而拥有大量属性会使模型占用的空间更大。大型数据集是数据挖掘算法的主要障碍。在模式搜索和模型匹配过程中，往往需要多次遍历数据集，将所有数据集加载到物理内存中是非常困难的。当数据集越来越大时，数据挖掘领域面临着开发适用于大数据集的算法。因此，一个简单有效的方法就是通过抽样来减小数据的大小(即取一个大数据集的子集)。在数据挖掘的应用中，采样有两种方法:一种是某些数据挖掘算法在算法执行过程中，并不使用数据集中的所有数据；另一种是在某些数据上运行算法的结果与在整个数据集上得到的结果相同。这与数据挖掘中使用的两种基本抽样方法不谋而合。一种方法是将采样嵌入到数据挖掘的算法中；另一种方法是采样和数据挖掘算法分开运行。但是使用抽样可能会带来一个问题:在小概率的情况下，结果不准确，而在大概率的情况下，结果的相似性很好。原因是在整个数据集的子集上运行可能会破坏属性之间的内在关联，这在高维数据问题中是非常复杂和难以理解的。

问题6:为什么要用java或者python做数据挖掘主要是方便？python的第三方模块丰富，语法非常简洁，自由度非常高。python的numpy、scipy和matplotlib模块可以完成spss的所有功能，你可以根据自己的需要对数据进行清理和归约。如果需要，还可以连接sql，做机器学习。在许多情况下，数据是通过网络爬虫从互联网上收集的。python有一个urllib模块，可以轻松完成这项工作。有时候爬虫在采集数据的时候，要处理一些网站的验证码。python有一个PIL模块，很容易识别。如果需要神经网络和遗传算法，scipy也可以完成这项工作。也有使用if-then等代码的决策树。聚类不能局限于某几类聚类，可以根据实际情况进行调整，比如k-means聚类，DBSCAN聚类，有时可能需要结合两种聚类方法对大规模数据进行聚类分析，这些都需要自己编码完成。此外，还有很多距离表达方式可供选择。比如欧几里德距离，余弦距离，闵可夫斯基距离，城市街区距离都不复杂，但是用python编程非常方便。基于内容的分类方法，python拥有强大的nltk自然语言处理模块，对语言短语进行切分、收集、分类和统计。

综上所述，非常非常方便。只要你足够了解python，你发现只要使用这个工具，你就可以快速实现你所有的想法。

问题7:为什么数据分析和数据挖掘的深入学习很重要？1，大数据:

指的是无法在可承受的时间范围内通过常规工具捕获、管理和处理的数据* * *数据。是海量、高增长、多元化的信息资产，需要新的处理模式来拥有更强的决策力、洞察发现力和流程优化能力；

在维克多？迈尔·勋伯格和肯尼斯？库克耶写的《大数据时代》中的大数据是指所有的数据都用于分析和处理，没有随机分析(抽样调查)的捷径。大数据的5V特征(IBM提出):体量(海量)、速度(高速)、多样性(多样性)、价值(真实性)。

2.数据分析:

是指用适当的统计分析方法对大量收集的数据进行分析，提取有用信息并形成结论，对数据进行详细研究和总结的过程。这个过程也是质量管理体系的支持过程。在实践中，数据分析可以帮助人们做出判断，以便采取适当的行动。

数据分析的数学基础建立于20世纪初，但直到计算机的出现，实际操作才成为可能，数据分析才得以普及。数据分析是数学和计算机科学相结合的产物。

3.数据挖掘(英语:数据挖掘):

也翻译为数据挖掘和数据挖掘。这是数据库中知识发现的一步(KDD)。数据挖掘一般是指通过算法从大量数据中寻找隐藏信息的过程。数据挖掘通常与计算机科学有关，通过统计学、联机分析处理、信息检索、机器学习、专家系统(依靠过去的经验规则)、模式识别等多种方法来实现上述目标。

问题8:数据分析和数据挖掘有什么区别？如何做好数据挖掘大数据、数据分析和数据挖掘的区别在于，大数据是互联网的海量数据挖掘，而数据挖掘更多的是针对企业内部小众的数据挖掘。数据分析就是要做出有针对性的分析和诊断。大数据需要分析趋势和发展，数据挖掘主要是发现问题和诊断:

1，大数据:

指的是在可承受的时间范围内，传统软件工具无法捕获、管理和处理的数据* * *数据。是海量、高增长、多元化的信息资产，需要新的处理模式来拥有更强的决策力、洞察发现能力和流程优化能力；

2.数据分析:

数据分析的数学基础建立于20世纪初，但直到计算机的出现，实际操作才成为可能，数据分析才得以普及。数据分析是数学和计算机科学相结合的产物。

3.数据挖掘(英语:数据挖掘):

问题9:为什么要在crm的过程中做数据挖掘、大数据挖掘和分析，从而发挥crm的作用，做好客户关系管理。