如何有效地管理和控制数据?
当您处理或使用大量数据时,那么“数据治理”这个词对您来说会很熟悉。你对数据治理有什么看法?数据治理适合您吗?如何实施。简而言之,数据治理是处理数据的策略——如何收集、验证、存储、访问、保护和使用数据。数据治理还包括谁将查看、使用和享用您的数据。
随着大数据时代的推进,这些问题日益突出,越来越多的企业依靠收集、管理、存储和分析数据来实现其业务目标。数据已经成为企业的盈利工具、商业媒介和商业秘密。数据泄露会导致法律纠纷,让消费者对公司核心业务失去信心。
如果你侥幸让所有业务部门自己管理数据,那么你就缺乏有效的数据管理,甚至所有部门都自己做。你不能想象所有的部门都随意自己生产、储存、销售产品。数据使用不当,和库存使用不当一样,会给企业造成重大损失。所以需要做一个度量,保证所需数据的有效性、安全性和可用性,这就是我们要讲的“数据治理”。
数据治理策略必须包括完整的数据生命周期。该策略必须包括数据收集、清理和管理。在这个生命周期中,数据治理必须关注以下内容:
数据从哪里来,怎么来的?
这是数据生命周期的开始。数据的来源决定了数据治理策略的基础。例如,数据集的大小由数据源决定。你从目标市场、现有用户和社交媒体收集数据吗?还是用第三方收集数据或者分析你收集的数据?输入数据流是什么?数据治理必须关注这些问题并制定策略来管理数据收集,指导第三方处理他们收集的数据或分析你收集的数据,控制数据的路径和生命周期。
数据检查
通常情况下,数据源是非常庞大和多样的,这对于数据管理者来说是一个很头疼的问题。区分数据噪音和重要数据只是开始。如果你从关联公司收集数据,你必须确保数据是可靠的。对于那些数万、数十万甚至数百万的复杂关系数据,通过Excel手工清理数据并不现实。批量查询、替换、修正、丰富和存储海量复杂的关系数据需要专业的数据清洗工具或系统。将元数据、主数据、交易数据、参考数据和数据标准内置于数据清洗工具或系统中,结合组织架构、内容控制、流程控制等管理机制和技术标准,提高数据管理者的工作效率。比如你需要手动编写程序采集的元数据,系统会自动为你获取;你需要手动识别或者写代码检查数据质量,系统会帮你自动识别问题;有了文档管理的数据字典,系统帮你在线管理;基于电子邮件和离线流程,该系统帮助您实现在线自动化。当然,系统也不是万能的,数据治理的软件工具和其他软件工具一样,没有魔力。没有数据治理人员的参与和数据治理的推进,即使软件再完善也无法完成数据治理的全过程。这也是数据治理咨询服务一直有其市场的原因,也是国内大部分纯数据治理软件项目未能达到预期目标的原因。
数据治理必须解决存储问题
数据存储与数据集的大小密切相关。大数据的存储必须在安全的冗余系统中。分级系统通常用于根据使用频率存储数据。通过这种方式,昂贵的在线系统提供频繁请求的数据,而不太频繁请求的数据存储在更便宜和更少可用的系统中。当然,如果将一些请求频率较低的敏感数据存储在安全性较低的系统上,风险也会大大增强。因此,在制定数据存储方案时,一个好的数据治理策略必须考虑方方面面。
数据治理必须建立访问管理系统,在需求和安全之间找到平衡。
明确访问者的权限,只访问其对应权限中包含的数据。只有合法的请求才能访问数据,而敏感数据需要更高的权限和更严格的验证才能访问。只对特定安全级别的用户开放。应该为用户和数据本身设置访问级别。在管理账户时,与人力资源部门和采购部门的密切互动是非常重要的,因为它可以使已经离开公司的员工和停止合作的供应商不再拥有及时的访问权限。处理这些细节并确保数据所有权和责任是完整的数据治理策略的一部分。
数据使用/* * *享受/分析
如何使用数据是数据治理之后的重要内容。数据可能用于客户管理、改善客户体验、投放定向广告、用户应用系统初始化基础数据工作、辅助应用系统建设、为关联公司提供市场分析和数据。我们必须仔细定义哪些数据可以用于享受或营销,并保护它们免受攻击和泄露,因为数据应该用于纯粹的内部目的。让用户知道所有收集数据的公司都会遵守数据安全和保证的规定。保证数据的合理合规使用也是数据治理的重要内容。
收集、验证、存储、访问和使用都是数据安全计划的必要组成部分。
收集、验证、存储、访问和使用都是数据安全计划的必要组成部分,必须有一个全面的策略来解决这些和其他安全问题。数据安全计划必须是有效的和高度可用的,但是数据生命周期的所有部分都容易受到攻击和由于粗心造成的损害。你必须确定数据治理中的数据安全方案,包括访问控制、静态数据、数据处理、数据传输后的加密等。
管理/元数据
没有管理的数据生命周期是不完整的。例如,将元数据应用于一段数据以进行识别和检索。元数据包括数据的来源、收集或生成的日期、信息访问的级别、语义分类以及企业所必需的其他信息。数据治理可以建立元数据词汇表,并定义数据的有效期。请注意,数据也会过期,过期后我们只能将其用于历史数据的分析。
在创建数据治理的过程中,企业内部可能会有一些阻力。例如,一些人害怕失去对数据的访问权,而另一些人不愿意与竞争对手分享数据。数据治理策略需要解决上述问题,并使其为各方所接受。习惯于数据孤岛环境的公司将难以适应新的数据治理策略。然而,当今对大型数据集的依赖以及随之而来的安全问题使得创建和实施公司范围的数据策略成为必然。
数据越来越成为企业基础设施的一部分,决策是在一步步处理各种具体情况的过程中形成的。它是一次性的,通常是为了回答一个特定的问题。所以企业处理数据的方式会因为部门不同,甚至部门内部的情况不同而发生变化。即使每个部门都有一套合理的数据处理方案,但这些方案之间可能会相互冲突,企业也要想办法协调。很难找出数据存储的要求和需求。做不好,就无法发挥数据在营销和客户留存方面的潜力,而如果数据泄露,也要承担法律责任。
另外,在大企业中,各部门会争夺数据资源,各部门只关注自己的业务情况,缺乏全局观念,不调解很难达成妥协。
因此,公司需要一个类似于数据治理委员会的组织,其职责是执行现有的数据政策,挖掘未满足的需求和潜在的安全问题,创建数据治理政策,以规范数据的收集、管理、存储、访问和使用策略,同时还要考虑各部门和岗位的不同需求。平衡不同部门相互冲突的需求,协调安全性和访问要求,并确保最高效和最安全的数据管理策略。
建立数据治理委员会
负责评估所有数据用户的需求,建立公司范围的数据管理策略,以满足内部用户、外部用户甚至法律方面的需求。委员会成员应包括所有业务领域的利益相关方,以确保各方的需求得到很好的满足,所有类型的数据所有权都得到反映。委员会也需要数据安全专家,数据安全也是重要的一部分。了解数据治理委员会的目标非常重要。因此,应该考虑并清楚地解释企业需要数据治理策略的原因。
开发数据治理框架
这个框架应该包括企业的内部、外部甚至法律数据需求。框架中的各个部分应集成为一个整体,以满足收集、清理、存储、检索和安全的要求。为此,企业必须清楚地解释其端到端的数据策略,以便设计一个能够满足所有需求和必要操作的框架。
有计划地将各个部分结合起来并相互支持有很多好处,比如在一个高度安全的环境中执行检索需求。合规性也需要专门设计为框架的一部分,以便可以跟踪和报告监管问题。该框架还包括日常记录和其他安全措施,可以提供攻击的早期预警。在使用数据之前验证数据也是框架的一部分。数据治理委员会应该了解框架的每个部分,明确其目的以及它在数据的整个生命周期中如何发挥作用。
数据测试策略
通常情况下,一个数据策略需要在小规模的商业环境中进行测试,找出数据策略在框架、结构和计划上的不足并做出调整,才能投入正式使用。
数据治理策略应与时俱进
随着数据治理策略扩展到新的业务领域,调整策略是绝对必要的。而且,随着技术的发展,数据策略也应该随着安全形势、数据分析方法和数据管理工具的发展而发展。
确定什么是成功的数据策略。
我们需要建立明确的标准来衡量数据治理的成功,以便衡量进展。设定数据管理目标有助于确定成功的重要指标,进而确保数据治理策略的方向是满足企业的需求。
无论企业是大是小,在使用数据方面都面临着类似的数据挑战。企业越大,数据越多,数据越多,就越需要制定有效的、正式的数据治理策略。较小的企业可能只需要非正式的数据治理策略,但这仅限于那些规模小、对数据依赖程度低的公司。即使是非正式的数据治理计划,也需要尽可能地考虑数据用户和员工的收集、验证、访问和存储。
当企业规模扩大,数据需求跨越多个部门时,当数据系统和数据集庞大到无法控制时,当业务发展需要企业级策略时,或者当法律或法规要求提出时,必须制定更正式的数据治理策略。