词条 | 数据管理 |
释义 | 数据管理的定义数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、更新与扩充,同时保证了数据的独立性、可靠性、安全性与完整性,减少了数据冗余,故提高了数据共享程度及数据管理效率。 数据管理的三个阶段一,人工管理阶段20世纪50年代中期以前,计算机主要用于科学计算,这一阶段数据管理的主要特征是: (1),数据不保存。由于当时计算机主要用于科学计算,一般不需要将数据长期保存,只是在计算某一课题时将数据输入,用完就撤走。不仅对用户数据如此处置,对系统软件有时也是这样。 (2),应用程序管理数据。数据需要由应用程序自己设计、说明和管理,没有相应的软件系统负责数据的管理工作。 (3),数据不共享。数据是面向应用程序的,一组数据只能对应一个程序,因此程序与程序之间有大量的冗余。 (4),数据不具有独立性。数据的逻辑结构或物理结构发生变化后,必须对应用程序做相应的修改,这就加重了程序员的负担。 二,文件系统阶段20世纪50年代后期到60年代中期,这时硬件方面已经有了磁盘、磁鼓等直接存取存储设备;软件方面,操作系统中已经有了专门的数据管理软件,一般称为文件系统;处理方式上不仅有了批处理,而且能够联机实时处理。用文件系统管理数据具有如下特点: (1),数据可以长期保存。由于大量用于数据处理,数据需要长期保留在外存上反复进行查询、修改、插入和删除等操作。 (2),由文件系统管理数据。 同时,文件系统也存在着一些缺点,其中主要的是数据共享性差,冗余度大。在文件系统中,一个文件基本上对应于一个应用程序,即文件仍然是面向应用的。当不同的应用程序具有部分相同的数据时,也必须建立各自的文件,而不能共享相同的数据,因此数据冗余度大,浪费存储空间。同时,由于相同数据的重复存储、各自管理,容易造成数据的不一致性,给数据的修改和维护带来了困难 三,数据库系统阶段20世纪60年代后期以来,计算机管理的对象规模越来越大,应用范围有越来越广泛,数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈,数据库技术边应运而生,出现了同意管理数据的专门软件系统——数据库管理系统。 用数据库系统来管理数据比文件系统具有明显的优点,从文件系统到数据库系统,标志着数据库管理技术的飞跃。 面向数据应用的数据管理前面讲到数据管理经历了人工管理、文件管理、数据库管理等三个阶段,主要是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。随着信息技术的进步,管理信息系统将面向大规模的组织提供业务支持,不仅要覆盖整个组织的各类业务,而且要覆盖整个组织(全球或者全国)。为此,作为管理信息系统的核心功能,数据管理将要进入一个新的阶段,即面向数据应用的数据管理。 面向数据应用的数据管理概念。数据管理,即对数据资源的管理。按照en:DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(摘自维基百科)。与百度百科的定义比较,百度百科的定义针对的是数据应用过程中数据的管理,即传统的数据管理,而维基百科的定义更高一层,针对的是企业数据全生命周期所涉及应用过程数据的管理,即对数据变化的管理,或者说是针对描述数据的数据(元数据)的管理,在此我们称之为面向应用的数据管理。 根据管理学理论,几个人的团队可以靠自觉、自律,几十个人就要有人管理,几百个人就要有一个团队管理,几千或几万人就必须要依靠计算机辅助团队管理。通常覆盖全国的企业和机构,其整个组织的管理分为总部机构、省级机构、市级机构、以及基层机构等等各层级机构;在每个层级机构中还设置了直接从事相应业务的管理和职能部门和非直接从事业务的管理和职能部门(如人事、办公、后勤、审计等);每个部门又是由若干员工为管理对象构成的。同时,还制定了一系列的制度去规范和约束机构、部门、人员等管理对象的活动、行为等。 同样,数据管理随着管理对象——数据的增加,管理的方式(阶段)也会随之提升。通常的大型管理信息系统,其整个项目分为总集成、分项目、子项目、每个子项目又有若干内部项目组等等管理层级;在每个管理层级中都涉及直接服务于业务的业务功能(如业务交易、账务处理、行政管理、结果展现等等)和非直接服务于业务的非业务功能(如定义、配置、监控、分析、记录、调度等等);每个业务和非业务性质的功能又分别由若干数据集合为对象(如流程、表单、数据项、算法、元数据、日志等等)所构成的。同时,也需要制定一系列制度、规则和标准去约束项目、功能、数据等管理对象的活动和变化。 由此可见,传统的数据管理侧重的数据对象是流程、表单、数据项、算法等直接面向具体业务需求的数据;面向应用的数据管理所涉及的数据对象,还增加了通过标准化的手段,描述流程、表单、数据项、算法等应用对象的数据(即它们对应的元数据),以及记录各类数据变化结果的档案、记录运行状态的日志等等非直接面向业务的数据,以实现对各类应用业务需求的加载、变化、记录、复用等过程的管理。 面向数据应用的数据管理对象。面向数据应用的数据管理对象。面向数据应用的数据管理所管理的数据对象,主要是那些描述构成应用系统构件属性的元数据,这些应用系统构件包括流程、文件、档案、数据元(项)、代码、算法(规则、脚本)、模型、指标、物理表、ETL过程、运行状态记录等等。 通常意义的元数据(Metadata),是描述数据的数据(data about data),主要是描述数据属性(property)的信息。这些信息包括数据的标识类属性,如命名、标识符、同义名、语境等等;技术类属性,如数据类型、数据格式、阈值、计量单位等等;管理类属性,如版本、注册机构、提交机构、状态等等;关系类属性,如分类、关系、约束等等。而面向数据应用的数据管理所涉及的元数据,主要是描述那些应用系统构件属性的信息。除了传统元数据属性以外,每个不同的构件还有其特有的属性,比如流程要有参与者和环节的属性、物理表要有部署的属性、ETL要有源和目标的属性、指标要有算法和因子的属性等等。 每一个构件必然对应一个或多个(一个构件的不同分类)元模型,元模型是元数据的标准,每一个元数据都应该遵循其对应元模型的定义。比如每个数据项(元)都有自己的名字、标识符、数据类型、数据格式、发布状态、注册机构等等属性,这些属性的集合就是这个数据项的元数据。而每个数据项的元数据都是由哪些属性描述、每个属性应该如何描述、以及描述的规则等等约束称之为元模型。电子政务数据元标准(GB/T 19488.1-2004)就是电子政务数据项(元)的元模型。 传统的元数据管理通常均在相关业务实现后,通过专门元数据管理系统的抽取功能加载元数据,这种方式由于需要在事后人工地启动加载或维护(事后补录业务属性)元数据的过程,往往很难及时获取元数据的变化,确保元数据与实际情况的一致性。在实现面向应用的数据管理时,应该采用主动的元数据管理模式,即遵循元模型的标准,通过人机交互过程加载元数据(本地元数据),在可能的情况下同时产生数据对象(应用系统构件)的配置或可执行脚本(如果条件不具备,也要利用人机交互所产生的元数据,作为其它相关工具产生可执行脚本的依据)。每当需要变更配置或修改脚本时,也是通过这个人机交互过程实现,同步产生新的元数据,保证了元数据与实际的一致性。面向数据应用的数据管理意义和方法。 面向数据应用的数据管理意义和方法。传统应用系统(Application Systems)往往是针对特定应用的,需要固化需求的,难以支持变化的管理信息系统。而金税三期项目是建立针对全国性的组织,覆盖整个组织所有管理业务和所有用户的管理信息系统。这样的应用系统,业务需求的“变化”是常态的,“不变”是暂态的;面对整个组织,各部门和层级的业务“不同”是客观存在的,“统一”是逐步实现的,继而持续拓展(开始新的不同)的。为此,必须要有一个不仅能提供业务需求的实现,更要能够提供可支持业务需求的变化,可对它们变化进行跟踪和管理,可以支持持续优化的用户体验的,企业化生产的新型应用系统(AS2.0)产品集合作为支撑。AS2.0中必须对整个组织业务需求的变化过程和结果加以控制、记录和管理,面向数据应用的数据管理就是AS2.0关键基础构件的一个产品,并且是它可行性的基础。 传统应用系统的数据管理所关注的是数据的增值过程,其功能的实现重在关注和强调业务需求内容的加载、内容的ETL、内容的组织、内容的加工以及内容的反映。这些功能的都是通过编码实现的,固化的软件代码。AS2.0的数据管理所关注的增加了元数据的集合、历史数据的集合和状态数据的集合,并且利用主动的元数据管理工具进行配置和加载实现的软件代码。同时,将其对应的本地元数据汇集形成元数据集合,实现对各种业务需求的变化实施加载,加以捕获,进行记录,实现跟踪达到对变化的管理;将与内容和变化相关的历史记录加以标准化的封装形成档案,实现历史资料的组织、复用和卸载等功能达到对历史的管理;将AS2.0各种构件运行状态信息实时捕获,加以记录,综合分析,及时反映,实现整个系统运行时状态的综合管理。 综上所述,随着数据对象拓展了变化的记录、历史的记录、状态的记录,标志着数据管理进入了新的阶段——面向数据应用的数据管理,也标志着应用系统开始进入AS2.0时代。 数据管理是反洗黑钱 (AML) 的核心所在金融服务提供商需要比以往任何时候都要更加深入地了解他们的客户。洗黑钱是许多政府在打击犯罪和恐怖主义时考虑的一个主要问题,正因如此,他们已针对其管辖范围内运营的金融服务组织发布了众多指南。 数据管理是反洗黑钱 (AML) 的核心所在。例如,欧盟的《反黑钱第三指令》和《美国爱国者法案》都很注重以下领域中需要受到关注和严格管理的数据质量: ·客户身份标识 ·了解客户 (KYC) ·客户(或增强的)尽职调查 反洗黑钱中的Informatica数据质量解决方案Informatica ® Data Quality TM 包括用于业务和合规性数据分析的桌面工作台。它易于使用的界面可让那些需要充分了解数据和业务流程的用户创建自身的数据质量规则,以确定潜在的可疑或欺诈行为。 这种易于使用的功能是企业的一个关键优势。简言之,无需等待独立部门来制定和部署规则,从而由于实施时间的延迟而增加泄露风险。如今,公司不但可以制定、部署和集中管理规则,而且还可以快速对不断变化的业务情况做出反应。 Informatica Data Quality 解决方案用于交叉引用多个数据集。这种交叉引用可让企业按照以下列表来识别和验证客户和交易数据: · 观察列表(内部、政府和第三方) · 死亡率列表 · 政界人士 (PEP) 列表 · 抑制列表 · 地址数据 · 参考数据 最后,一旦规则建立后,可以通过 IT 组织对它们进行部署和优化,并设定为定期执行。这种自动检查可以确保在使用定期、计划的批处理作业的持续基础上管理数据,非常适用于连续的客户尽职调查 (CDD) 和特殊的可疑活动报告。 反洗黑钱(AML)中的客户信息计划制定规则企业必须详尽地了解他们的客户。销售、营销和金融部门的有效运作都必须有准确和最新的客户数据。 过去,与数据保护相关的各种法规都要求更好的客户数据质量,例如《银行保密法》(美国)和 HIPAA。但是,立法者和监管者已通过附加的合规举措对最近的一些违规行为做出了反应,包括《萨班斯—奥克斯利法案》、欧盟的《反黑钱第三指令》、《美国爱国者法案》、《金融工具市场法规》(MiFID) 和 Solvency II。 这其中的许多举措表明了企业在以下领域内的整合要求: · 数据治理 · 数据集成 · 数据存储和仓库 · 商业智能和报告 纵观所有这些规则,表明了对管理数据质量计划的一贯要求。有时候,这是一种隐含的要求,但在一般情况下,数据质量要求却是明确的: 需要实施涵盖所有开户客户的程序: 1. 捕获所有客户的 ID 信息 2. 验证客户身份 3. 通知 CIP 流程的客户 4. 将客户姓名与政府列表进行比较 所需的身份信息(在开户之前): 1. 姓名 2. 街道地址(不需要邮政信息) 3. 出生日期(个人) 4. 身份号码(对于美国公民,必须为美国纳税人身份证号码)。 第 326 节:客户确认计划 《美国爱国者法案》 要管理他们的客户信息计划 (CIP),许多金融机构均会依赖于 Informatica 的数据质量产品。业务分析师使用基于角色的 Data Quality Workbench 来定义规则,以确保 CIP 所需的数据适合于其目的。 通常情况下,需要衡量和报告以下数据质量维度: · 完整性: 确保填写所有 CIP 数据 · 符合性: 确保所有 CIP 数据的格式均正确无误 · 一致性: 分析多个属性以保证数据的一致性,例如货币与国家/地区和城市与 国家/地区 · 重复性: 此客户是否已经存在? · 真实性: 此客户是否在 PEP 列表上?此客户是否与员工相关 (KYE)?此客户是 否与其他客户相关? · 准确性: 确保 CIP 数据都有效:日期、产品代码、地址 · 范围: 本次交易是否超过某一数量?帐户上的货币交易数量是否超过某一 水平? 分析师可以使用此类报告,快速确定在基于风险的 CIP 中需要引起关注的数据差异。例如: · 居住的国家/地区 · 客户业务的性质 · 帐户或银行产品的类型 · 交易数量和交易值 · 客户在 PEP 列表上 在数据捕获(例如,打开新的帐户)或通过批处理时,都可以生成高度精确的搜索结果和数据质量异常报告。通常情况下,数据质量改善流程适用于现有的客户或交易数据,以提高 CDD 或促进历史审查。可以使用 Informatica 或第三方报告引擎来提交报告。 AML 程序中用于比较的字段分析师也可以通过使用 Informatica Data Quality 解决方案,根据观察列表来履行他们对客户进行比较的监管要求。 通常,在 AML 程序中用于比较的字段包括: · 名字 x 出生年份 · 姓氏 x 地址 · 性别 x 身份标识 · 出生日期 例如,业务分析师可以通过着重于出生年份(而不是完整的出生日期)来单独权重各个字段。 在此示例报告中,如图 2 中的示例,可以生成客户数据集和参考数据集之间所有潜在匹配的列表,例如观察列表。可以通过预先确定的权重来触发 AML 警报,使相关人士关注这些匹配。如果匹配 AML 报告中的这些记录不是真正的匹配,可以设定标记以避免今后的报告使用同样的匹配。 搜索和匹配流程也可只用于确定和删除系统中的重复内容。潜在重复内容可通过基于 Web 的客户提交给数据质量管理员,前者将审查质量欠佳的记录,并选定一个在重复内容中拥有最佳数据的主记录或完美记录。 AML 算法内置数据质量防火墙CIP 是全面了解客户 (KYC) 计划的一个子集,该计划最终需要相同的数据质量流程。通常情况下,数据质量管理员扩展 Informatica Data Quality 解决方案的 CIP 功能,以便纳入与客户的财务状况和投资目标相关的数据。 使用 Informatica 公认的技术方法,可以改进和验证客户的数据,从而协助实现 KYC 目标。因此,它不但包括对欺诈行为的更多检测,而且还可增强客户关系数据和销售市场部分。 从效果上来说,这在 AML 算法或第三方引擎的前面内置了一个数据质量防火墙。 这些防火墙实现两个功能: · 确定质量欠佳的数据:标准化、清洗数据和/或及时扩充,从而提高 AML 引擎 的效率并降低风险的出现。 · 确定潜在的欺诈行为:在将数据加载到引擎之前,使用数据质量业务规则, 尽早地抓捕欺诈行为。 图 4 显示了数据质量防火墙的挖掘视图。它包含逐条记录的数据质量等级 (O 列)。在 0% 至 100% 之间对其进行评分,这些等级首先用于指向包含最差 DQ 的记录。业务分析师可以根据具体情况,轻易地调整这些等级的权重。 此外,该报告还强调了 CIP/KYC 风险等级,这些风险等级均适用于使用 Informatica Data Quality 的数据。这些风险等级确定了可能会导致欺诈行为的特定数据方案,即使在将数据加载到 AML 引擎之前。 AML 程序的重要组成部分:客户尽职调查对新的和现有的客户进行充分全面的客户尽职调查 (CDD) 是任何 AML 程序的重要组成部分。CDD 依赖于优质的 CIP 和 KYC 数据以及流程来监控客户关系的改善情况,并将他们的服务用作整体风险控制功能的一部分。 《美国爱国者法案》、《反黑钱第三指令》和其他法律都非常高度重视 CDD,且 Informatica Data Quality 也非常适合于提供持续的监控以应对这些要求。 如上述所论,积极的数据质量管理可以确保随着时间的推移,CDD 使用的数据质量越低,而效率却越高。 第 II 章 客户尽职调查 第 8 条第 1 节 1. 客户尽职调查测量应包括: (a) 识别客户并验证客户的身份 …… (b) 在适当的情况下,识别爱益者,并采取基于风险和充分的措施来核实他的身份,以便本指令所涵盖的机构或人员对所了解的受益者满足,包括法人、信托或类似的法律安排,采取基于风险和充分的措施来了解所有权并控制客户的 结构; (c) 获得有关业务关系的宗旨和目的性的信息; (d) 对业务关系进行持续的监控,包括交易审查...... 欧盟的《反黑钱第三指令》 AML 数据质量规则示例 |
随便看 |
百科全书收录4421916条中文百科知识,基本涵盖了大多数领域的百科知识,是一部内容开放、自由的电子版百科全书。