博客

风险管理数据仓库/ BI数据通过数据和解和数据沿袭过程

作者:

韦恩Yaddow

数据迁移/集成/ ETL顾问

日期:2019年9月30日

编者按:韦恩Yaddow是一个独立的顾问拥有超过20年的经验主要数据迁移/集成/ ETL测试项目在组织包括摩根大通(J.P. Morgan Chase)、瑞士信贷(Credit Suisse)、标准普尔,AIG,奥本海默基金、IBM和Achieve3000。此外,韦恩告诉IIST(国际软件测试研究所)课程188金宝搏官网登录app数据仓库,ETL,数据集成测试。他继续带领众多ETL测试和培训项目咨询的基础上。你可以联系他wyaddow@gmail.com

国际法要求数据和解和血统

欧盟法律要求所有金融机构进行定期对账的前台记录据报道,欧盟监管机构对金融数据库和数据集成。

由于欧盟的义务MiFID二世(即。,the EU2004年的金融工具市场指令”),重要数据风险是固有的数据集成和报告的过程中,可能导致可能损失的BI“决定完整”。所有公司必须实现一个健壮且灵活的解决方案对数据验证和和解。MiFID II几乎覆盖了整个宇宙的金融工具。

数据风险是金融行业日益严重的问题,由于存在大量的过程数据暴露在源和目标之间的目的地。在MiFID II、报告数据可能需要通过大量的外部公司的数据库之前达到监管机构。每一步经常包括手动和自动数据转换和富集层,可能引入错误。

进一步将事务从其最终目标,错误发生的可能性就越大。它也变得越来越难以跟踪这些错误和协调数据回数据源(即。数据沿袭)。结果通过手工数据对账,高成本和潜在的询盘和处罚由于控制不足。

数据和解和数据沿袭流程是什么?

数据和解过程在测试阶段和工具用于在数据集成过程中目标数据比较原始和持续的改变源数据,确保集成(例如,ETL)架构已经正确地和/或转换数据。[3]

一般来说,数据和解的行动:

  • 进行重要的(质量)数据加载/ etl后检查:[2]
    • 元数据的正确性——源到目标
    • 数据集成完整性——行和列数
    • 目标数据唯一性——前女友,没有重复的行和列
    • 源和目标数据的引用完整性,前主键和外键关系
    • 数据聚合——源到目标的正确性和转换
  • 比较数据点来检测数据中的错误动作和转换
  • 识别的数据集(例如,源和目标),不应该有差异
  • 比较和验证元数据从源到目标(如数据类型、数据长度、最小/最大价值,精度,等等)

数据和解是实现这些目标的核心。加强的市场和更苛刻的客户的期望高质量数据和解和数据沿袭评估过程竞争的必要性。

候选人申请数据和解可以基于这些因素的影响:

  • 数据提取流程的复杂性(如δ数据的提取与满载)
  • 定义和普通人类的干预措施
  • 数量修改标准的提取过程
  • 频繁更改业务规则

数据沿袭过程和工具帮助组织理解所有数据来自哪里,如何从点对点,它是如何改变/转换,它可能在任何时候。[3]

通过数据沿袭,组织可以理解发生了什么数据通过各种管道上传输时(如电子表格、文件、表、视图、ETL流程、报告);因此,更明智的商业决策接踵而来。从数据库表数据沿袭澄清的路径,通过ETL过程,依赖于数据的所有报告;数据沿袭使您能够仔细检查所有的报告,以确保他们拥有一切所需的。

数据沿袭使组织能够跟踪特定的业务数据来源跟踪错误的目的,实现流程的变化,并实现系统集成,节省大量的时间和资源,从而极大地提高BI效率和“决策的完整性”。没有数据沿袭,数据管家将无法执行的根本原因分析需要识别并解决数据质量问题。

组织不能事先不了解的故事,它使用连续决策的数据的完整性。数据沿袭了可见性,极大地简化了错误能够追溯到根源在数据分析的过程。[3]

最后,数据沿袭通常代表直观地揭示从源到目标的数据流/运动通过各种变化。同时,如何转换,数据如何表示和参数变化,以及数据分割或收敛后ETL或纳入报告。

数据仓库/ BI数据和解的一个例子

一般来说,数据和解的信息系统是一个行动:

  1. 比较具体的数据点
  2. 识别不同的源和目标数据点,那里应该没有
  3. 故障诊断的差异

例子:数据仓库ETL的集成产品数据来自两个来源:“一个来源”和“源B”(图2)一个来源B记录可能有不同的产品编号(Prod_num)相同的产品名称(例,共同基金)。[1]

在下图中,ETL的创建“数据仓库”表允许只有一个产品编号(Prod_num)产品。在数据差异的情况下,从价值一个来源将优先于价值的源B

由于这些业务规则实现的,数据仓库表和BI报告将包含Prod_num产品(产品:共同基金,Prod_num: 123)一样吗一个来源,而Prod_num源B将被记录作为例外——也许在未来纠正。

在图1中,数据之间的和解数据仓库源B异常日志将进行比较:

  1. 产品名称Product_num源B异常日志数据仓库
  2. 对于不匹配的记录,和Prod_num数据仓库=Prod_num在源,和解成功

注意:如果Product_num例外源B没有被捕获并记录,数据仓库Prod_numsBI报告并不是所有的调和与吗一个来源

例子的数据和解流示例ETL集成

例子的数据和解流示例ETL集成

在这个例子中,和解过程是关心最终报告中的数据,连同所有的ETL例外,都准确地协调一致Prod_nums在最初的一个来源

挑战与数据和解和数据沿袭过程

几个挑战阻止广泛部署数据和解系统包括缺乏服务)安全、准确地生成数据和解信息在计算机系统中,b)安全协调,收集在分布式系统中,和c)理解和控制等管理的存储和计算开销
流程。

  • 数据和解实现努力取决于数据的复杂性,来源,和调和的数量指标。需要根据业务需求优先考虑的指标。
  • 可维护性、可支持性和发展中棘手的问题都应该解决的一些关键问题的支持团队。
  • 数据和解是一种经常被忽视和低估活动,视为routine-albeit必要的。然而,做得对,和解是至关重要的两个最重要的组织成功的决定因素:管理的性能和客户满意度。
  • 和解不幸的是,在许多公司仍然是一个费力,费时的和充满风险的过程,员工被迫手动搜索大量的电子表格和调和手动一些数据。
  • 自动化和解进程和实现工作流异常的最佳实践提供了企业在追求轻松赢得更大的生产力,性能和效率。

接下来:“建立数据仓库/ BI项目支持数据和解”

[1]Rachid Mousine。”和解的数据仓库设计要点”,形成数据企业有限公司

[2]运行的重要检查数据库向导”,https://documentation.188金宝搏app苹果下载软件tricentis.com/tosca/1220/en/content/tosca_bi/bi_vital_filetodb.htm188金宝搏app苹果下载软件Tricentis.com

[3]维基百科,“数据沿袭”、“数据验证与和解”,Wikipedia.org

作者:

韦恩Yaddow

数据迁移/集成/ ETL顾问

日期:2019年9月30日
Baidu
map