数据人员最常听到最心脏和苛刻的句子是“不允许您的数据吗?”。在过去的数据支持中累积的所有业务价值可能会感知具有异常数据的“锅”。数据质量问题是每个数据应用程序数据产品始终都需要集中和解决的问题。
您是否曾经经历过以下场景?
刚刚开始在9点开始工作,用户组一直在油炸,营销数据报告,经验概述...为什么今天不出来? CDP平台新来宾包的营销场景,为什么它确实是一名资深人士,但被系统地判断为新客户。将承担多重损失的成本?昨天,dau年一年减少了80%。数据不是不完整的吗? 《大数据安全法》于9月1日正式实施。您的用户身份信息如何出现在数据产品中?你是非法的!业务发现流量统计数据具有异常的峰值价值。您不是自己阅读数据,您没有商业常识和数据吗? ...
BI数据分析和基于数据的操作,例如数据产品,例如数据产品,数据质量问题将导致错误的业务决策,或带来用户经验问题和直接经济损失。因此,作为数据干燥的人,数据产品的质量应负责数据产品的质量。早期诊断,早期发现和早期分辨率,并在出现问题之前预防问题。否则,倒塌的路堤为时已晚。
1。数据质量问题的类型
国际数据管理协会(DAMA)定义了数据质量维度。结合实际业务方案,它总结了7个数据质量的核心维度:准确性,及时,完整性,理性,一致性,独特性,安全性。
1。准确性
精度是指数据值和设置之间的一致性程度,或者是指准确值或接受之间的差异。数据质量评估维度是第一名,不允许数据,数据产品的可视化效果很酷,交互式体验很顺利。
准确性是数据团队商业信任的重要先决条件。当数据产品提供的数据多次不准确时,一旦数据波动,业务的第一个响应通常是数据的数据,而不是查看业务动作产生的数据结果。
1)数据产品响应策略:
定义数据评估标准,例如根据业务增长趋势或模型预测,并定义了具有合理指标的波动范围。当波动超过阈值时,会及时通知数据人员以提前找到解决方案。
2。及时的自然
从收集和处理到输出应用程序,长数据仓库ETL计算和数据同步的过程需要任务时间,操作时间,操作质量以及任务的依赖性将影响数据的最终输出。
一般离线数据分析(T+1是指今天昨天的完整数据)在第二天的12:00 AM开始任务。在两天的下午,或T+2可以输出。业务需要查看工作中的数据。在数据运行之前,它将影响业务的正常使用。
数据的及时性质主要受大数据集群服务的稳定性,存储和计算资源的影响。当集群资源紧张并且任务获取资源时,它们可能会导致9点之前完成的任务,并且在下午尚未完成。
1)数据产品响应策略:
设置核心数据涉及对任务的最新位置监视,但是此监视的大部分是通知,因为一般资源级别的问题很难修复,主要是知道。数据产品需要制定相应的口袋方案。例如,监视数据任务的状态仅在任务状态成功时显示最新日期数据,否则仍显示前一天的数据,并添加了相应的交互式提醒。 “在昨天的数据计算中,请先检查其他日期数据。”
3。集成
它主要包括四个方面:身体缺乏,缺乏属性,缺乏记录和缺乏现场价值。例如,应用程序用户将基于设备ID+用户帐户生成唯一的UUID。 iOS版本后,对数据报告的统计分析发现,iOS的DAU跌幅很大。 ,许多用户UID是空的,未涵盖测试会话,并且可以找到大量数据统计信息。结果,监视埋入的点数据的核心字段以监视完整性,并且该问题是从数据底部发现的,而不是业务报表的输出。
4。合理性
它主要包括格式,类型,价值域和业务规则是否合理有效。由于业务方并未验证所有用户的交互式输入操作,因此对于某些异常操作,它将导致数据异常。我已经遇到了 - out bd,以完成奖金,并与商人合作以下达大量订单。这可能是一个异常数据。通过数据范围合理的范围,可以及时捕获这些问题,并且可以审查操作员或清洁政府部门。
5。一致性
是指系统之间的数据差异以及相互矛盾的一致性,业务指标是统一以及数据逻辑处理结果。数据团队不会产生数据,而是数据团队的数据。与业务系统的数据同步的数据仓库可能会导致由于系统和工具异常而导致数据和业务数据的不一致。对于数据产品端,它主要指的是相同的指标或标签。数据处理逻辑不一致,数据不正确。数据处理层需要监视数据源和业务数据源和核心字段一致性监视的量。
6。独特
它主要是唯一的主要密钥之一,当数据主键遇到时,通常会重复进行,从而导致异常数据统计。
7。安全
2021年9月1日,《数据安全法》正式实施。对于敏感数据,例如用户身份证和手机号码,它是严格传输和显示的。数据处理应以加密状态进行。数据产品方表明,明亮的文本敏感信息将为法律带来法律信息。风险。
2。数据质量问题的原因
有许多导致数据质量的问题,通常可以将其分为业务,技术和基础设施的各个方面:
1。业务方面
业务变化,例如新活动页面上缺少埋藏点,业务源系统的变化(源系统数据库的数据库表结构的变化,源系统环境的变化)以及业务侧面数据的不规则数据输入。
2。技术终端
数据开发过程不是标准化的,数据质量监视不正确。例如,数据开发任务中各种任务的过程,参数,配置等都有错误,并且数据验证还不够。
3。基础设施
存储计算中的集群资源不足导致数据处理任务失败和延迟,从而导致数据输出异常。
3。如何控制自己的生命线
除了需要注意数据质量的数据开发人员外,数据产品还需要监视数据产品中涉及的数据源和任务,并及时找到数据质量问题。同时,在产品方面提供异常提醒,以避免销售和使用错误决策或数据问题引起的错误数据。
首先,基于数据血液或离线数据链接维护,找到用于数据产品的数据处理链接。对于核心服务,请确保对数据质量监控规则的全面覆盖。当数据处理会话出现异常时,它是首次知道的,跟进以开发和修复数据,并同步在业务方面。
其次,当实现数据产品时,判断了依赖数据指标依赖的处理后的任务状态。一个是成功任务的状态,另一个是及时的。当任务失败或延迟时,产品页面将被处理提示,或使用IM邮件和其他通知用户。
此外,数据产品应与数据血液建立联系关系。当企业怀疑数据异常时,您可以直接找到数据索引的处理链接,以快速检查问题。
最后,数据团队还需要与业务建立信息互操作性机制,例如参加商务周会议,了解产品和运营等业务变化。当业务变化时,您可以尽快评估对数据的影响。
第四,数据产品:数据质量监控产品
为了实现早期发现,早期解决方案以及对数据质量问题的早期通知,最常用的工具数据产品之一是数据质量监视。也就是说,数据表和字段的规则,例如监视规则,例如表数据量,数据重复,字段波动,现场值等。在数据源层中发现质量问题。
五,摘要
数据质量问题是数据开发人员和数据产品需要注意的问题。这两个角色是“绳子上的蚱”。但是,实际上,这些故障经常发生,也就是说,数据开发人员对数据输出方面的关注不足:数据产品还不够。据信,只要数据ETL做得好,请添加一些监视。
数据产品认为只需要注意产品功能和交互。出现的数据是数据开发的责任,不关注数据质量。数据产品是数据值的形式之一。从产品中,我们应该专注于数据质量保证的过程,并共同增强信任对数据团队的信任。
这样,当您询问业务“不允许数据”时,您可以要求更多问:“您对业务有任何调整吗?”
#专栏作家#
数据干燥的人,微信公共帐户:数据干人员,每个人都是产品经理专栏作家。专注于数据领域中数据领域的数据产品,涵盖开发工具包,数据资产和数据治理,BI和数据可视化,精确营销平台和其他数据产品。擅长大数据解决方案计划和产品解决方案设计。
版权声明:本文为 “ 【博览广文网】阅览万文、增长见识,广阔的软文阅读网站!” 原创文章,转载请附上原文出处链接及本声明;
工作时间:9:00 - 18:00
客服电话
暂无电话/微信dat818
电子邮件
80765864@qq.com
扫码二维码
获取最新动态