杏彩体育官网如何构建物联网数据精炼厂发布时间:2024-03-17 13:56:26 来源:杏彩体育app登录 作者:杏彩体育官网app随着公司根据从物联网设备获得的数据实施更多的用例,甚至完成业务模式转型,需要一种对这些数据进行数据质量管理的结构化方法变得至关重要。太多的公司试图在质量低劣的数据基础上扩大数字化转型,这会导致很多挫败感,并且几乎没有实际的商业利益。 我有时会用著名的“跨越鸿沟”图进行类比。事实上,初创公司从早期创新者转向被大多数市场采用所面临的挑战有相似之处。当应用于数字化转型时,挑战在于跨越从成功的数字化试点项目到全面实施的鸿沟。 行业公司最近的研究证实,数据质量是扩展工业分析的主要障碍之一。换句话说,众所周知的“垃圾进——垃圾出”的口号仍然很盛行。 现在,尽管数据质量对我们大多数人来说具有直观的意义,但实际上它是一个具有多种可能定义的弹性概念。这些范围可以更窄,例如: 在第二个定义中,数据结构化、可解释性和情境化的方面也被纳入考虑范围,只要这些方面与预期用例相关。 就像炼油厂中原油的情况一样,质量可能较差的原始数据可以得到提炼。可以将其视为通过一系列“质量门”的数据,如下所示: 通过此门的数据是结构化和情境化的。对于物联网数据,此步骤通常意味着已添加设备和资产元数据以及其他关键上下文。 下一步是数据的质量验证。此时,数据质量是根据许多关键维度进行评估的,包括准确性、一致性和及时性。 除了清理和结构化之外,可能还需要由主题专家 (SME) 或数据管理员提供的附加标签,以使数据适合使用。例如,可以标记资产关闭的时间段或在检查问题后添加根本原因信息。 对于关键数据(例如关键报告或计费中使用的数据),让数据管理员明确验证数据并承诺适合使用的事实通常是一种很好的做法。 随着数据通过大门,它变得更加精致、更加值得信赖、更加有价值。我们确实可以将这个逐步过程视为“数据精炼厂”,并与炼油厂或蒸馏过程进行类比。 在真实的炼油厂中,生产各种产品。例如,靠近蒸馏塔底部的地方生产柴油和煤油等成分,用于重型卡车和喷气式飞机。汽车中使用的汽油混合成分等较轻的成分被提取到蒸馏塔的顶部。 同样,我们的数据精炼厂可能会产生各种数据产品。并非所有这些产品都同样精致。重要的是,我们知道每个产品在数据特征和质量方面的期望。没错,我们不想不小心把煤油放进我们的跑车里! 当公司意识到有必要明确定义数据产品作为数据基础设施和最终用户应用程序之间的一层时,就会出现宣泄的时刻。 成功实施后,数据产品可以有助于消除数据生产者和消费者之间的摩擦,帮助数据团队变得积极主动,并实现数字计划的全面推广。 现在我已经完成了场景并将数据产品放在舞台上,让我们介绍一下构建物联网数据精炼厂的主要参与者。我并不是想描述最广泛的数据相关角色集。相反,我想重点关注在实践中实现物联网数据质量管理的可行设置的关键角色。根据我的经验,这些包括以下内容: 数据平台工程师对业务起着促进作用。作为数据平台团队的成员,他是 IT 组织的成员,负责构建、运营和维护构成数据平台的支持 IT 服务。 数据工程师嵌入数据平台团队中,帮助构建和维护自动处理数据的管道。例如,他(她)可以使用编排器将连接到给定端点中的物联网数据的构建块组合在一起,将其与元数据源集成,通过添加资产上下文来构建数据,应用逻辑来挖掘特征和评分数据质量,并使生成的丰富数据可供数据管理员使用。 数据管理员充当数据产品的数据质量的看门人。管理员是领域/业务专家,而不是决定数据质量何时足够好的开发人员或基础设施专家。这意味着他定义数据质量评分并负责数据验证。即使数据清理可以(很大程度上)自动化,数据管理员明确承诺数据适合使用通常也很重要。 数据分析师的角色可能存在于产品团队内部,但更多时候分析师充当数据产品的消费者/用户。在此角色中,他们使用商业智能应用程序等工具从数据产品中查询数据。分析师还经常接受培训以使用 SQL 直接查询所服务的数据。 机器学习操作工程师与数据平台工程师相对应,但对机器学习基础设施(而不是数据平台)负有特定责任。请注意,当使用 Databricks 等平台时,此职责可能与数据平台工程职责或系统范围重叠。 数据科学角色可能作为数据产品团队的一部分存在,例如涉及预测的数据产品或挖掘从数据产品本身收集的使用数据。数据科学家也可能在数据产品团队之外工作,作为数据产品的消费者,使用其数据构建机器学习模型。物联网中的一个例子可能是一个团队使用来自公开核心旋转资产数据的数据产品的数据来构建预测维护模型。 在较大的团队中,可能存在特定角色来管理数据科学家创建的机器学习模型。在这种情况下,机器学习工程师负责在整个模型生命周期中管理模型,负责模型部署和模型维护的各个方面。 底部 描绘了逐步的数据精炼步骤。随着数据从左向右移动,它会通过几个质量关卡,变得更加精致、更值得信赖、更有价值。我想再次强调,并非所有步骤都与每个数据产品中的每个数据点相关。 在中间部分,数据工程师设置自动化数据结构化和上下文化的核心管道。然后,数据管理员获取自动化部分的输出,并根据需要进一步清理、注释和验证数据。最终的结果是分析师和数据科学消费者/用户能够以高质量的数据为基础,感到高兴。 我可以想象,此时您想知道数据产品隐藏在这一切中的哪里。为了澄清这一点,让我们从一个简单的数据产品的角度来看同一张图: 数据产品是依赖/嵌套的。由数据科学家创建并由机器学习工程师操作的模型的预测本身可能会成为数据产品。 数据分析师、数据科学家和机器学习工程师也可能是更大、更复杂的数据产品团队的一部分。当数据产品包含机器学习/建模步骤时,而且当一定级别的数据分析(例如使用统计)成为数据产品团队的必备条件时,就会发生这种情况。 感觉有点不知所措,不确定从哪里开始这个过程?积极的一面是,踏上这一旅程比看起来更容易管理。以下是一些入门的提示: 不要将数据产品团队视为需要雇用的一组人员。更有可能的是,这些人已经是组织的一部分,您可以向他们分配特殊的额外职责。对于较小的组织和数据产品,一个人可能承担多个角色。 从小事做起,但从现在开始。一个好的起点通常是 1 或 2 个人明确负责数据产品,并得到 IT 组织和精心选择的工具集的支持。 考虑数据的性质。一些数据质量工具可以帮助您理解和管理特定的数据类型。选择正确的支持工具通常可以让技术水平较低的人员更轻松地组合多个角色,例如数据工程师和数据管理员角色。 人们经常谈论数据的战略重要性。然而,如今,许多以传感器数据为运营核心的物联网和制造公司没有适当的机制来控制数据。IT 部门的治理举措常常忽视数据产品和数据质量管理对 OT 和物联网数据的重要性。 如果我们希望数字化转型计划能够规模化,我们需要从谈论物联网数据作为一种战略资产转变为真正将其视为一种战略资产。 杏彩体育官网 上一篇:ADW3004G 下一篇:未盈利药企上市从严;辉瑞CEO降薪;国家鼓励医疗装 |