为了为分析和机器学习计划准备数据,团队可以加速机器学习和数据科学项目,以提供身临其境的商业消费者体验,并通过以下六个关键步骤来加速和自动化数据收集流程。
当今的组织一直在寻找快速,准确地准备数据的方法,以解决他们的数据挑战并启用机器学习(ML)。但是在将数据引入机器学习模型或任何其他分析项目之前,重要的是要确保其干净,一致和准确。由于当今的许多分析都依赖于数据的上下文,因此最好由最接近数据实际代表的人员来完成任务。可以将预感,理论和业务知识应用于数据的业务领域专家。
不幸的是,业务用户通常不具备数据科学技能,因此弥合差距可以在快速从数据中获取价值之间产生差异。结果,许多人正在应用数据准备(DP)来帮助数据科学家和ML从业人员快速准备和注释其企业数据,以将数据的价值扩展到整个企业中以进行分析工作负载。
数据收集和准备如何成为可信赖的机器学习模型的基础
为了创建成功的机器学习模型,组织必须有能力在部署到生产中之前对其进行培训,测试和验证。数据准备技术被用于创建当今现代机器学习所需的干净且带注释的基础,然而,从历史上看,好的DP比机器学习过程中的任何其他部分都要花费更多的时间。
减少数据准备所需的时间变得越来越重要,因为它留出了更多的时间来测试,调整和优化模型以创造更大的价值。为了为分析和机器学习计划准备数据,团队可以通过以下六个关键步骤来加速机器学习和数据科学项目,以提供身临其境的商业消费者体验,从而加速并自动化数据到洞察流程:
步骤1:资料收集
这是迄今为止解决常见挑战的必不可少的第一步,其中包括:
自动确定存储在.csv(逗号分隔)文件中的数据字符串中的相关属性将高度嵌套的数据结构(例如来自XML或JSON文件的数据结构)解析为表格形式,以便于扫描和模式检测。从外部存储库搜索和识别相关数据。但是,在考虑使用DP解决方案时,请确保将多个文件合并为一个输入,例如当您有一组代表每日交易的文件,但是您的机器学习模型需要提取一年的数据时。另外,请确保已制定应急计划,以解决与数据集和机器学习模型中的采样和偏差相关的问题。
步骤2:资料探索和分析
收集完数据后,就该评估其状况了,包括查找趋势,异常值,异常,不正确,不一致,丢失或偏斜的信息。这很重要,因为您的源数据将告知您所有模型的发现,因此确保它不包含看不见的偏差至关重要。例如,如果您正在全国范围内看待客户行为,但仅从有限的样本中提取数据,则可能会错过重要的地理区域。现在是时候在整个数据集上,而不是仅仅在部分或样本数据集上,发现任何可能会错误地歪曲模型结果的问题。
步骤3:格式化数据以使其一致
做好数据准备的下一步是确保以最适合您的机器学习模型的方式格式化数据。如果您要汇总来自不同来源的数据,或者您的数据集已由多个利益相关者手动更新,则可能会发现数据格式方面存在异常(例如,5.50美元对5.50美元)。以相同的方式,标准化列中的值(例如可以拼写或缩写的州名)将确保您的数据将正确汇总。一致的数据格式化消除了这些错误,因此整个数据集使用相同的输入格式化协议。
步骤4:提高数据质量
在这里,首先要制定一种策略来处理数据中的错误数据,缺失值,极值和离群值。如果自助数据准备工具具有内置的智能功能,可以帮助匹配来自不同数据集的数据属性以进行智能组合,则可以提供帮助。例如,如果您在一个数据集中有FIRSTNAME和LASTNAME列,而另一个数据集有一个名为CUSTOMER的列,似乎包含FIRST和LASTNAME的组合,那么智能算法应该能够确定一种匹配这些名称并加入数据集以获得客户的单一视图。
对于连续变量,请确保使用直方图查看数据的分布并减少偏斜。确保检查超出可接受值范围的记录。此“异常值”可能是输入错误,也可能是真实且有意义的结果,可以通知未来事件,因为重复或相似的值可能携带相同的信息,应予以消除。同样,在自动删除所有缺少值的记录之前要多加注意,因为太多的删除可能会使您的数据集倾斜,从而无法再反映实际情况。
步骤5:特征工程
此步骤涉及将原始数据转换为更好地表示学习算法模式的功能的技术和科学。例如,可以将数据分解为多个部分以捕获更具体的关系,例如按星期几而不是按月或按年分析销售业绩。在这种情况下,将日期与日期分开作为单独的分类值(例如“Mon;06.19.”)可以为算法提供更多相关信息。
步骤6:将数据分为训练和评估集
最后一步是将您的数据分为两组。一个用于训练算法,另一个用于评估目的。确保为训练和评估集选择数据的不重叠子集,以确保进行正确的测试。投资提供原始源版本控制和分类的工具,以及准备输入机器学习算法的原始数据以及它们之间的沿袭。这样,您可以将预测的结果追溯到输入数据,以随着时间的推移优化和优化模型。
提升业务绩效–DP如何实现ML和解决数据挑战
长期以来,数据准备一直被认为可以帮助企业领导者和分析师准备和准备分析,运营和监管要求所需的数据。在AmazonWebServices(AWS)和Azure上运行的自助数据准备通过利用基于云的环境的许多有价值的属性将其提升到一个新的水平。
因此,最接近数据并且最了解其业务环境的业务用户可以借助内置的智能和智能算法快速而准确地准备数据集。它们可以在直观,可视化的应用程序中工作,以完全的管理和安全性通过单击(而不是代码)来访问,探索,塑造,协作和发布数据。IT专业人员能够在企业和云数据源之间维持数据量和种类的规模,以支持业务场景,满足即时和可重复的数据服务需求。
诸如DP之类的解决方案解决了许多数据挑战,并使机器学习和数据科学工作流程能够借助机器智能增强应用程序。更重要的是,它使他们能够将数据按需转换为信息,从而使组织中的每个人,流程和系统都变得更加智能。
转载请注明:http://www.0431gb208.com/sjszlfa/7778.html