跳到主要内容

机器学习和MLOps:关键概念、工具和数据挑战

为什么机器学习要从模型到生产 DatOps.

什么是机器学习?

机器学习(ML)是一种人工智能(AI),它使用算法,在没有人类干预的情况下,随着时间的推移变得更加准确.  而不是硬编码或定义结果, 机器学习模型使用数据来学习如何做出决定,然后结合反馈来随着时间的推移提高准确性. 

算法处理的数据越多,处理反馈的速度就越快, 结果就会越准确. 本文主要讨论机器学习对数据团队的意义, 负责保证新鲜食品源源不断地供应的人, 为机器学习分析师和工程师使用的可靠数据. 

机器学习用例

利用机器学习和人工智能进行学习, 预测, 自动化响应已经改变了许多行业. 

  • 医疗保健 生命科学公司训练急救车,以便在某人心脏病发作之前就能知道他什么时候会发作
  • 金融服务 保险公司能够快速批准贷款申请, 信用卡, 杜绝欺诈行为, 防止网络攻击. 
  • 游戏和娱乐公司生成实时排行榜和互动, 标记令人反感的文本和交互, 同时也能让人们参与推荐的下一个活动.
  • 物流和运输公司使用机器学习来优化路线, 防止欺诈行为, 降低燃料成本.

任何需要做决定的时候, 机器学习通过训练算法进行分类或预测来帮助数据科学家, 揭示数据挖掘项目中的关键洞察. 机器学习的前景是让电子游戏网址大全的生活更丰富, 解决像气候变化这样的大问题解决全球贫困问题,治愈癌症. 但结果取决于输入和模型的工作方式. 错误的数据和偏见可能会在没有意图或理解的情况下形成. 

在电子游戏网址大全谈到机器学习的挑战以及如何改善数据之前, 让电子游戏网址大全更深入地看看机器学习是如何工作的. 

机器学习的原理

机器学习有三种基本类型,每一种都以不同的方式使用数据. 

监督式学习 

利用已知标签的历史数据,基于输入输出对构建模型. 一旦模型经过训练,就可以在生产中使用类似的数据集. 监督学习在结构化数据上工作得很好,因为你可以控制输入. 

通过监督学习解决的常见业务问题包括:

  • 顾客是否会购买某种特定的产品?
  • 这个肿瘤是良性的还是恶性的?
  • 一篇文章是否带有侮辱性、威胁性或淫秽性?
  • 房子的预计售价是多少?

无监督学习

当过去数据的标签不可用或未知时, 该模型是基于数据中变量之间的关系聚类数据构建的. 无监督学习, 允许机器学习应用于很少或根本不知道输出应该是什么样子的问题. 无监督学习可以用于传感器数据或web日志, 来自组织内部或外部的非结构化或连续的数据.

非监督学习模型可能会回答的问题包括:

  • 哪些客户将提供最高的终身价值?
  • 如果电子游戏网址大全批准贷款,这个客户偿还贷款的可能性有多大?
  • 电子游戏网址大全车队中的哪些卡车需要维修?

神经网络和深度学习

而不是成对或聚集, 神经网络在输入和输出之间使用一个隐藏层来创建连接并对它们进行加权. 随着 神经网络学习,这种联系就会变得更加精细,更能预测结果. 

深度学习具有许多隐藏的复杂神经网络层,用于解决高度复杂的问题. 

常见的神经网络和深度学习应用包括:

  • 计算机视觉,图像识别和目标检测
  • 语音识别和自然语言处理 
  • 推荐系统从下一个最佳产品到配对
  • 用于网络安全、医疗诊断等方面的异常检测

神经网络依靠数据处理将非数值信息转化为数值,从而实现算法的应用. 

机器学习的挑战

没有数据,机器学习就像没有空气的气球. 数据集成 机器学习是相辅相成的因为这三种类型的机器学习都依赖于连续的, 可信数据的可靠流. 你所依赖的数据是不断变化的, 不仅仅是数据本身, 但是结构, 数据的含义和基础结构. 

获得数据

数据科学家花 45%的时间都花在获取数据上. 尽管这个数字已经从大约80%下降了, 加载和清理数据仍然是机器学习计划快速创新和扩展的一个重大阻力. 

来源的扩散, 数据平台, 不断发展的技术可能需要数据管道进行批量处理, 流媒体, 疾控中心, ETL, 或英语教学处理. 像Spark这样的高级处理引擎和像砖这样为机器学习构建的云平台都需要专门的技能. 

维护的数据

数据质量是一个输入问题,但越来越多的数据问题是一个 数据漂移 问题. 当数据模式, 语义或基础结构的变更以计划外或意外的方式发生, 数据可能会被丢弃或丢失,产生非线性和不可追踪的级联效应.

例如,一家银行可能有10亿行用于训练模型的交易. 对数据模式的更改可能导致整个数据组被删除. 模型还在继续学习,但遗漏了整个数据群体. 

监测数据

数据科学家将他们的模型投入生产, 最终有人会问为什么你的算法会这样执行? 监视机器学习模型以实现可追溯性和遵从性是一项重大挑战,超出了本文的范围. 

首先要对数据价值链有一个清晰的理解,可以看到输入到模型中的所有数据管道. 对于仪表化的数据管道和自动化,以及跨所有设计模式监控和管理的单一窗口来说,这是至关重要的, 和生态系统. 

将正确的数据输入到模型中是绝对重要的. 因为模型是概率的, 机器学习工程师必须让领导层相信,数据是值得信任的,这样才能让他们的计划获得支持. 

数据管道目的片段

什么是MLOps?

如果所操作的数据是有效的,那么ML值、AI值和分析值是有意义的. 数据中的噪声干扰学习,导致不可靠的结果. 传统的数据集成方法在数据质量方面投入了大量资金,以确保只有最干净的数据才能进入模型. 但是当今不可知的数据架构的规模和复杂性使得这种方法有风险. 随着企业实施ML,它们越来越依赖于 DataOps

 

不管你10年前在做什么生意,今天你都在做数据生意. 但在你的数据之前,科学家和机器学习专家可以用他们的模型改变世界, 他们必须有数据来训练他们,有数据来维持他们. 

 

他们必须精通处理多模态数据,结构化和非结构化数据的规模. 根据数据的源和目标, 数据管道 可能需要支持批处理或流处理, 或跨混合和多云平台更改数据捕获(疾控中心). 

回到顶部

电子游戏网址大全使用cookie来改善您对电子游戏网址大全网站的体验. 单击“允许所有人同意”并继续访问电子游戏网址大全的网站. 隐私政策