首页 > 娱乐前沿 > 科技
Salesforce开源支援每日30亿次推测的ML函式库,训练一个模型只要数小时
尤慧 2018-08-20 17:51:37

Salesforce开源了每天用于执行超过30亿次推测的结构化机器学习函式库TransmogrifAI(发音为trans-mog-ri-phi),TransmogrifAI已经大规模的使用在产品服务上,作为建构人工智能平台Einstein的基础,也帮助Salesforce的资料科学家,为客户生产订制化模型的时间,可以从数周的降至数小时。cWA我酷网

尽管在过去十年机器学习已经有了巨大的进步,但建构出机器学习系统仍然不容易,Salesforce△Einstein资料据科学资深总监Shubha△Nabar提到,企业在为消费者建构机器学习产品时,倾向解决简单的使用者案例或使用容易取得的资料集,一旦想使用更具多样性的资料或是案例,则情况就变得复杂有挑战性。Salesforce的客户希望机器学习提供的服务,包括可以预测客户流失、销售预测、设备故障、特价接受程度,甚至是电子邮件点击的转换率,也就是说Salesforce需要为不同客户建立不同的机器学习模型,才能符合这样的客户需求。cWA我酷网

训练全域的机器学习模型对Salesforce来说没有意义,每个客户的资料都是独一无二的,具有不同模式、样貌以及业务流程造成的偏差,要让客户可以真正得到机器学习的帮助,必须针对数千个不同案例,训练订制化机器学习模型。Shubha△Nabar表示,大多数自动化机器学习解决方案,要不是仅专注解决机器学习流程中的一部分,不然就是专为图形、语音或是自然语言等非结构化同质资料设计,但Salesforce需要的是能够快速产生大规模异质结构化资料的高效能模型解决方案,于是Salesforce开发了自家的机器学习函式库TransmogrifAI。cWA我酷网

为了要产生可以适用不同客户的案例的机器学习模型,TransmogrifAI有许多特别的设计。TransmogrifAI是基于Scala和SparkML的函式库,目标是让资料科学家只要输入几行程式码,就能执行资料清理、特征工程或模型选择等工作,获得一个高性能的模型,还能进一步探索或是迭代出更好的模型。cWA我酷网

SparkML工作管线使用了Transformer的抽象,以及用来转换TransmogrifAI专用的资料结构DataFrame的Estimator,而TransmogrifAI则建立在这些抽象基础之上。在TransmogrifAI中,模型的特征本质就是一个指向DataFrame的类别安全指标,拥有所有讯息,包含名称、资料类型或是衍生的承袭资讯。cWA我酷网

特征是TransmogrifAI开发人员主要操作的Primitive,操作或是定义特征像是程式开发使用变数一样,而特征可以分享并且重复使用,另外,TransmogrifAI也能让开发人员可以轻松定义复杂的时间序列聚合资料。由于强类别带来的类别安全,TransmogrifAI可以对整个机器学习流程,进行类别检查,并尽可能及早抓出错误,而非等到运作工作管线一段时间后才发现。类别安全还可以提升机器学习工作流程,每个阶段输入与输出的透明度,而这项好处可以大大降低训练模型所需要的知识。cWA我酷网

TransmogrifAI除了提供开箱即用的自动Estimator,对于需要更多控制的使用者,TransmogrifAI也具可高度订制化特性与弹性,每个Estimator都能参数化,使用者可以直接设置或是调整参数,另外也可以在机器学习工作管线中,使用自定义的Transformer和Estimator,而为了要加速资料科学家的工作效率,这些自定义的工作都不复杂,Shubha△Nabar提到,订制化Transformer就像定义Lambda表示式一样容易。cWA我酷网

TransmogrifAI在Salesforce中大量采用,而且也剧烈改变了内部的工作流程,Shubha△Nabar表示,Salesforce的资料科学家可以用最少的手动调整来产出数千种模型,并将这些训练模型的周期从数周缩短至数小时。cWA我酷网

上一篇  下一篇

I 相关 / Other

微软开源驱动程式模组框架DMF,驱动程式开发更快更好维护

微软装置团队为Windows驱动程式开发人员释出,开源驱动程式模组框架(Driver△Module△Framework,DMF),微软通过驱动程式模组框架,开发简单和结构化的Windows驱动程式框架(Windows△Driver△Framework,WDF)驱动

甲骨文开源部署机器学习模型工具GraphPipe

GraphPipe是甲骨文用来部署机器学习模型的工具,现在对外开源。GraphPipe解决了部署模型面临的3个问题,框架传输标准不一、复杂的模型部署工作以及解决方案效能低落。目前GraphPipe高效能伺服器支援TensorFlow、PyTo

开源电子健康纪录系统OpenEMR爆数个严重漏洞,病患隐私与系统安全拉警报

支援全球2亿人病历的开源电子健康纪录系统OpenEMR,遭Project△Insecurity揭露存在多个严重等级高的安全性漏洞,从身份验证旁路、SQL资料隐码、远端程式码执行以及任意档案操作等漏洞都有,OpenEMR社交已积极处理漏洞

Aqua推出开源Kubernetes渗透测试工具Kube

图片来源: Aqua 主打容器安全的新创公司Aqua,今年陆续推出免费容器映像档扫描工具MicroScanner,以及让该工具串接Jenkins流程。而现在Aqua又开源释出一款容器资安工具Kube-hunter,这款新工具锁定了Kubernetes容器基

DepShield可自动化监控相关开源专案程式码漏洞

开源DevOps服务供应商Sonatype发表DepShield,这是一个针对GitHub的应用程序,能自动识别开源相依专案程式码中的漏洞,提醒开发人员需要修补的部分,提高企业对于开源治理的能力。Sonatype提到,根据他们针对DevSecO

I 热点 / Hot