了解机器学习的发展趋势以及商业应用
当前位置:首页 > 技术分享 > 了解机器学习的发展趋势以及商业应用

了解机器学习的发展趋势以及商业应用

小施 2020-11-25 9103


机器学习是整个人工智慧领域中为商业产出最大价值的技术,其中监督式学习尤其重要。虽然机器学习的概念早在半个世纪前就存在了,然而只有在海量数据每分每秒产生、以及飞快的运算速度的现代,机器学习才有办法在各个产业中被广泛的应用。

什么是机器学习

机器学习,一种人工智慧的技术,不同于传统程序,是通过处理并学习庞大的数据后,利用归纳推理的方式来解决问题,所以当新的数据出现,机器学习模型即能更新自己对于这个世界的理解,并改变他对于原本问题的认知。 假设现在有一个人对于美丑没有概念,那么你把他带到一群人面前,并指着其中一个说是美、一个是丑、另一个是美等等…随着这位本无审美观的人看到更多资讯后,他也会开始对审美这个观念有一定的想法。 而关键在于,数据的量一定要足够大且数据的质一定要好,才能让机器学习模型更好的判断问题的答案。  


然而,在真实世界中,我们往往无法取得如此完整且干净的数据,而这就是其它技术能够派上用场的地方了。相反于监督式学习,非监督式学习所使用的数据是没有被标记的,例如一群猫咪的照片但却没有被标记种类或是健康程度等,或是一堆交易纪录,但却没有标记正常或是异常。半监督式则是两者的重迭,利用小组的已标记数据参进未标记数据中以提升准确性以及效能。强化学习则是利用奖励机制来让演算法达到最好的表现。

监督式学习与非监督式学习的差异为何?

监督式与非监督式学习根本的差异在于数据本身是否有标签 (Labeled),也就是说资料本身是否有被定义。


监督式学习(Supervised Learning)

监督式学习利用已被标记的数据来训练模型,想像成老师在一旁指导着学生,告诉他每一个问题的答案,随着学生问题越做越多,他对于这类型问题的理解也会越来越深,正确性也会变高。完整标记的数据组代表着机器学习模型所收到的数据是有输入(input)与输出(output)的。所以,假设要建立一个图像识别模型来分辨0~9这十个数字,那么模型就会收到一堆数字的图片(input)以及这些图片分别为什么数字(output),在模型处理完(学习完)这些数据后,当模型看到新的图片,它就能利用原本所受的训练,来推断新的图片代表著哪一个数字。


在真实世界中,监督式学习是最频繁被产业使用的,不仅是因为现在世界所具备的庞大数据量,更是因为其演算法的简单性。 例如团队可以从顾客的消费历史纪录,来训练模型,并建立推荐系统或是行销个人化与自动化等。又或是制造商能通过导入AIoT来取得产线数据,并以此训练模型让演算法能够提前判断机器失能的可能,以提高整体设备效率(OEE)。


无监督式学习(Unsupervised Learning)

在解决许多实务上的问题时,干净又标记完整的数据并非如此容易取得,而研究团队时常问出自己也不知答案方向的问题,也就是说,当不知如何分类数据,或是需要演算法去寻找同样模式时,无监督式学习将可以提供很大的帮助。无监督式学习接收未被标记的数据,并通过演算法根据常见的模式、特色、或是其他因素将数据分类。例如,可能团队手上有一大组的小狗图片,然而这些图片都没有标记出各个小狗是什么种类,这时,团队即可带入无监督式学习的演算法来做分类,输出则是演算法根据不同特色的小狗所做的分类。 


其他常见的实务案例包括,顾客旅程分析(利用消费者在网页上的顾客旅程做行为分析,并以此归纳出不同购买模式的消费者)、或是寻找异常值(银行透过信用卡使用纪录来判断是否某笔交易为诈欺)。


常见的演算法及其商业应用

集群分析K-means Clustering

将数据分成不同的群组当中(k个群组),而演算法会自动将具备像似特性的数据归类为一组。在数据的维度相似、且是连续性的数值时,k-means会是非常合适的选择。分类消费者以优化行销活动或是避免客户流失判断信用交易、保险金融等活动是否异常帮助归类IT技术建设内不同的警讯


混合模型Gaussian Mixture Model

混合模型是一个可用来表示总体分佈中含有k个子分布的概率模型。也就是说,混合模型表示了数据在总体中的概率分布,是个由k个子分佈所组成的混合分佈。 可以把它想成是k-menas的一般化,但在cluster的形状以及大小中有更多的自由度。从语音数据中做特征提取在影片档案中,做多种物件的追踪利用更不明显的数据特征,以区别客群,优化营销活动


阶层式分群Hierarchical Clustering

将资料在一个阶层式的树状上,反覆的利用拆分以及聚合的方式建立出一个分类系统。阶层式分群的优势在于它使用上的简单性以及能够在小数据上操作,然而却非常难处理大型的资料。更细微的区分客群或用户通过社群媒体分析来判断产品使用程度


深度学习(Deep Learning)

这个机器学习的分支利用多层次的人工神经透过数据学习,其中两种最为主要的类别为卷积神经(CNN)以及递归神经(RNN)。CNN较适合如图片、影片等的空间数据类型,透过不同阶级的特色来识别图像,例如从一个鼻子的特征、眼睛的特征、嘴巴的特征、三者彼此的关係为何、再到最后变成一张人脸。CNN的发展对于需要快速识别周围环境的自动驾驶至关重要,同时图像识别的技术,也是工业4.0的核心技术之一。 RNN则较适合如语音、文字等的序列型数据,不同于其他的神经网路,对于RNN,所有的input都是相连的,所有处理过的资讯都会在训练的过程中被记住,而也是这特色,让它非常适合处理自然语言。


虽然神经网路的技术早在数十年前就被研发出来了,但当时的环境不仅数据匮乏,运算速度以及成本都导致深度学习无法成功带进商业环境。然而随着运算速度大幅的提升、运算成本大幅的降低、以及演算法变得更加成熟,如深度学习一般的技术也开始被频繁的应用在商业环境中。 


集成学习(Ensemble Learning)

集成学习是为了降低模型偏见、变数、以及提高准确度而根据不同种类的数据,在各个阶段应用不同的机器学习演算法来训练模型的演算法。 集成学习在数据非常複杂,或是有多种潜在的假设时非常实用,因为它能够根据不同的假设建立模型,以定义出更明确的方向。


标签:机器学习

立即定制视觉方案