实用机器学习笔记一:概述
前言:
本文是个人在B站自学李沐老师的实用机器学习课程【斯坦福2021秋季中文同步】的学习笔记。目前已
经看了三个视频,感觉沐神讲解的非常棒yyds。为什么叫做实用机器学习呢?老师在课程中说到,他的这个机器学习课程和以往学校开设的或者网课开设的不同,这个课程更加接地气,更加贴和工业界的落地实现以及遇到的一些问题和解决方案。个人认为,对于已经工作,或者即将工作的来说,这门课程绝对是你所需要的【这里只是强烈推荐一下这个课程,哈哈。因为讲的太好了】。
机器学习工作流:
工业界落地机器学习和学术界会有一些不同,学术界拿到数据集训练之后,效果有涨点,说明设计的
模型还不错,可能就写个论文发表就完事了。但是工业界要考虑很多因素,要监控上线的模型的预测结果是否符合预期,是否为业务带来了收益,用户的数据分布变化了模型是否依然可用等等问题,因此要持续监控模型的工作情况,然后不断地进行训练调整等。在工业界机器学习的落地工作流可以用下图表示:

从上图中我们可以看到,1. 首先要进行问题建模,不过要切记的是:不是所有的问题都可以建模为机器学习问题,有些很复杂的问题我们可以用机器学习来解决,但是有些比较简单的问题,我们却不能用机器学习来解决。2. 当建模完成之后,就要收集数据,对数据进行处理,做成数据集。3. 解决就要使用数据集来训练模型,并不断微调。4. 模型训练完成之后,就要上线了,让模型服务于公司的某个业务,提高盈利。5. 但是模型上线后不能说不管了,我们还要一直监控模型的运行情况,比如预测是否准确,公司的盈利情况相比以前是否有增长等。并且由于模型是长期服务的,用户群体可能会发生变化,导致数据的分布规律发生变化,这就会影响到模型的准确率,2. 因此还要收集新的数据并处理数据对模型进行重新训练并微调。这是一个不断轮回的过程。
挑战:
人的角色:
领域专家:有商业领域的知识,知道哪些数据是重要的,以及如何获取,并且可以论证机器学习模型对业务的影响。
数据科学家:主要聚焦于数据挖掘,模型训练和部署。
机器学习专家:训练,选择,调整SOTA 机器学习模型。
软件开发工程师:打通数据流,训练模型,维护模型(更换模型,重新训练模型等)和代码。
技能提升路径:
