5分钟了解机器学习

0 前言
借用周志华教授经典的西瓜例子,我们先简单理解机器学习是在做什么:
当你傍晚在校园里散步,看到微湿的路面,迎面吹来和煦的微风,抬头看见天边的晚霞,心想:明天又是个好天气。
当你走到水果店,挑了个色泽青绿、根蒂蜷缩、敲起来声音浊响的大西瓜,心想:这个瓜一定皮薄肉厚瓤甜。
为什么可以做出这样的有效判断呢?这是因为,我们已经积累了许多经验,通过对经验的利用,就能对新情况做出有效的决策。如果这个过程是由计算机完成的,就是机器学习。
1 什么是机器学习
机器学习是人工智能(artificial intelligence)研究发展到一定阶段的必然产物。
那么第一个问题是,什么是人工智能? 同人类智能相比,人工智能就是人工制造的智能,是用机器来模拟人类智能行为的技术。人工智能的智能行为分为记忆、学习、推理、决策、行动,这里的学习行为就是通过机器学习来完成的。
具体而言,机器学习是研究如何通过计算的手段,利用经验来改善系统自身的性能。 在计算机系统中,“经验”通常以“数据”的形式存在,因此机器学习研究的主要内容,是关于在计算机上从数据中产生“模型”的算法,即“学习算法”。机器学习的目的是使得学得的模型能很好地适用于“新样本”,而不是仅仅在训练样本上工作得很好。
学习算法起到什么作用? 我们将经验数据提供给学习算法,它能够基于数据产生模型;在面对新的情况时,模型会提供相应的判断。
2 机器学习的黑话科普
接下来我们来了解一些基本术语。为了方便理解,我们将机器学习中的属性(feature)、标记(label)、学习(learning)类比为计量经济学中的x、y、用x估计y。
数据集: 一组记录的集合。
示例/样本: 指每条记录,是关于某个事件或对象的描述。
属性/特征: 反映事件或对象在某方面的表现或性质的事项。即计量经济学中的x。
标记: 关于结果的信息。即计量经济学中的y。
学习/训练: 从数据中学得模型的过程,这个过程通过执行某个学习算法来完成。即计量经济学中的用x估计y。
泛化能力: 学得模型适用于新样本的能力,称为泛化能力。
3 机器学习有哪些算法
按照样本是否有标记,机器学习主流的学习任务可以分成有监督学习、无监督学习和半监督学习。
样本有标记的,是有监督学习;样本没有标记的,是无监督学习;既有标记样本,也有未标记样本的,是半监督学习。类比计量经济学,这里的标记可以理解为是否有y。
有监督学习
有监督学习的目的是用自变量x预测因变量y。根据y的特征,可以分为回归和分类。
如果y是连续的,是回归。常见的算法有线性回归。
如果y是离散的,则是分类,常见的算法有判别分析、逻辑回归、朴素贝叶斯、决策树、随机森林、支持向量机、神经网络等。
无监督学习
无监督学习的目的是寻找x之间的规律。常见的算法有关联分析、主成分分析、聚类分析等。
此外还有强化学习、深度学习、集成学习等,由于不能按照是否有标记进行区分,此处暂按不表。
4 机器学习的应用
机器学习在数据分析方面的巨大作用,能够为许多学科提供重要技术支撑。 比如在商业领域优化库存降低成本,针对用户群设计特殊营销策略;在医疗图像领域生成虚拟样本,标的检测位置加快检测速度等……
关于人类如何学习的探索。 机器学习通过建立一些关于学习的计算模型,促进我们理解“人类如何学习”。这无疑是一个有关自我本识的重大问题,具有一定的自然科学探索色彩。
5 机器学习面临的挑战
机器学习在训练和应用时,都会面临高效性挑战,即存储、计算和通信三个方面的算力挑战 ,开销巨大。现阶段应对高效性挑战主要有两种方案:利用01字符串降低存储的哈希学习算法 和基于多机集群的分布式机器学习 。
6 推荐的阅读书目
[1] 陈强,《机器学习及R应用》,高等教育出版社,2020
[2] 周志华,《机器学习》,清华大学出版社,2016
[3] 卡巴科弗,《R语言实战》(第二版),人民邮电出版社,2016
[4] 薛薇,《R语言数据挖掘》(第二版),中国人民大学出版社,2018
7 参考资料
[1] 周志华,《机器学习》,清华大学出版社,2016
[2] 杨柳,《R语言数据分析》课程,2021春
[3] 李武军,《人工智能与智能医疗》课程,2021.1
图片@小武拉莫