5分钟了解机器学习 | The world in Holly's eyes

0 前言

借用周志华教授经典的西瓜例子，我们先简单理解机器学习是在做什么：

当你傍晚在校园里散步，看到微湿的路面，迎面吹来和煦的微风，抬头看见天边的晚霞，心想：明天又是个好天气。
当你走到水果店，挑了个色泽青绿、根蒂蜷缩、敲起来声音浊响的大西瓜，心想：这个瓜一定皮薄肉厚瓤甜。

为什么可以做出这样的有效判断呢？这是因为，我们已经积累了许多经验，通过对经验的利用，就能对新情况做出有效的决策。如果这个过程是由计算机完成的，就是机器学习。

1 什么是机器学习

机器学习是人工智能（artificial intelligence）研究发展到一定阶段的必然产物。

那么第一个问题是，什么是人工智能？ 同人类智能相比，人工智能就是人工制造的智能，是用机器来模拟人类智能行为的技术。人工智能的智能行为分为记忆、学习、推理、决策、行动，这里的学习行为就是通过机器学习来完成的。

具体而言，机器学习是研究如何通过计算的手段，利用经验来改善系统自身的性能。 在计算机系统中，“经验”通常以“数据”的形式存在，因此机器学习研究的主要内容，是关于在计算机上从数据中产生“模型”的算法，即“学习算法”。机器学习的目的是使得学得的模型能很好地适用于“新样本”，而不是仅仅在训练样本上工作得很好。

学习算法起到什么作用？ 我们将经验数据提供给学习算法，它能够基于数据产生模型；在面对新的情况时，模型会提供相应的判断。

2 机器学习的黑话科普

接下来我们来了解一些基本术语。为了方便理解，我们将机器学习中的属性（feature）、标记（label）、学习（learning）类比为计量经济学中的x、y、用x估计y。

数据集： 一组记录的集合。
示例/样本： 指每条记录，是关于某个事件或对象的描述。
属性/特征： 反映事件或对象在某方面的表现或性质的事项。即计量经济学中的x。
标记： 关于结果的信息。即计量经济学中的y。
学习/训练： 从数据中学得模型的过程，这个过程通过执行某个学习算法来完成。即计量经济学中的用x估计y。
泛化能力： 学得模型适用于新样本的能力，称为泛化能力。

3 机器学习有哪些算法

按照样本是否有标记，机器学习主流的学习任务可以分成有监督学习、无监督学习和半监督学习。
样本有标记的，是有监督学习；样本没有标记的，是无监督学习；既有标记样本，也有未标记样本的，是半监督学习。类比计量经济学，这里的标记可以理解为是否有y。

有监督学习

有监督学习的目的是用自变量x预测因变量y。根据y的特征，可以分为回归和分类。
如果y是连续的，是回归。常见的算法有线性回归。
如果y是离散的，则是分类，常见的算法有判别分析、逻辑回归、朴素贝叶斯、决策树、随机森林、支持向量机、神经网络等。

无监督学习

无监督学习的目的是寻找x之间的规律。常见的算法有关联分析、主成分分析、聚类分析等。

此外还有强化学习、深度学习、集成学习等，由于不能按照是否有标记进行区分，此处暂按不表。

4 机器学习的应用

机器学习在数据分析方面的巨大作用，能够为许多学科提供重要技术支撑。 比如在商业领域优化库存降低成本，针对用户群设计特殊营销策略；在医疗图像领域生成虚拟样本，标的检测位置加快检测速度等……

关于人类如何学习的探索。 机器学习通过建立一些关于学习的计算模型，促进我们理解“人类如何学习”。这无疑是一个有关自我本识的重大问题，具有一定的自然科学探索色彩。

5 机器学习面临的挑战

机器学习在训练和应用时，都会面临高效性挑战，即存储、计算和通信三个方面的算力挑战 ，开销巨大。现阶段应对高效性挑战主要有两种方案：利用01字符串降低存储的哈希学习算法 和基于多机集群的分布式机器学习 。

6 推荐的阅读书目

[1] 陈强，《机器学习及R应用》，高等教育出版社，2020
[2] 周志华，《机器学习》，清华大学出版社，2016
[3] 卡巴科弗，《R语言实战》（第二版），人民邮电出版社，2016
[4] 薛薇，《R语言数据挖掘》（第二版），中国人民大学出版社，2018

7 参考资料

[1] 周志华，《机器学习》，清华大学出版社，2016
[2] 杨柳，《R语言数据分析》课程，2021春
[3] 李武军，《人工智能与智能医疗》课程，2021.1
图片@小武拉莫