课程来源:https://developers.google.com/machine-learning/crash-course?hl=zh-cn
机器学习主要术语
机器学习的分类:监督式、非监督式
标签、特征、样本、模型的定义
标签是我们要预测的事物,即简单线性回归中的
y
变量。标签可以是小麦未来的价格、图片中显示的动物品种、音频剪辑的含义或任何事物。特征是输入变量,即简单线性回归中的
x
变量。在垃圾邮件检测器示例中,特征可能包括:
- 电子邮件文本中的字词
- 发件人的地址
- 发送电子邮件的时段
- 电子邮件中包含“一种奇怪的把戏”这样的短语。
模型定义了特征与标签之间的关系。例如,垃圾邮件检测模型可能会将某些特征与“垃圾邮件”紧密联系起来。
训练和推断
训练是指创建或学习模型。也就是说,向模型展示有标签样本,让模型逐渐学习特征与标签之间的关系。
推断是指将训练后的模型应用于无标签样本。也就是说,使用经过训练的模型做出有用的预测 (
y'
)。
回归和分类的区别
- 回归模型可预测连续值。例如,回归模型做出的预测可回答如下问题:
- 加利福尼亚州一栋房产的价值是多少?
- 用户点击此广告的概率是多少?
- 分类模型可预测离散值。例如,分类模型做出的预测可回答如下问题:
- 某个指定电子邮件是垃圾邮件还是非垃圾邮件?
- 这是一张狗、猫还是仓鼠图片?
问答
假设您想开发一种监督式机器学习模型来预测指定的电子邮件是“垃圾邮件”还是“非垃圾邮件”。以下哪些表述正确?
[ ] 主题标头中的字词适合做标签。
主题标头中的字词可能是优质特征,但不适合做标签。
[ ] 我们将使用无标签样本来训练模型。
我们将使用有标签样本来训练模型。然后,我们可以对无标签样本运行训练后的模型,以推理无标签的电子邮件是垃圾邮件还是非垃圾邮件。
[x] 未标记为“垃圾邮件”或“非垃圾邮件”的电子邮件是无标签样本。
由于我们的标签由“垃圾邮件”和“非垃圾邮件”这两个值组成,因此任何尚未标记为垃圾邮件或非垃圾邮件的电子邮件都是无标签样本。
[x] 有些标签可能不可靠。
当然。此数据集的标签可能来自将特定电子邮件标记为垃圾邮件的电子邮件用户。由于很少的用户会将每一封可疑的电子邮件都标记为垃圾邮件,因此我们可能很难知道某封电子邮件是否是垃圾邮件。此外,有些垃圾内容发布者或僵尸网络可能会故意提供错误标签来误导我们的模型。