03 Types of Learning

《机器学习基石》系列课程(三)

我们可以使用PLA学习二分类问题。在机器学习中,除了PLA之外,还有其它的学习方法,这些方法有着广泛的应用,本章将对这些方法做一个简要的介绍。

Learning with Different Output Space y

根据问题的输出空间的不同,我们可以将机器学习算法分为分类问题(classification)、回归问题(regression)、结构问题(structured)。

Classification

对于输出是离散值的学习问题,我们将其称为分类(Classification)。典型的二分类问题(Binary Classification),如本课程中常常提到的信用卡发放问题、垃圾邮件分类、答题系统判断对错等。在此基础上,还会有多分类问题(Multiclass Classification),比如硬币分类问题:给出一个硬币,判断是1角钱、5角钱还是1元钱;另一个典型的例子是手写数字的识别。
在处理分类问题上,最核心最重要的是二分类问题。

Regression

当输出空间是连续的数值时,我们称其为回归问题(Regression)。

Structure

在自然语言处理问题上,有一个经典的问题是词性标注问题,如果我们将句子的每一个词语输入到学习算法中,它的输出是属于这个词语的类别,这样的问题可以看为是多分类问题。然而,我们知道每个词语的词性并不是固定不变的,它与句子的结构是有关系的,也就是说,句子中隐藏着一些结构信息会影响到最终的输出。我们可以将这样的学习称为结构学习。这样的问题很复杂,但是也有很多的应用。如生物信息问题、语法树等。

在上述的几个类别中,二分类和回归是最基本最核心的工具。

Learning with Different Data Labels yn

根据学习问题中我们所使用的数据的标签,我们还可以将学习问题分为以下几个类别:

Supervised Learning

即监督学习,可是机器学习中最基础、最常见的学习类型。所谓监督学习,就是对每一个输入x都有其对应的标签y。

Unsupervised Learning

如果我们的数据只有Input x,但是没有对应的y,我们同样也能学习到一些知识,这种学习就是unsupervised learning。典型的问题如聚类问题等。

Semi-supervised Learning

在实际工程问题中,可能因为数据量过大,我们的数据只有一部分有标签,而其他的是没有标签的。对于使用这样的数据进行学习的问题,我们称之为半监督学习。

Reinforcement Learning

也称为增强学习。举个例子,比如我们需要训练一只狗做一些简单的动作,我们让其蹲下,它可能做出错误的动作,也可能做出正确的动作。虽然我们难以为它做出示范什么是正确的,但是在狗做出正确的动作的时候,我们可以给它一些奖励,如给它一块饼干,相反,可以给它一些惩罚。这样狗就可以知道自己做的对不对,从而一步一步学会正确的知识。
增强学习,就是每一次都给一个反馈,一步一步让系统越来越强。

Learning with Different Protocol f -> (xn, yn)

Batch Learning

对于一个学习问题,每一次都输入一批数据让系统学习并得到g,叫做批量学习。可以类比填鸭式教育,每一次交给你一堆知识,最后问问你会不会。

Online Learning

也称为在线学习,每次到来一条数据,都进行学习并得到一个g。

Active Learning

上述的两种学习方法都是被动学习。能不能让机器自己主动学习呢?如让机器自己提出问题,让后人类给出答案。如果能够有技巧地提出问题,那么机器将能够很快学习到知识。对于label很贵的问题,我们可以使用这种方法。

Learning with Different Input Space

机器学习的输入是被学习对象的特征,使用更好的训练数据的特征能够提高模型的性能。特征工程就是将原始数据转换为模型的训练数据的过程。

Concrete Features

每个特征都有其物理意义,比如硬币的尺寸,重量等。这种特征在机器学习中是比较容易的特征。

Raw Features

一些通常需要通过人类或者机器将其转换为具体特征的特征。比如手写数字图片,输入实际上是每个位置的像素点的灰度数值。我们要做的是怎样根据将这些原始的特征转换。比如1和5,我们可以使用对称性,像素的稠密程度作为具体的特征。

Abstract Features

更加复杂和困难的特征是抽象特征,其往往没有明确的意义,往往需要进行转换、抽取、重建等。

文章内容和图片均来自“国立台湾大学林轩田老师”的《机器学习基石》课程!

— END —