Loading...
墨滴

葛佳飞

2021/08/31  阅读:35  主题:默认主题

学习笔记|机器学习的分类

机器学习一般包括监督学习、无监督学习和强化学习。有时还包括半监督学习和主动学习。

1. 监督学习

监督学习是指从标注数据中学习预测模型的机器学习问题。监督学习的本质是学习输入到输出的映射的统计规律。

1.1. 输入空间、特征空间和输出空间

在监督学习中,将输入与输出所有可能取值的集合分别称为输入空间、输出空间。输入与输出的空间可以是有限元素的集合,也可以是整个欧氏空间。输入空间与输出空间可以是同一个空间,也可以是不同的空间;但通常输出空间远远小于输入空间。
每个具体的输入是一个实例,通常由特征向量表示。这时,所有特征向量存在的空间与称为特征空间。特征空间的每一维对应一个特征。有时假设输入空间与特征空间为相同的空间,有时假设为不同空间,将实例从输入空间映射到特征空间。模型实际上都是定义在特征空间上的。
在监督学习中,将输入与输出看作是定义在输入(特征)空间与输出空间上的随机变量的取值。输入输出变量用大写字母表示,习惯上输入变量写作X,输出变量写作Y。输入输出变量的取值用小定字母表示,输入变量的取值写作x,输出变量的取值写作y。变量可以是标题或向量,都用相同类型字母表示。输入实例x的特征向量记作

表示x的第i个特征。
监督学习从训练数据集合中学习模型,对测试数据进行预测。训练数据由输入(或特征向量)与输出对组成,训练集通常表示为 测试数据也由输入与输出对组成。输入与输出对又称为样本或样本点。
输入变量X和输出变量Y有不同的类型,可以是连续的,也可以是离散的。人们根据输入输出变量的不同类型,对预测任务给予不同的名称:输入变量与输出变量均为连续变量的预测问题为回归问题;输出变量为有限个离散变量的预测问题称为分类问题;输入变量与输出变量均为变量序列的预测问题为标注问题

1.2. 联合概率分布

监督学习假设输入与输出的随机变量X和Y遵循联合概率分布P(X,Y)。P(X,Y)表示分布函数,或分布密度函数。训练数据与测试数据被看作是依联合概率分布P(X,Y)独立同分布产生的。机器学习假设数据存在一定的统计规律,X和Y具有联合概率分布就是监督学习关于数据的基本假设。

1.3. 假设空间

监督学习的目的在于学习一个由输入到输出的映射,这一映射由模型来表示。换句话说,学习的目的就在于找到最好的这样的模型。模型属于由输入空间到输出空间的映射的集合,这个集合就是假设空间。假设空间的确定意味着学习的范围的确定。
监督学习的模型可以是概率模型或非概率模型,由条件概率分布P(Y|X)或决策函数Y=f(X)表示,随具体学习方法而定。对具体的输入进行相应的输出预测时,写作P(y|x)或y=f(x)。

1.4. 问题的形式化

监督学习利用训练数据集学习一个模型,再用模型对测试样本集进行预测。由于这个过程中需要标注的训练数据集,而标注的训练数据集往往是人工给出的,所以称为监督学习。监督学习分为学习和预测两个过程,由学习系统与预测系统完成。

2. 无监督学习

无监督学习是指从无标注数据中学习模型的机器学习问题。无标注数据是自然得到的数据,预测模型表示数据的类别、转换或概率。无监督学习的本质是学习数据中的统计规律或潜在结构。
模型的输入与输出的所有可能取值的集合分别称为输入空间与输出空间。输入空间与输出空间可以是有限元素的集合,也可以是欧氏空间。每个输入是一个实例,由特征向量表示。每一个输出是对输入的分析的结果,由输入的类别、转换或概率表示。模型可以实现对数据的聚类、降维或概率估计。
假设 是输入空间, 隐式结构空间。要学习的模型可以表示为函数z=g(x),条件概率分布P(z|x),或者条件概率分布P(x|z)的形式,其中x∈ 是输入,z∈ 是输出。包含所有可能的模型的集合称为假设空间。无监督学习旨在从假设空间中选出在给定评价标准下的最优模型。
无监督学习通常使用大量的无标注数据学习或训练,每一个样本是一个实例。训练数据表示为U={ },其中 ,i=1,2,...,N,是样本。
无监督学习可以用于对已有数据的分析,也可以用于对未来数据的预测。分析时使用学习得到的模型,即函数z= (x),条件概率分布 ,或者条件概率分布 (x|z)。

3. 强化学习

强化学习是指智能系统在与环境的连续互动中学习最优行为策略的机器学习问题。假设智能系统与环境的互动基于马尔可夫决策过程,智能系统能观测到的是与环境互动得到的数据序列。强化学习的本质是学习最优的序贯决策。
在每一步t,智能系统从环境中观测到一个状态 与一个奖励 ,采取一个动作 。环境根据智能系统选择的动作,决定下一步t+1的状态 与奖励 。要学习的策略表示为给定的状态下采取的动作。智能系统的目标不是短期奖励的最大化,而是长期累积奖励的最大化。强化学习过程中,系统不断地试错,以达到学习最优策略的目的。
强化学习的马尔可夫决策过程是状态、奖励、动作序列上的随机过程,由五元组(S,A,P,r,γ)组成。 ·S是有限状态的集合 ·A是有限动作的集合 ·P是状态转移概率函数:

r是奖励函数:

·γ是衰减系数:γ∈[0,1]
马尔可夫决策过程具有马尔可夫性,下一个状态只依赖于前一个状态与动作,由状态转移概率函数P(s'|s,a)表示。下一个奖励依赖于前一个状态与动作,由奖励函数r(s,a)表示。
策略π定义为给定状态下动作的函数a=f(s)或者条件概率分布P(a|s)。给定一个策略π,智能系统与环境互动的行为就已确定(或者是确定性的或者是随机性的)。
价值函数或状态价值函数定义为策略π从某一个状态s开始的长期累积奖励的数学期望:

动作价值函数定义为策略π的从某一个状态s和动作a开始的长期累积奖励的数学期望:

强化学习的目标就是在所有可能的策略中选出价值函数最大的策略 ,而在实际学习中往往从具体的策略出发,不断优化已有策略。这里表示未来的奖励会有衰减。
强化学习方法中有基于策略的、基于价值的,这两者属于无模型的方法,还有有模型的方法。
有模型的方法试图直接学习马尔可夫决策过程的模型,包括转移概率函数P(s'|s,a)和奖励函数r(s,a)。这样可以通过模型对环境的反馈进行预测,求出价值函数最大的策略π*。
无模型的、基于策略的方法不直接学习模型,而是试图求解最优策略π*,表示为函数a=f*(s)或者是条件概率分布P*(a|s),这样也能达到在环境中做出最优决策的目的。学习通常从一个具体策略开始,通过搜索更优的策略进行。
无模型的、基于价值的方法也不直接学习模型,而是试图求解最优价值函数,特别是最优动作价值函数 (s,a)。这样可以间接地学到最优策略,根据该策略在给定的状态下做出相应的动作。学习通常从一个具体价值函数开始,通过搜索更优的价值函数进行。

4.半监督学习与主动学习

半监督学习是指利用标注数据和未标注数据学习预测模型的机器学习问题。通常有少量标注数据、大量未标注数据,因为标注数据的构建往往需要人工,成本较高,未标注数据的收集不需太多成本。半监督学习旨在利用未标注数据中的信息,辅助标注数据,进行监督学习,以较低的成本达到较好的学习效果。
主动学习是指机器不断主动给出实例让教师进行标注,然后利用标注数据学习预测模型的机器学习问题通常的监督学习使用给定的标注数据,往往是随机得到的,可以看作是“被动学习”,主动学习的目标是找出对学习最有帮助的实例让教师标注,以较小的标注代价,达到较好的学习效果。
半监督学习和主动学习更接近监督学习。

参考文献:

【1】统计学习方法(第2版),李航著,清华大学出版社

葛佳飞

2021/08/31  阅读:35  主题:默认主题

作者介绍

葛佳飞