Jinliang Blog

生活有度 人生添寿

时间差分学习(TD)

时间差分学习解析

时间差分学习(TD)是强化学习独特的核心思想,TD结合了DP方法和MC方法的思想。 TD可以从原始经验中学习,不需要知道环境模型,这一点和MC方法很类似,MC方法也是不需要清楚知道环境模型;TD不需要仿真出完整的轨迹,直接利用其它状态的估计来更新当前状态值,这一点和DP方法很类似,即需要自举。DP、MC、TD方法之间的关系是强化学习理论中反复讨论的主题。 关于具体方法,其实都是广义策略迭...

蒙特卡洛算法(MC)

蒙特卡洛算法解析

我们来探讨一下强化学习既然是学习,肯定需要数据,数据从哪里来呢? 在DP方法中,数据可以通过精确的环境模型获得(转移概率分布);另一种方法是从实际经验中学习,即智能体与环境的交互经验;另一种是通过仿真经验学习,在这种情况下,同样需要模型,但是作用是通过模型产生经验数据,而不是直接从转移概率分布获取(目前大多数实验都是从仿真经验学习)。 我们把仅仅通过经验(实际经验、仿真经验)学习的方法叫...

pandas快速入门

pandas快速入门

导入相关包 import numpy as np import pandas as pd 导入numpy与pandas的工具包 对象创建 通过series创建 s=pd.Series([1, 3, 5, np.nan, 6, 8]) s 0 1.0 1 3.0 2 5.0 3 NaN 4 6.0 5 8.0 dtype: float64 ...

集成学习介绍

集成学习介绍

1. 集成学习介绍 集成学习通过构建并结合多个学习器来完成学习任务,有时也被称为多分类器系统、基于委员会的学习等。 首先介绍集成学习的组成结构: 如上图所示,先产生一组个体学习器,然后基于某种策略将他们组合起来。 根据个体学习器之间的关系可以将集成学习分成两类: 同质 个体学习器属于同一种类型 其中的个体学习器称为基学习器,相应的学习...

强化学习-动态规划(DP)

使用DP解决强化学习问题

动态规划方法(DP)指的是一类用来计算最优策略的方法。 特点是需要精确知道环境模型,然后把问题描述成为 MDP问题。 经典的动态规划由于精确的环境模型难以获得和过大的计算开销,使得他们在强化学习中应用不多,但是在理论上仍然十分重要。 强化学习所有的方法都可以看成是为了实现和DP相似的效果,只是弱化已知精确环境模型的假设或者计算量更小。 DP方法一般用于有限的MDP问题,即状态、动作和...

有限马尔科夫决策过程

介绍MDP相关知识

马尔科夫决策过程是形式化序列决策任务的经典工具。 MDP涉及到不同情景下的决策,因此不再是简单的对$q_\ast(a)$ (强化学习基础简介)进行估计,而是对$q_{*}(s,a)$进行估计。 而且当前的行为不仅影响当前的立即回报,还会影响后续的状态,进而影响未来的回报,因此我们需要考虑这种延迟回报问题,权衡立即回报和延迟回报。 有限MDP为拥有有限状态集、有限动作集以及有限回报集的M...

softmax回归——多分类问题

softmax解析

在阅读这篇文章之前,强烈建议阅读先导篇:logistic回归 1. softmax回归介绍 在logistic回归一章中,我们解决的是二分类任务,如果不仅有两个分类,多分类任务怎么办? 在n分类任务中,我们最后的网络应该输出四个值,分别代表不同种类的值,我们现在要做的是将神经网络的输出值转化为对应每种类别的概率,就像LR一样。 此时我们需要一个softmax激活函数,它到底是怎样处理...

超参数调试与BN(Batch Norm)

介绍深度学习中的超参数调试与Batch Norm

1. 深度学习中的超参数 深度学习最难之一的问题,也是被许多人不喜的愿意就是超参数,深度学习中有许多超参数,例如常见的学习率、隐藏层的数量、优化算法中的超参数等等。这些超参数往往没有一个固定的比较好的值,在不同的领域、不同的场景、甚至是硬件条件不变,最适合的超参数也在变化,因此,想要掌握深度学习,超参数是不得不面对的一件事。 那么超参数那么多,到底怎样选取合适的值呢? 我们首先根据大多...

梯度消失/爆炸、梯度检验

深度学习中的梯度消失/爆炸、梯度检验

1. 什么是梯度消失与梯度爆炸 训练深度神经网络时,所面临的一个问题就是梯度消失与梯度爆炸,它指的是在训练时,导数或者梯度变得非常大或者非常小,往往以指数级别增大或者减小。 我们通过神经网络中的个例进行分析: 假设我们的神经网络有$l$层,每层有两个隐藏单元,每个隐藏单元中的$b$为0,激活函数为$g(x)=x$,结构如下所示: 所以前向计算$\hat y$的值为: \(\hat...

贝叶斯分类器解读

介绍贝叶斯决策器及极大似然估计、EM算法等

1. 贝叶斯决策论 首先介绍贝叶斯决策论的定义: 贝叶斯决策论是概率框架下实施决策的基本方法。 首先,根据定义提取两个关键词:概率框架、实施决策 我认为学习一个东西最重要要清楚它是做什么的,前提条件是什么。 根据关键词,我们可知贝叶斯决策论是用来做决策的(通过名字也知道,废话~),它的前提条件是概率已知。 以分类任务为例,在所有概率都已知的理想情况下,贝叶斯决策论用来基于...