为机器学习补充一些高等数学、线性代数、概率统计以及最优化的数学知识 Hessian矩阵Hessian矩阵是由多远函数的二阶偏导数组成的矩阵。 数学的形式化描述: 如果函数$f(x_1,x_2,…,x_n)$二阶可导,则Hessian矩阵定义为 $$\begin{pmatrix}\frac{\partial^2 f}{\partial x^2_1},\frac{\partial^2 f}{\partial x_1\partial x_2}\cdots \frac{\partial^2 f}{\partial x_1\partial x_n}\\frac{\...
支持向量机是最大化分类间隔的线性分类器,如果使用核函数,可以解决非线性问题。 线性分类器线性分类器本质是n维空间中的超平面,将空间切割成两部分。进行二分类。 数学形式: $w^Tx + b = 0$ 其中 $w$是权重向量 $x$是输入向量 $b$是偏置项 二分类问题正类标签值$y = +1$,负类标签值$y = -1$ 在线性分类器中我们认为$w^Tx_i+b\ge 0$,则样本$x_i$就属于正类,否则为负类 判别函数可以写作 $sgn(w^Tx+b)$ 其中$sgn(x) = 1,-1;if:x\ge 0,x...
函数类假设有神经网络架构,考虑其中所有可学习参数的所有情况,假设其能表征的所有函数形成函数类$F$,假设我们最终想要的是函数$f^*$。 如果$f^* \in F$,那么我们可以通过训练得到它 否则我们往往只能得到一个函数$f^*_{F} \in F$,这是在神经网络架构覆盖的函数类中对于当前数据集表征最好的函数 实际上加深网络的过程,就是为了扩大神经网络对应的函数类的范围 但是范围的扩大不意味着更加接近$f^*$ 我们想确保的是网络的复杂不能导致$F$远离$f^*$(网络衰退),这个时候就需要嵌套函数类,即随着网络复杂程度的增大,所得到的$F_i$是$...
模型结构Transformer采用列编码器-解码器架构,其编码器和解码器都是基于自注意力模块叠加得到的 其模型结构是这样的
用来记录力扣hot100题的思路 hot1-两数之和思路: 使用哈希表存储value-index的索引 两个需要关注的点:1)不能使用相同元素;2)哈希表value,index只能存储一个 元素值,元素索引 的pair 如果提前for预处理哈希表可能引发的问题:在存在答案 or 不存在答案的情况下 都可能以重复的相同元素的索引作为答案返回(显然错误) 解决方法:一次for循环,每检查一个x,检查target-x是否在哈希表中,在则找到答案;否则将 x,index 存入哈希表 不用担心返回两个相同元素的索引,检查到x时可以确定 x,index 不在哈希表中...
注意力提示(相关基本概念)注意力的双组件框架 非自主性提示,来自吸引你注意力的物品本身客观自带的突出的特点; 自主性提示,来自你的大脑对你当前注意力的控制; 双组件的神经网络表示 非自主性提示 例如要想将选择偏向于感官输入,则可以简单地使用参数化的全连接层,甚至是非参数化的最大汇聚层或平均汇聚层。 当然,这称不上注意力,所以实际上只有自主性提示才称得上我们在深度学习中提到的“注意力” 自主性提示(在注意力机制背景下,称为查询),它作为“神经网络”的工作流程大致如下 1)注意力机制通过注意力汇聚(attention pooling)将选择引导至感官输入(s...
专业词汇fusion:融合,具体来说,它是将来自不同模态(即文本、视觉、音频)的特征或表示合并成一个联合的、更具信息量的特征向量的过程。这个联合向量随后被用于执行最终的任务(如情感分类或回归)。 utterances:多模态领域中,它指视频中说话者一次连续的、完整的语言表达。简单来说,就是视频中的一句或一段话。当说话者开始说话到停顿或切换话题之间的这段内容,就是一个 utterance。 注意,在本篇论文中utterance不只是一段语言、而是而是一个“小视屏” 其中有 low-level features from language visual mo...
过拟合在模型训练的过程中会呈现随着训练epoch的增加,模型开始是在训练集和测试集上的表现同步变好,再训练到一定程度之后模型在训练集上的效果变好的同时在测试集上的表现却变差。这就是过拟合。 在多项式回归中, 我们可以通过调整拟合多项式的阶数来限制模型的容量。 实际上,限制特征的数量是缓解过拟合的一种常用技术。 一些理论: 多项式对多变量数据的自然扩展是单项式(变量幂的乘积),多项式就是很多单项式求和 单项式的阶数是其中幂的和,例如$x_1x_2^2$的阶数是3 给定k个变量,随着阶数d的增加,阶数为d的项个数为$C^{k-1+d}_{k-1}$(因此阶数...
简单线性模型的局限在最简单的单层神经网络中,我们会使用线性模型。其中涉及仿射变换的线性是一个很强的假设。 线性意味着单调假设: 任何特征的增大都会导致模型输出的增大(如果对应的权重为正), 或者导致模型输出的减小(如果对应的权重为负)。 但是线性模型可能是正确的,但也可能会出错: 例如,如果我们试图预测一个人是否会偿还贷款。 我们可以认为,在其他条件不变的情况下, 收入较高的申请人比收入较低的申请人更有可能偿还贷款。 但是,虽然收入与还款概率存在单调性,但它们不是线性相关的。 收入从0增加到5万,可能比从100万增加到105万带来更大的还款可能性。 处理...