注意力提示(相关基本概念)注意力的双组件框架 非自主性提示,来自吸引你注意力的物品本身客观自带的突出的特点; 自主性提示,来自你的大脑对你当前注意力的控制; 双组件的神经网络表示 非自主性提示 例如要想将选择偏向于感官输入,则可以简单地使用参数化的全连接层,甚至是非参数化的最大汇聚层或平均汇聚层。 当然,这称不上注意力,所以实际上只有自主性提示才称得上我们在深度学习中提到的“注意力” 自主性提示(在注意力机制背景下,称为查询),它作为“神经网络”的工作流程大致如下 1)注意力机制通过注意力汇聚(attention pooling)将选择引导至感官输入(s...
专业词汇fusion:融合,具体来说,它是将来自不同模态(即文本、视觉、音频)的特征或表示合并成一个联合的、更具信息量的特征向量的过程。这个联合向量随后被用于执行最终的任务(如情感分类或回归)。 utterances:多模态领域中,它指视频中说话者一次连续的、完整的语言表达。简单来说,就是视频中的一句或一段话。当说话者开始说话到停顿或切换话题之间的这段内容,就是一个 utterance。 注意,在本篇论文中utterance不只是一段语言、而是而是一个“小视屏” 其中有 low-level features from language visual mo...
过拟合在模型训练的过程中会呈现随着训练epoch的增加,模型开始是在训练集和测试集上的表现同步变好,再训练到一定程度之后模型在训练集上的效果变好的同时在测试集上的表现却变差。这就是过拟合。 在多项式回归中, 我们可以通过调整拟合多项式的阶数来限制模型的容量。 实际上,限制特征的数量是缓解过拟合的一种常用技术。 一些理论: 多项式对多变量数据的自然扩展是单项式(变量幂的乘积),多项式就是很多单项式求和 单项式的阶数是其中幂的和,例如$x_1x_2^2$的阶数是3 给定k个变量,随着阶数d的增加,阶数为d的项个数为$C^{k-1+d}_{k-1}$(因此阶数...
简单线性模型的局限在最简单的单层神经网络中,我们会使用线性模型。其中涉及仿射变换的线性是一个很强的假设。 线性意味着单调假设: 任何特征的增大都会导致模型输出的增大(如果对应的权重为正), 或者导致模型输出的减小(如果对应的权重为负)。 但是线性模型可能是正确的,但也可能会出错: 例如,如果我们试图预测一个人是否会偿还贷款。 我们可以认为,在其他条件不变的情况下, 收入较高的申请人比收入较低的申请人更有可能偿还贷款。 但是,虽然收入与还款概率存在单调性,但它们不是线性相关的。 收入从0增加到5万,可能比从100万增加到105万带来更大的还款可能性。 处理...
这篇blog用来记录学习Pytorch关于自动求导的官方文档时了解到的一些东西 官方文档参考连接Pytorch_Autograd_mechanics 反向传播时对于计算图上各种函数的处理 If the function is differentiable and thus a gradient exists at the current point, use it. If the function is convex (at least locally), use the sub-gradient of minimum norm. 补充sub-gradi...
在机器学习中不乏有涉及矩阵的运算,其中矩阵求导更是涉及优化问题的关键。虽然现在有很多开包即用的api可以帮助我们完成这个工作,但是我还是想了解一些它们底层的工作原理。用这篇帖子记录之。 标量函数对向量的求导在高等数学中我们学习了多元函数的导数,例如$f(y_1,y_2)$是一个对$y_1,y_2$的函数,其导数如下 $\frac{\partial f(y_1,y_2)}{\partial y_1},\frac{\partial f(y_1,y_2)}{\partial y_2}$ 基于此我们可以定义标量函数对向量求导,因为多元函数中“多元”的变量本身就可...
成绩构成:平时(出勤、课堂表现、小组作业)30% + 期末闭卷考试 70% 范围、质量、制度、成本(核心) ch2-项目启动管理项目的关键驱动因素、约束和浮动因素: 基本定义: 1)关键驱动因素:项目成功的必要因素; 2)项目的约束:对哪些因素管理从而确保项目成功(2~3个); 3)浮动因素:有很大的调整余地(至少3个); 注意: 1)三个名词本质上都是指代的项目管理中考虑的一些驱动因素,是按重要等级的划分,关键驱动>约束>浮动; 2)就实际来说,例如:功能集合、发布时间、缺陷等级、工作环境、人员配置、流程规范等等…这些都是项目管理实际考虑的...
线性回归线性回归的基本元素线性回归基于几个基本的假设: 自变量$x$核因变量$y$之间的关系是线性的,即因变量可以表示为自变量中元素的加权和 观测值和真实值之间存在一些噪声,但是噪声比较简单,认为服从正态分布 一些基本概念一个实际的例子: 我们希望根据房屋的面积(平方英尺)和房龄(年)来估算房屋价格(美元)。 为了开发一个能预测房价的模型,我们需要收集一个真实的数据集。这个数据集包括了房屋的销售价格、面积和房龄。在机器学习的术语中,该数据集称为训练数据集(training data set) 或训练集(training set)。 每行数据(比如一次房屋...
如何引用文献 使用谷歌学术、百度学术等平台查阅自己要引用的文献; 找到对应的Texbib文件; 复制粘贴到自己的bib文件中; 使用bib文件引用文献
保研需要准备的材料用来展示实力的 简历 个人陈述 推荐信、自荐信 自我介绍(ppt、中文口述、英文口述) 套磁信 用来证明你展示的实力是真的 证件照、学生证、身份证 在学证明、排名证明、历年成绩单 获奖证书、科研文章证明 英语成绩 夏令营信息收集