deeplearn学习笔记 cs224n lecture4

xiaoxiao2021-02-28  43

Lecture 4 主要内容 Classification background Updating word vectors for classification Window classification & cross entropy error derivation tips A single layer neural network Max-Margin loss and backprop

分类开始和标注 分类直觉 softmax 训练softmax和交叉熵误差

KL散度 对完整数据集的分类 分类:正则化 ML优化 分类和词向量之间的区别 当再训练词向量时的一个陷阱 关于词向量的side note

Window classification 将一个窗口中相邻的词进行分类 eg命名实体识别 有很多种方法进行识别,但是这样会丢失位置坐标。 训练softmax分类器,通过对其周围的所有词向量的串联来对中心词进行分类。 最简单的window classier:softmax Deriving gradients for window model 推到窗口模型渐变 Tip 1.仔细定义变量,并注意他们的维度 2.链式法则 3.softmax运用 4.当你对一个函数进行求导的时候,看看能不能创造一个包含所有偏导数的梯度 5.看不懂 6.当使用一个链式法则的时候,首先使用一个明确的金额,并且先看看一些偏导数。, 7.清理比较复杂的函数,了解矩阵的维数,简化矩阵。 8.如果不清楚就把他写满。

训练窗口模型的还需要注意的 J的梯度和W的softmax weights有关系 相似的步骤,先写Wij

Softmax (= logistic regression) alone not very powerful Softmax只在原始空间中给出线性决策边界。 比较小的数据时效果好,大的时候效果差一点

大数据的时候神经网络获得胜利

揭秘神经网络 一个神经元本质上来说是一个二元逻辑回归 一个神经网络同时跑好几个逻辑回归 矩阵表示法对一层

神经网络的非线性为什么会被需要 如果没有非线性的特点,深度神经网络比线性变换不能多做任何事情。 额外的层可以被转化成一个线性转换 通过更多的层,神经网络层可以训练出更加复杂的函数

非标准化的二分类 假设我们想要区分中心词是一个位置。 命名实体识别 和word2vec相似,还是遍历所有语料库,但是这次只有一些位置我们会给比较高的分数。 在他们中心有一个实际的位置NER被称为”真实“的位置

概述:前馈计算 我们计算一个窗口的分数通过3层神经网络

对额外层的主要直觉 这一层学习非线性交流在输入的词向量中。

The max-margin loss 训练目标:使真正的窗口得分更大,不好的窗口得分更小。知道他们够好。

训练反向传播 大概就是利用了导数和反向传播 另外我们可以利用高层的计算重复计算底层的计算。

求出单个元素的词向量的分数的导数。

总结 超级有用的基础组件和真实模型 词向量训练 窗口 Softmax and cross entropy error Scores and max-margin loss 神经网络

转载请注明原文地址: https://www.6miu.com/read-2620866.html

最新回复(0)