deeplearn学习笔记 cs224n lecture4

xiaoxiao2021-02-28 43

Lecture 4 主要内容 Classification background Updating word vectors for classification Window classification & cross entropy error derivation tips A single layer neural network Max-Margin loss and backprop

分类开始和标注分类直觉 softmax 训练softmax和交叉熵误差

KL散度对完整数据集的分类分类:正则化 ML优化分类和词向量之间的区别当再训练词向量时的一个陷阱关于词向量的side note

Window classification 将一个窗口中相邻的词进行分类 eg命名实体识别有很多种方法进行识别，但是这样会丢失位置坐标。训练softmax分类器，通过对其周围的所有词向量的串联来对中心词进行分类。最简单的window classier:softmax Deriving gradients for window model 推到窗口模型渐变 Tip 1.仔细定义变量，并注意他们的维度 2.链式法则 3.softmax运用 4.当你对一个函数进行求导的时候，看看能不能创造一个包含所有偏导数的梯度 5.看不懂 6.当使用一个链式法则的时候，首先使用一个明确的金额，并且先看看一些偏导数。， 7.清理比较复杂的函数，了解矩阵的维数，简化矩阵。 8.如果不清楚就把他写满。

训练窗口模型的还需要注意的 J的梯度和W的softmax weights有关系相似的步骤，先写Wij

Softmax (= logistic regression) alone not very powerful Softmax只在原始空间中给出线性决策边界。比较小的数据时效果好，大的时候效果差一点

大数据的时候神经网络获得胜利

揭秘神经网络一个神经元本质上来说是一个二元逻辑回归一个神经网络同时跑好几个逻辑回归矩阵表示法对一层

神经网络的非线性为什么会被需要如果没有非线性的特点，深度神经网络比线性变换不能多做任何事情。额外的层可以被转化成一个线性转换通过更多的层，神经网络层可以训练出更加复杂的函数

非标准化的二分类假设我们想要区分中心词是一个位置。命名实体识别和word2vec相似，还是遍历所有语料库，但是这次只有一些位置我们会给比较高的分数。在他们中心有一个实际的位置NER被称为”真实“的位置

概述:前馈计算我们计算一个窗口的分数通过3层神经网络

对额外层的主要直觉这一层学习非线性交流在输入的词向量中。

The max-margin loss 训练目标:使真正的窗口得分更大，不好的窗口得分更小。知道他们够好。

训练反向传播大概就是利用了导数和反向传播另外我们可以利用高层的计算重复计算底层的计算。

求出单个元素的词向量的分数的导数。

总结超级有用的基础组件和真实模型词向量训练窗口 Softmax and cross entropy error Scores and max-margin loss 神经网络

转载请注明原文地址: https://www.6miu.com/read-2620866.html

技术

最新回复(0)