文章 23

访客 1134

声望 113

第5名

Blog

doc2vec

量子语言模型论文解析

前言:在我的理解里,量子(光子,能量)是一份一份的,是离散的不连续的。波粒二象性(粒子性,波动性);波函数是来描述微观粒子状态。这周工作: 1看了论文Modeling Term Dependencies with Quantum Language Models for IR,知道了量子语言模型是如何实现的 2 对于Quantum Many-body Wave Function Inspired Language Modeling Framework这篇论文

01 API_RNN

然后,CNN中的卷积核的一个重要特点是它是需要网络自己来学习的。这一点很简单也很重要:一般的卷积核如sobel算子、平滑算子等,都是人们根据数学知识得到的,比如求导,平均等等。所以一般的人工卷积核是不能放进卷积层的,这有悖于“学习”的概念。我们神经网络就是要自己学习卷积核的参数。来提取人们想不到甚至是无法理解的空间结构或特征。其他特征包括全局共享(一个卷积核滑动一整张图像),多核卷积(用一个卷积核只能提取一种空间结构或特征)。

01论文Character-lever Convolutional Networkd for Text Classification

注意,markdown不设置首行缩进,所以,您无需在段首以backspace或tab来设置首行缩进。markdown是以个两段落中间空出一行,来进行分段的,如下所示。

01—03自编码器代码部分之一

01—02自编码器(参考Antares老师)

就是这么一个过程。原始数据是没有折损的,然后我们人为的添加噪声,使得原始数据有折损。然后将折损的数据输入,得到隐藏层。然后从隐藏层到输出层(也叫构建层)。最后用构建层与原始数据对比,损失值越小,说明构建层的数据恢复的不错。

02栈式自编码器

就是这样,深层网络的优势在于可以逐层的学习原始数据的多种表达。每一层都是以前一层的表达为基础的,往往比较抽象,适合复杂的分类等任务。堆叠自编码器就是在做这样的事情:单个自编码器通过虚构的三层网络,能够学习出一种特征变化的h=fθ(x)(这里的θ表示变换的参数,包括W,b和激活函数)。实际上,当训练结束后,输出层就没啥意义,没意义的东西要去掉。

01—01自编码器

我们呢,先不考虑神经网络、机器学习等等的,就单单考虑自编码器,那么原来还是比较简单的。就是试图还原原始的输入信息。上图看一下吧。

06—03—03词向量的经典代码

要有TensorFlow的基础 仅仅有Python基础是不够的 这个和06—03—02是一样的,只是代码进行了优化。其他东西不再赘述

06—03—02词向量原始的匹配代码之核心模型

import numpy as npimport tensorflow as tfbatch_size = 128vocab_size = 50000embed_size = 128 # dimension of the word embedding vectorsnum_sampled = 64 # Number of negative examples to sample.learning_rate = 1.0skip_window = 1 # the context windownum_train_steps=20000skip_step = 2000 # how many steps to skip before reporting the loss

06—04词向量进化篇

假设我们有10,000个单词的词汇表,我们想嵌入300维的词向量,那么我们的输入-隐层权重矩阵和隐层-输出层的权重矩阵都会有10,000 x 300 = 300万个权重(讲真,如果是这么多钱,哪怕是人民币,小编我也是说搬就可以搬走的,从不怕麻烦。)在如此庞大的神经网络中进行梯度下降算法那是相当的慢。更可怕的是,你需要大量的训练数据来调整这些权重并且还有避免过拟合。百万数量级的权重矩阵和亿万数量级的训练样本意味着训练这个模型将会是灾难啊!

06--03--01词向量原始的匹配代码之数据预处理

该函数用于检查是否已经从提供的 URL 下载了文件(代码中的 filename)。如果没有,使用 urllib.request Python 模块(该模块可从给定的 url 中检索文件),并将该文件下载到本地代码目录中。如果文件已经存在(即 os.path.exists(filename)返回结果为真),那么函数不会再下载文件。接下来,expected_bytes 函数会对文件大小进行检查,以确保下载文件与预期的文件大小一致。如果一切正常,将返回至用于提取数据的文件对象。
    1 2

 ©2017 studyai.com 版权所有

关于我们