03简单实战RNN(基于TensorFlow)一

接下来,定义一个类叫做SeriesPredictor。如步骤2所示,构造函数里面设置模型超参数,权重和成本函数。

阅读 446评论 1 9个月前

doc2vec

阅读 417评论 0 7个月前

06—03—03词向量的经典代码

要有TensorFlow的基础 仅仅有Python基础是不够的 这个和06—03—02是一样的,只是代码进行了优化。其他东西不再赘述

阅读 414评论 0 9个月前

#06--02词向量的原始

Word2Vec是从大量文本语料中以无监督的方式学习语义知识的一种模型,它被大量地用在自然语言处理(NLP)中。那么它是如何帮助我们做自然语言处理呢?Word2Vec其实就是通过学习文本来用词向量的方式表征词的语义信息,即通过一个嵌入空间使得语义上相似的单词在该空间内距离很近。Embedding其实就是一个映射,将单词从原先所属的空间映射到新的多维空间中,也就是把原先词所在空间嵌入到一个新的空间中去。

阅读 377评论 0 9个月前

01—02自编码器(参考Antares老师)

就是这么一个过程。原始数据是没有折损的,然后我们人为的添加噪声,使得原始数据有折损。然后将折损的数据输入,得到隐藏层。然后从隐藏层到输出层(也叫构建层)。最后用构建层与原始数据对比,损失值越小,说明构建层的数据恢复的不错。

阅读 376评论 0 9个月前

01—01自编码器

我们呢,先不考虑神经网络、机器学习等等的,就单单考虑自编码器,那么原来还是比较简单的。就是试图还原原始的输入信息。上图看一下吧。

阅读 366评论 0 9个月前

动态的lstm tf.nn_dynamic_rnn

阅读 363评论 0 6个月前

02TensorFlow常用函数目录

embedding_lookup(params, ids, partition_strategy=”mod”, name=None,validate_indices=True):

阅读 354评论 0 9个月前

05实战RNN二(基于MNIST数据集)

因为我们重点关注RNN如何应用的问题,像文本或者语音等等,涉及数据处理,数据预处理部分需要自己查找资源解决,不是RNN解释的重点选用MNIST数据集,主要是因为数据预处理简单,不必将精力放在数据上,着重突出我们的主题RNN部分

阅读 342评论 0 9个月前

06--03--01词向量原始的匹配代码之数据预处理

该函数用于检查是否已经从提供的 URL 下载了文件(代码中的 filename)。如果没有,使用 urllib.request Python 模块(该模块可从给定的 url 中检索文件),并将该文件下载到本地代码目录中。如果文件已经存在(即 os.path.exists(filename)返回结果为真),那么函数不会再下载文件。接下来,expected_bytes 函数会对文件大小进行检查,以确保下载文件与预期的文件大小一致。如果一切正常,将返回至用于提取数据的文件对象。

阅读 341评论 0 9个月前

01自动编码器

第一:基础,怎么来理解这是基础呢?自动编码器就是一种尽可能复现输入信号的神经网络。为了实现这种复现,自动编码器就必须捕捉可以代表输入数据的最重要的因素,就像PCA那样,找到可以代表原信息的主要成分。

阅读 334评论 0 9个月前

04构建Word2Vec词嵌入模型

如果我们想把单词输入机器学习模型,除非使用基于树的方法,否则需要把单词转换成一些数字向量。一种直接的方法是使用「独热编码」方法将单词转换为稀疏表示,向量中只有一个元素设置为 1,其余为 0。所以,我们可以使用如下的向量表示句子「The cat sat on the mat」:我们在此将一个六个字的句子转换为一个 6*5 的矩阵,其中 5 是词汇量(「the」有重复)。然而,在实际应用中,我们希望深度学习模型能够在词汇量很大(10,000 字以上)的情况下进行学习。从这里能看到使用「独热码」表示单词的效率问题——对这些词汇建模的任何神经网络的输入层至少都有 10,000 个节点。不仅如此,这种方法剥离了单词的所有局部语境——也就是说它会去掉句子中(或句子之间)紧密相连的单词的信息。

阅读 320评论 0 9个月前