
深度学习
ljz2016
这个作者很懒,什么都没留下…
展开
-
conda使用
创建环境conda create --name py35 python=3.5激活环境acitvate py35安装包pip install -i https://pypi.tuna.tsinghua.edu.cn/simple webpip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy原创 2020-08-21 09:57:47 · 187 阅读 · 0 评论 -
python爬虫框架Scrapy使用
安装pip install -i https://pypi.tuna.tsinghua.edu.cn/simple scrapy创建爬虫项目scrapy startproject mypachong项目结构创建Spiderscrapy genspider quotes处理文本内容class QuotesSpider(scrapy.Spider): name = 'q...原创 2020-03-06 16:29:29 · 255 阅读 · 0 评论 -
python合并指定文件夹下的所有text文本
有些文本字符集自动识别不准确,会读取失败,所以多试几种。def hebing(path,target): import chardet with open(target,encoding='utf-8',mode='a+') as target_file: for root,dirs,files in os.walk(path): for name in files:...原创 2020-01-02 17:16:48 · 638 阅读 · 0 评论 -
gensim(四)--word2vec embedding
训练并保存模型def train_savemodel(): model = Word2Vec(PathLineSentences(directory), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count(), sg=1, # 使用 skip-gram算法 ...原创 2019-12-30 16:21:15 · 835 阅读 · 0 评论 -
gensim(三)--相似度查询
这篇主题是查询相似的文档和前文一样,先把文档转换为向量表示from collections import defaultdictfrom gensim import corporadocuments = [ "Human machine interface for lab abc computer applications", "A survey of user opin...原创 2019-12-26 17:42:14 · 860 阅读 · 0 评论 -
gensim(二)--语料与向量之间转换
这篇文章演示如何把文本转换为向量表示,以及语料库文档流式处理并保存到硬盘上。import loggingfrom pprint import pprintfrom collections import defaultdict# 设置日志格式,日志级别logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s'...原创 2019-12-26 16:22:56 · 714 阅读 · 0 评论 -
sess.run()
session.run()session.run([fetch1, fetch2])import tensorflow as tfstate = tf.Variable(0.0,dtype=tf.float32)one = tf.constant(1.0,dtype=tf.float32)new_val = tf.add(state, one)update = tf.assign(st...原创 2019-12-24 22:12:35 · 670 阅读 · 0 评论 -
gensim(一)--core
训练模型,原始文本是使用jieba分词后的语料model = Word2Vec(LineSentence('jieba_zhu1'), size=400, window=5, min_count=5, workers=multiprocessing.cpu_count()) model.save('model/zhu.model') model.wv.save_word2vec...原创 2019-12-24 13:26:38 · 382 阅读 · 0 评论 -
word2vec_java源码解析
第一步,读取语料(已经分过词),把每个词出现的频率放在wordMap中。private void readVocab(File file) throws IOException { MapCount<String> mc = new MapCount<>(); try (BufferedReader br = new BufferedReader(new ...原创 2019-12-21 10:34:19 · 358 阅读 · 0 评论 -
THULAC 词性表
THULAC(THU Lexical Analyzer for Chinese)由清华大学自然语言处理与社会人文计算实验室研制推出的一套中文词法分析工具包,具有中文分词和词性标注功能。...原创 2019-12-19 09:55:28 · 1804 阅读 · 0 评论 -
python 文件操作
把一个set写入文件中,如果文件不存在则创建,w+表示可读可写with open(file='jieba_zhuxian',encoding='utf-8',mode='w+') as file: for name in names: file.write(name+'\n')符号含义如果文件不存在覆盖w+可读可写创建是r+可读可...原创 2019-12-18 21:50:15 · 140 阅读 · 0 评论 -
pkuseg分词的词性表
n 名词t 时间词s 处所词f 方位词m 数词q 量词b 区别词r 代词v 动词a 形容词z 状态词d 副词p 介词c 连词u 助词y 语气词e 叹词o 拟声词i 成语l 习惯用语j 简称h 前接成分k 后接成分g 语素x 非语素字w 标点符号...原创 2019-12-18 16:04:40 · 2164 阅读 · 0 评论 -
Jieba分词词性标注以及词性说明
原文链接:https://blog.youkuaiyun.com/enter89/article/details/80619805Ag形语素形容词性语素。形容词代码为 a,语素代码g前面置以A。a形容词取英语形容词 adjective的第1个字母。ad副形词直接作状语的形容词。形容词代码 a和副词代码d并在一起。an名形词具有名词功能的形容词。形容词代码 a和名词代码n并在一起。b...原创 2019-12-18 08:25:21 · 1129 阅读 · 0 评论 -
熵计算公式
如果一个随机变量XX的可能取值为X={x1,x2,…,xn}X={x1,x2,…,xn},对应的概率为p(X=xi)(i=1,2,…,n)p(X=xi)(i=1,2,…,n),则随机变量的熵定义为相对熵相对熵又称Kullback-Leible散度(即KL散度)。设p(x)和q(x)是取值的两个概率概率分布,则p对q的相对熵为交叉熵交叉熵(Cross Entropy),主要用于度量两个...转载 2019-12-15 23:08:13 · 35199 阅读 · 3 评论 -
NLP-关键词提取算法
提取文章关键词,可以分为有监督和无监督两种,有监督精度高,但是人力成本也高,同时不能处理新词。无监督不需要人工标注,常用无监督关键词提取算法分为TF-IDF算法,TextRank算法 和主题模型算法。TF-IDF算法 (词频-逆文档频次算法)一种基于统计的计算方法,常用于一个词对所在文档的重要程度。TF算法统计一个词在一篇文档中出现的频次,这个词出现的越多,则其对文档的表达能力也就越强。I...原创 2019-12-04 13:12:47 · 677 阅读 · 0 评论 -
【Tensorflow】Dataset 中的 Iterator
Tensorflow 现在将 Dataset 作为首选的数据读取手段,而 Iterator 是 Dataset 中最重要的概念。这篇文章的目的是,以官网文档为基础,较详细的介绍 Iterator 的用法。Dataset 和 Iterator 的关系在文章开始之前,首先得对 Dataset 和 Iterator 有一个感性的认识。Dataset 是数据集,Iterator 是对应的数据集迭代器...转载 2019-09-23 09:02:50 · 440 阅读 · 0 评论 -
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
长度可以不一样的语言模型 (就是依赖下一层和下一层的前一段)https://arxiv.org/pdf/1901.02860.pdftransformer 框架有学习长期依赖的潜能,但是 受限于语言模型设置的固定长度。作为一种解决方法,我们提出一种新颖的网络结构 Transformer-XL,它能使 Transformer 在不打乱输入文本的时间序列(文本顺序)的情况下,学习不止固定长...转载 2019-09-25 00:55:56 · 667 阅读 · 0 评论 -
NLP重大突破?一文读懂XLNet“屠榜”背后的原理
作者 | 李理原文链接:https://fancyerii.github.io/2019/06/30/xlnet-theory/本文介绍XLNet的基本原理,读者阅读前需要了解BERT等相关模型,不熟悉的读者建议学习BERT课程。语言模型和BERT各自的优缺点在论文里作者使用了一些术语,比如自回归(Autoregressive, AR)语言模型和自编码(autoencoding)模型等,这...转载 2019-07-01 18:20:34 · 380 阅读 · 0 评论 -
keras卷积神经网络使用例子
第一个例子 识别手写数字import numpy as npimport pandas as pdfrom paint import show_train_historyfrom paint import plot_image_labels_predictionfrom keras.models import Sequentialfrom keras.layers import Den...原创 2019-04-24 18:34:38 · 711 阅读 · 0 评论 -
xlnet--数据预处理
for split, batch_size in zip( ["train", "valid"], [FLAGS.per_host_train_bsz, FLAGS.per_host_valid_bsz]): if batch_size <= 0: continue print("Converting ...原创 2019-09-22 22:26:48 · 602 阅读 · 0 评论 -
transformer xl---vocabulary
data_dir 存放原始数据,def main(unused_argv): del unused_argv # Unused corpus = get_lm_corpus(FLAGS.data_dir, FLAGS.dataset) # save_dir = os.path.join(FLAGS.data_dir, "tfrecords") if not...原创 2019-09-22 01:04:42 · 462 阅读 · 0 评论 -
Tensorflow 基础类型定义与操作
张量tensor包含type,rank和shape三个属性tensor类型张量类型python类型DT_FLOATtf.float32DT_DOUBLEtf.float64DT_INT64tf.int64DT_INT32tf.int32DT_INT16tf.int16DT_INT8tf.int8DT_STRINGtf.str...原创 2019-05-15 00:06:52 · 1080 阅读 · 0 评论 -
Tensorflow常用设置
指定执行运算的设备,用于存在多GPU时#打印设备分配日志,如果指定设备不存在允许自动分配 ,config = tf.ConfigProto(log_device_placement = True,allow_soft_placement=True)config.gpu_options.allow_growth = True 允 许按需分配资源config.gpu_options.per_...原创 2019-05-09 23:59:42 · 252 阅读 · 0 评论 -
Tensorflow使用例子(一)
import tensorflow as tfimport numpy as npimport matplotlib.pyplot as plt# 制造数据train_X = np.linspace(-1,1,100)train_Y = 2*train_X+np.random.randn(*train_X.shape)*0.3# y =2x+b#常见的无衬线字体有 Trebuche...原创 2019-05-08 12:03:35 · 586 阅读 · 0 评论 -
单层感知器--JAVA实现
单层感知器,对两种类型进行线性分类。对于可以线性划分的数据,算法收敛与学习率无关,所以设为1,学习率用于帮助算法快速收敛。train_X属于训练内容,train_T属于标记。test_X是待预测数据,test_T是实际值。这个例子属于有监督学习。训练过程是一个不断调整w权重过程。预测就是使用训练后的权重对 待预测数据运算求和,然后使用激活函数得出结果,与实际值比较。激活函数用于对结果...原创 2019-04-29 18:04:06 · 618 阅读 · 0 评论 -
keras多层感知器使用例子
from keras.models import Sequentialfrom keras.layers import Denseimport numpy as np# 多层感知器np.random.seed(7)dataset = np.loadtxt('diabetes.csv',delimiter=',')x = dataset[:,0:8]y = dataset[:,8]#...原创 2019-04-21 11:58:31 · 1822 阅读 · 0 评论 -
常用python库安装
scipy,一个科学计算库:pip3 install --index-url https://pypi.douban.com/simple scipyCNTK,一个机器学习库:pip install cntkTensorFlow,深度学习库:pip install Tensorflow原创 2019-04-20 21:41:53 · 567 阅读 · 0 评论 -
Java开源的11个中文分词器使用方法和分词效果对比
本文的目标有两个:1、学会使用11大Java开源中文分词器2、对比分析11大Java开源中文分词器的分词效果本文给出了11大Java开源中文分词的使用方法以及分词结果对比代码,至于效果哪个好,那要用的人结合自己的应用场景自己来判断。11大Java开源中文分词器,不同的分词器有不同的用法,定义的接口也不一样,我们先定义一个统一的接口:/** * 获取文本的所有分词结果, 对比不同分词器...转载 2019-04-11 12:37:04 · 721 阅读 · 0 评论 -
Tensorflow共享变量
使用Variable声明变量,同名变量的name后会自动加_1,可以赋初始值,但是需要在session初始化后才会生效。import tensorflow as tfvar1 = tf.Variable(1.0,name='firstVar')print("var1:",var1.name)var1 = tf.Variable(2.0,name='firstVar')print("v...原创 2019-05-25 17:36:31 · 617 阅读 · 0 评论 -
tensorflow gpu环境安装
首先使用Anaconda创建一个 3.5的环境然后使用pip install -i https://pypi.tuna.tsinghua.edu.cn/simple tf-nightly-gpu 安装gpu版本,版本号是tf_nightly_gpu-1.14.1.dev20190525,上面这种安装方式可以避免包冲突。保证 显卡驱动版本不低于425,然后安装cuda 10.0,不能是10.1...原创 2019-05-26 10:36:16 · 9420 阅读 · 2 评论 -
CUDA_ERROR_LAUNCH_FAIL
在使用tensorflow 训练模型时,经常出现一下错误。每跑一段时间就会出现,后来在网上查找,发现可能是显卡驱动版本的问题,所以把驱动降低到425后,没有再出现。Error polling for event status: failed to query event: CUDA_ERROR_LAUNCH_FAIL显卡驱动版本与cuda cudnn的版本一一定要匹配,不然跑起来可能会出现一些...原创 2019-09-13 01:14:41 · 2561 阅读 · 0 评论 -
numpy--常用函数使用
np.array([range(200)], dtype=np.uint8).T,T是对矩阵转置。[[ 0 1 2 3 ]]range(200)生成一个数组,指定范围内的。[[ 0] [ 1] [ 2] [ 3]]unpackbits会把数字分解为二进制表示np.unpackbits(np.array([range(256)], dtype=np.ui...原创 2019-07-06 20:54:04 · 484 阅读 · 0 评论 -
tensorflow --损失函数与激活函数
损失函数用于评价模型的准确度。无论什么样的网络结构,如果损失函数不正确,都难以训练出正确的模型。损失值用于描述预测值与真实值之间的差距大小。MSE = tf.reduce_mean(tf.pow(tf.sub(logits,outputs),2.0))...原创 2019-06-08 00:14:08 · 799 阅读 · 1 评论 -
tensorflow 识别手写数字
整个过程分为7步:1、导入NMIST数据集2、分析NMIST样本特点定义变量3、构建模型4、训练模型并输出中间状态参数5、测试模型6、保存模型7、读取模型Minist包含每张图片,以及对应的标签,是机器学习入门数据集。可以去网上找一个npz包下载,它是npy的压缩格式使用解压缩文件可以看到里面有4个文件使用下面代码可以查看from PIL import Imageimp...原创 2019-05-30 00:02:49 · 361 阅读 · 0 评论 -
tensorflow--图的基本操作
Graph()可以创建图,下面的c1和c的图不是同一个图,g2和c是同一个图import tensorflow as tfc = tf.constant(0.0)g = tf.Graph()with g.as_default(): c1 = tf.constant(0.0) print(c1.graph) print(g) print(c.graph)...原创 2019-05-26 18:48:59 · 460 阅读 · 0 评论 -
深度学习--常用数学符号
原创 2018-09-27 15:08:48 · 4746 阅读 · 0 评论