- 博客(32)
- 资源 (2)
- 收藏
- 关注
A deep relevance matching model for ad-hot retrieval 论文个人理解
Abstract: 在本篇论文中,针对临时检索,提出了一种新兴的深度相关匹配模型(DRMM)。对于
2018-06-11 10:19:15
510
原创 意图识别
本次尝试,采用了 深度学习和 机器学习两种方式去考虑相关的。前者采用embedding的词嵌入的方式基于lstm-dssm模型做司机问题和库文件中标准问题做相似度匹配。后者对数据少的信息采用smote方式扩容,采用tfidf和bow方法基于随机森林的方式训练。数据集总共 1万8千条数据,130个类。标记为null的数据达到1万3千条,数据分布也极为不均衡,所以模型很容易出现 忽略小样本的问题 。(...
2018-06-11 10:12:42
3587
原创 ubuntu下如何 将文件或者文件夹传到github上.
https://www.jianshu.com/p/c70ca3a02087(第一步)1,ssh检查2,生成秘钥,打开id_rsa.pub,查看.3,github上设置相关的ssh 远程的链接.(第二步)1,到达想上传的文件夹下. 初始化. git init2,git add . 然后设置 注释文件 git commit -m "注释信息"3,github 上 新建相应的仓库.4, ssh与仓储...
2018-05-01 17:37:15
1188
原创 python 小知识点
1关于joblib 的 Parallel, delayedfrom joblib import Parallel, delayedimport timepred=open("predict.csv",'wb')train=open("train.csv","wb")ll1=[]ll2=[]def func1(i): return it1=time.time()with ...
2018-04-26 16:46:37
233
转载 crf的意义
转载地址:http://blog.youkuaiyun.com/xueyingxue001/article/details/51499087学习方法 条件随机场模型实际上是定义在时序数据上的对数线性模型,其学习方法包括极大似然估计和正则化的极大似然估计。 具体的优化实现算法有改进的迭代尺度法IIS、梯度下降法以及拟牛顿法。 改进的
2017-09-03 19:43:04
1020
原创 生成歌词多层的lstam
import osimport sysimport timeimport numpy as npimport tensorflow as tffrom tensorflow.contrib.tensorboard.plugins import projectorfrom tensorflow.contrib import rnn as rnn_cellfrom tensorflow
2017-08-27 10:22:00
717
原创 textcnn自己的理解
import tensorflow as tfimport numpy as npclass TextCNN(object): """ A CNN for text classification. Uses an embedding layer, followed by a convolutional, max-pooling and softmax layer....
2017-08-15 16:38:07
2573
原创 北京新闻爬虫-final
#coding=utf-8#地区 1:北京,2上海,3,黑龙江,4,重庆,5,海南。#环境:1,相关,0,不相关#食品:1,相关,0,不相关#情感::1,正面,-1,负面,0,中性#import webdriver from selenium#要安装 pip install seleniumimport reimport os#yum install nodejs -->
2017-08-14 16:17:15
427
原创 爬取北京这个页面的网页信息
#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etreei
2017-08-10 14:06:27
461
原创 爬取动态的网页。
#coding=utf-8#import webdriver from selenium#要安装 pip install seleniumimport re#yum install nodejs --> npm install -g cnpm --registry=https://registry.npm.taobao.org#npm install phantomjs-prebu
2017-08-09 16:52:08
505
原创 爬非动态的网页的模板
#coding=utf-8import urllib2import httplibimport refrom pybloomfilter import BloomFilterimport StringIOimport osimport gzipimport zlibimport lxmlfrom lxml import htmlfrom lxml import etree
2017-08-09 14:45:40
393
原创 深度学习---情感分析(Rnn,LSTM)
借鉴了苏建林大神的博客关于情感分析的三篇文章。并在此基础上 新加了停用词。停用词的下载链接:停用词代码环境:python2.7tensorflow-gpu 1.0jieba试验后的准确率高达98%,结果如下:代码如下:# -*- coding:utf-8 -*-'''在GTX1070上,11s一轮经过30轮迭代,训练集准确率为98.41%Dropout
2017-05-31 17:57:08
8463
原创 RNN,LSTM手写数组的识别,saver保存以及加载。
(一)环境搭建:Python3.5,TensorFlow1.0或者1.2,(二)实验描述:利用TensorFlow中的rnn和lstm库对手写数字图像分类。手写数字数据,如果本地没有,代码会自动连网下载(40m左右)利用saver进行保存,首先需要在代码的同级目录下创建net文件夹(三)结果展示:(四) 代码:# coding: utf-8# In[1]:
2017-05-22 20:07:15
1668
原创 小小爬虫很狂暴-----day01
小爬虫,环境:1, python 2.7环境2, 必须确保联网状态。3,装好需要的库文件。 对于pybloomfilter 的引用,本人经验:不要去 pip install pybloomfilter, 装上之后,不会报错,但无法运行。应该 pip install pybloomfiltermmap ( 加上mmap,两个m) 4,本人爬虫是在Ubuntu1
2017-05-11 21:32:49
1718
原创 TensorFlow实现word2vec 详细代码解释
参考1:http://blog.youkuaiyun.com/mylove0414/article/details/69789203参考2:《TensorFlow实战》参考3:http://www.jianshu.com/p/f682066f0586代码配合参考3的图形说明,可以更容易理解。本例子,打算实现中文的word2vec,但最后显示都是一群乱码,对应的中文代码,也没有更改。如果有人找到了解
2017-05-09 18:58:36
11365
原创 win10+gtx1070+tensorflow+cuda8.0+cudn搭建深度学习环境
Win10+1070+cuda8.0+cudn-->装TensorFlow的步骤: 亲测有效。步骤1、安装Anaconda 直接在官网下载并安装Anaconda,这里选择64版本。 注意,windows下安装TensorFlow,要求python版本是3.5,64位。 安装完Anaconda,也就安装了python3.5等相关工具 本人下载的是Python 3
2017-05-05 11:52:51
5866
原创 NLP算法之一(LDA理论和实际部分_ _邮件数据处理)
正经的理理解LDA,分为下述5个步骤:一个函数:gamma函数四个分布:二项分布、多项分布、beta分布、Dirichlet分布一个概念和一个理理念:共轭先验和⻉贝叶斯框架两个模型:pLSA、LDA一个采样:Gibbs采样例子的数据信息格式:例子:读大量的邮件信息,选出有用的信息。import numpy as npimport panda
2017-04-28 10:53:09
1192
原创 聊天机器人_ _突击01编队_ _浅聊
最基础版本的rule-base机器人¶最简单的问什么,但什么。入门级。import random# 打招呼greetings = ['hola', 'hello', 'hi', 'Hi', 'hey!','hey']# 回复打招呼random_greeting = random.choice(greetings)# 对于“你怎么样?”这个问题的回复question = ['
2017-04-27 20:56:35
456
原创 NLP算法之一(朴素贝叶斯实际部分,语言分类器)
朴素贝叶斯完成语种检测文本信息: 五个方法:1,粗暴的词去重2,文本处理,生成我们想要的样本,划分训练集和测试集,统计词频,词频降序排列。3,选取特征词。除去停止词,数字等。4,文本特征。5,将分好的文本,用贝叶斯分类器分类,输出准确率。 程序的流程。1, 预处理。2, 生成停止词。3, 文本特征提取和分类。4, 评价im
2017-04-27 15:38:17
678
原创 NLP算法之一(朴素贝叶斯实际部分,新闻分类器)
对算法每个部分都具体的实现,调用的第三方库相对较少。进行 新闻的文本分类Stopword(停止词)数据样式: 五个方法:1,粗暴的词去重2,文本处理,生成我们想要的样本,划分训练集和测试集,统计词频,词频降序排列。3,选取特征词。除去停止词,数字等。4,文本特征。5,将分好的文本,用贝叶斯分类器分类,输出准确率。
2017-04-27 15:24:41
734
原创 NLP算法之一(朴素贝叶斯理论部分)
一、贝叶斯公式贝叶斯公式就一行:P(Y|X)=P(X|Y)P(Y)P(X)而它其实是由以下的联合概率公式推导出来:P(Y,X)=P(Y|X)P(X)=P(X|Y)P(Y)其中P(Y)叫做先验概率,P(Y|X)叫做后验概率,P(Y,X)叫做联合概率。没了,贝叶斯最核心的公式就这么些。二、机器学习的视角理解贝叶斯公式X理解成“具有某特征”,把Y理解成“类别标签”(一般机
2017-04-27 15:01:11
821
原创 爬虫养成记
爬取某个旅游网站的信息:python3.6的环境,安装了BeautifulSoup,requests,time这三个库。from bs4 import BeautifulSoupimport requestsimport timeurl_saves = 'http://www.tripadvisor.com/Saves#37685322'url = 'https://www.tr
2017-04-27 13:43:56
605
原创 word2vec 用于训练数据,生成模型
(1)首先准备好数据,这是未标记的数据形式。(2)stopword 的数据然后根据数据,设计代码。word2vec训练词向量import osimport reimport numpy as npimport pandas as pdfrom bs4 import BeautifulSoupimport nltk.data#nltk.download()
2017-04-23 14:03:39
3618
转载 nlp技能,jieba分词
jieba中文处理参考寒小阳,jieba课的内容1.基本分词函数与用法¶jieba.cut 以及 jieba.cut_for_search返回的结构都是一个可迭代的 generator,可以使用 for循环来获得分词后得到的每一个词语(unicode)jieba.cut 方法接受三个输入参数:· 需要分词的字符串· cut_all参数
2017-04-22 08:40:35
1013
原创 word2Vec--(1) nltk实现简单的切词,情感分析,文本相似度(TF-IDF)
Nltk from nltk.corpus import brown(1) brown.categories() 该文件下的文章目录(2) len(brown.sents())(3) len(brown.words()) tokenizer 分词nltk.tokenize(sentence) 结巴分词 三种切词模式Imp
2017-04-21 15:08:48
6102
原创 tensorflow 基础定义
作为TensorFlow的小白,还有很多东西要学的。(1) nodenode1 = tf.constant(3.0, tf.float32)node2 = tf.constant(4.0)# also tf.float32 implicitlyprint(node1, node2) To actuallyevaluate the nodes, we must ru
2017-04-21 15:03:28
312
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人