- 博客(27)
- 资源 (1)
- 收藏
- 关注
转载 tf.nn.nce_loss
http://www.jianshu.com/p/fab82fa53e16这两天因为实现mxnet的nce-loss,因此研究了一下tensorflow的nce-loss的实现。所以总结一下。先看看tensorflow的nce-loss的API:def nce_loss(weights, biases, inputs, labels, num_sampled, num_clas
2017-11-30 15:36:36
7669
1
转载 Jupyter 技巧
Toggle navigationFocus on ML & DM[译]27 个Jupyter Notebook的小提示与技巧Date 二 08 十一月 2016 Tags Jupyter notebookJupyter notebook, 前身是 IPython notebook, 它是一个非常灵活的工具,有助于帮助你
2017-11-28 10:41:58
12650
原创 word2vec
import pandas as pdimport numpy as npfrom gensim.models import Word2Vecimport gensimimport redata = pd.read_csv('liepin_fenci.csv')#cixing_data = data['cixing']# aaa = data.iloc[:1000, 2]cixi
2017-11-01 20:20:36
462
原创 karas 实现lstm 文本分类
# In[4]:#网址来源#https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.pyfrom __future__ import print_functionfrom keras.preprocessing import sequencefrom keras.models import Sequential
2017-10-28 10:52:18
3832
1
原创 tensorflow 实现word2vec
# coding: utf-8# In[151]:import jiebaimport tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprintfrom pymongo import MongoClientimpo
2017-10-28 10:45:58
596
原创 基于tensorflow 的cnn实现文本分类
# coding: utf-8# In[72]:import os, xlrdimport codecs, reimport jiebaimport rarfile import os import jieba.analyse# In[22]:file_name = '/mfsdata/pachong/cnn/Data_MeiTi'#读取文件路径#files
2017-10-25 11:08:57
1664
原创 LAD gensim 主题分析
# coding: utf-8#from gensim.models import word2vecfrom gensim.corpora import Dictionaryfrom gensim.models import LdaModelfrom gensim import modelsimport sysimport pandas as pdData=pd.read_csv
2017-10-24 18:01:41
1905
原创 linex 查看jpyter地址
linex 查看jpyter地址: tmux attach-session1 tmux2 jupyter notebook --ip 192.168.4.116 --port 8889
2017-09-29 14:49:07
375
转载 自然语言内容
作者:微软亚洲研究院链接:https://www.zhihu.com/question/19895141/answer/149475410来源:知乎著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。自然语言处理(简称NLP),是研究计算机处理人类语言的一门技术,包括:1.句法语义分析:对于给定的句子,进行分词、词性标记、命名实体识别和链接、句法分析、语
2017-06-27 20:26:50
766
原创 命名体识别
from bosonnlp import BosonNLPfile_object2=open('D:\A仲敏2015\python_code\\企业名实体匹配.txt').read().split('\n') #一行行的读取内容 nlp = BosonNLP('fSflwaQA.15494.d29JM3-a40Nn')#官网http://bosonnlp.com/注册账号,获取YOUR_A
2017-05-26 16:49:06
865
转载 gensim词袋向量化
https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/gensim%20Quick%20Start.ipynbGetting Started with gensimThis section introduces the basic con
2017-05-17 13:55:57
1296
转载 jieba说明文档
jieba“结巴”中文分词:做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documenta
2017-05-15 16:03:12
1363
转载 python 中jieba分词
https://github.com/fxsjy/jieba/issues/14"大连美容美发学校中君意是你值得信赖的选择" 这句话首先会按照概率连乘最大路径来切割,因为单字有一定概率,而“中君意是”这四个字中不含词典中有的词,所以会被切割成单字:即:大连/ 美容美发/ 学校/ 中/ 君/ 意/ 是/ 你/ 值得/ 信赖/ 的/ 选择/然后我们认为“中/ 君/ 意/ 是
2017-05-15 14:05:24
585
原创 BeautifulSoup
#encoding='utf-8'from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen('http://pythonscraping.com/pages/page1.html')html=urlopen('http://pythonscraping.com/pages/page1.ht
2017-05-14 22:06:27
432
原创 python 自然语言处理 代码实现(批量读取,分词,词向量化)
#coding=utf-8#coding=gbkimport pandas as pdimport jiebaimport codecsimport pandas as pd#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error'] df=open("D:\A仲敏2015\pytho
2017-05-12 16:37:11
9118
3
原创 python如何查看编码类型
##查看编码类型import chardetchardit1 = chardet.detect(cf_r)#cf_r为要查看的编码print (cf_r['encoding'])
2017-05-05 11:28:43
4477
原创 python读取中编码错误(illegal multibyte sequence )
读取中文txt文件时,经常会出现: ‘gbk' codec can't decode bytes in position 31023: illegal multibyte sequence。主要讲一种情况就是文章中含有utf-8或gbk无法编码的字符情况。好多人都说加入'ignore',但一直都没有说清楚是在open函数中加入,还是在.read()中加入(其实是在open函数中加入,如下面
2017-05-04 18:23:24
37915
3
转载 python 正则表达式 重复匹配
In [2]: ma=re.match(r')[\w]*python') #\1代表前面括号内模式,重复匹配 In [3]: ma.group() Out[4]: 'python' #匹配重复的字符>>> p = re.compile(r'(\b\w+)\s+\1')#\1代表前面括号内模式,重复匹配>>> p.search('Paris in the the spri
2017-04-19 17:24:49
10615
原创 python中文件的读写(含爬虫内容)
#pandas中的解析函数#read_csv:从文件,URL,文件型对象中加载带分隔符的数据。默认分隔符为“逗号”#read_table:从文件,URL,,文件型对象中加载带分隔符的数据。默认分隔符数据为制表符(‘\t’)#read_fwf:读取定宽列格式数据(即没有分隔符)#read_clipboard:读取剪切板上的数据,可以看做read_table的剪贴版,将网页转换为表格时
2017-04-17 11:20:04
1199
原创 python 结巴分词中 按行读取 csv中的文件 并将分词存储到csv中
#coding='utf-8'impo#coding='utf-8'import csvimport jiebaimport pandas as pd分词存储后如上图,数据格式,我们对上述数据的每一行进行分词,分词后如下表格式python语言如下file_object2=open('D:\A仲敏2015\python_code\\advice.csv').r
2017-04-11 17:41:55
24210
12
原创 python爬虫 爬取页面链接
#coding=utf-8from bs4 import BeautifulSoupimport lxml import urllibfrom urllib import requesturl = 'http://ecpi.ggj.gov.cn/jndfgz/'#爬取页面req=request.Request(url)res=urllib.request.ur
2017-04-10 18:44:51
2098
转载 python爬取图片
import urllib.request,socket,re,sys,os targetPath = "D:\\python_code\\picture" #定义文件保存路径 def saveFile(path): #检测当前路径的有效性 if not os.path.isdir(targetPath): os.mkdi
2017-04-09 22:55:51
573
转载 python 编码 乱码 问题2
1、Python本身对各种语言支持都很好,字符串在python内部是用unicode编码表示的。 python支持两种编码格式,一个是UCS-2,一个是UCS-4,可以通过如下方式查看是那种:>>> import sys>>> print sys.maxunicode65535 ## 这个就是UCS-21114111 ## 这个就是UCS-42、如果要做编码转换,需要借助内
2017-04-08 22:13:11
594
转载 python 编码 乱码问题
为什么Python使用过程中会出现各式各样的乱码问题,明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式?为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”?本文就来研究一下这个问题。字符
2017-04-08 22:10:17
712
原创 python中pandas
import pandas as pdbj=pd.Series([4,7,-5,3])#产生带索引的一维数组bj.values#返回数组值bj.index#返回下表bj1=pd.Series([4,7,-5,3],index=['a','b','c','d'])#自定义索引bj1['a']#通过索引查找值bj1[['a','c']]#通过索引查找值,建立子集bj>2#逻
2017-04-01 16:30:44
1352
原创 python中numpy使用
import numpy as np#导入numpydata=[[1,2,3],[4,5,6]]#创建元组arr=np.array(data)#转化为数组arr.ndim#数组空间维数arr.shape#数据行列数arr.dtype#数据类型""int32""np.zeros(10)#指定长度np.zeros((3,6))#创建3行6列的0数组np.ones(5)#
2017-04-01 15:25:57
4816
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人