小木头1209-优快云博客

转载 tf.nn.nce_loss

http://www.jianshu.com/p/fab82fa53e16这两天因为实现mxnet的nce-loss，因此研究了一下tensorflow的nce-loss的实现。所以总结一下。先看看tensorflow的nce-loss的API：def nce_loss(weights, biases, inputs, labels, num_sampled, num_clas

2017-11-30 15:36:36 7669 1

转载 Jupyter 技巧

Toggle navigationFocus on ML & DM[译]27 个Jupyter Notebook的小提示与技巧Date 二 08 十一月 2016 Tags Jupyter notebookJupyter notebook, 前身是 IPython notebook, 它是一个非常灵活的工具，有助于帮助你

2017-11-28 10:41:58 12650

原创 word2vec

import pandas as pdimport numpy as npfrom gensim.models import Word2Vecimport gensimimport redata = pd.read_csv('liepin_fenci.csv')#cixing_data = data['cixing']# aaa = data.iloc[:1000, 2]cixi

2017-11-01 20:20:36 462

原创 karas 实现lstm 文本分类

# In[4]:#网址来源#https://github.com/fchollet/keras/blob/master/examples/imdb_lstm.pyfrom __future__ import print_functionfrom keras.preprocessing import sequencefrom keras.models import Sequential

2017-10-28 10:52:18 3832 1

原创 tensorflow 实现word2vec

# coding: utf-8# In[151]:import jiebaimport tensorflow as tfimport numpy as npimport mathimport collectionsimport pickle as pklfrom pprint import pprintfrom pymongo import MongoClientimpo

2017-10-28 10:45:58 596

原创基于tensorflow 的cnn实现文本分类

# coding: utf-8# In[72]:import os, xlrdimport codecs, reimport jiebaimport rarfile import os import jieba.analyse# In[22]:file_name = '/mfsdata/pachong/cnn/Data_MeiTi'#读取文件路径#files

2017-10-25 11:08:57 1664

原创 LAD gensim 主题分析

# coding: utf-8#from gensim.models import word2vecfrom gensim.corpora import Dictionaryfrom gensim.models import LdaModelfrom gensim import modelsimport sysimport pandas as pdData=pd.read_csv

2017-10-24 18:01:41 1905

原创 linex 查看jpyter地址

linex 查看jpyter地址： tmux attach-session1 tmux2 jupyter notebook --ip 192.168.4.116 --port 8889

2017-09-29 14:49:07 375

转载自然语言内容

作者：微软亚洲研究院链接：https://www.zhihu.com/question/19895141/answer/149475410来源：知乎著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。自然语言处理（简称NLP），是研究计算机处理人类语言的一门技术，包括：1.句法语义分析：对于给定的句子，进行分词、词性标记、命名实体识别和链接、句法分析、语

2017-06-27 20:26:50 766

原创命名体识别

from bosonnlp import BosonNLPfile_object2=open('D:\A仲敏2015\python_code\\企业名实体匹配.txt').read().split('\n') #一行行的读取内容 nlp = BosonNLP('fSflwaQA.15494.d29JM3-a40Nn')#官网http://bosonnlp.com/注册账号，获取YOUR_A

2017-05-26 16:49:06 865

原创爬虫案例

git@code.youkuaiyun.com:snippets/2413104.git

2017-05-23 15:25:05 472

转载 gensim词袋向量化

https://github.com/RaRe-Technologies/gensim/blob/develop/docs/notebooks/gensim%20Quick%20Start.ipynbGetting Started with gensimThis section introduces the basic con

2017-05-17 13:55:57 1296

转载 jieba说明文档

jieba“结巴”中文分词：做最好的 Python 中文分词组件"Jieba" (Chinese for "to stutter") Chinese text segmentation: built to be the best Python Chinese word segmentation module.Scroll down for English documenta

2017-05-15 16:03:12 1363

转载 python 中jieba分词

https://github.com/fxsjy/jieba/issues/14"大连美容美发学校中君意是你值得信赖的选择" 这句话首先会按照概率连乘最大路径来切割，因为单字有一定概率，而“中君意是”这四个字中不含词典中有的词，所以会被切割成单字：即：大连/ 美容美发/ 学校/ 中/ 君/ 意/ 是/ 你/ 值得/ 信赖/ 的/ 选择/然后我们认为“中/ 君/ 意/ 是

2017-05-15 14:05:24 585

原创 BeautifulSoup

#encoding='utf-8'from urllib.request import urlopenfrom bs4 import BeautifulSouphtml=urlopen('http://pythonscraping.com/pages/page1.html')html=urlopen('http://pythonscraping.com/pages/page1.ht

2017-05-14 22:06:27 432

原创 python 自然语言处理代码实现（批量读取，分词，词向量化）

#coding=utf-8#coding=gbkimport pandas as pdimport jiebaimport codecsimport pandas as pd#decode_set=['ANSI','utf-8','gb18030','ISO-8859-2','gb2312','gbk','Error'] df=open("D:\A仲敏2015\pytho

2017-05-12 16:37:11 9118 3

原创 python如何查看编码类型

##查看编码类型import chardetchardit1 = chardet.detect(cf_r)#cf_r为要查看的编码print (cf_r['encoding'])

2017-05-05 11:28:43 4477

原创 python读取中编码错误（illegal multibyte sequence ）

读取中文txt文件时，经常会出现: ‘gbk' codec can't decode bytes in position 31023: illegal multibyte sequence。主要讲一种情况就是文章中含有utf-8或gbk无法编码的字符情况。好多人都说加入'ignore'，但一直都没有说清楚是在open函数中加入，还是在.read()中加入（其实是在open函数中加入，如下面

2017-05-04 18:23:24 37915 3

转载 python 正则表达式重复匹配

In [2]: ma=re.match(r')[\w]*python') #\1代表前面括号内模式，重复匹配 In [3]: ma.group() Out[4]: 'python' #匹配重复的字符>>> p = re.compile(r'(\b\w+)\s+\1')#\1代表前面括号内模式，重复匹配>>> p.search('Paris in the the spri

2017-04-19 17:24:49 10615

原创 python中文件的读写(含爬虫内容)

#pandas中的解析函数#read_csv:从文件，URL，文件型对象中加载带分隔符的数据。默认分隔符为“逗号”#read_table:从文件，URL,，文件型对象中加载带分隔符的数据。默认分隔符数据为制表符（‘\t’）#read_fwf:读取定宽列格式数据（即没有分隔符）#read_clipboard:读取剪切板上的数据，可以看做read_table的剪贴版，将网页转换为表格时

2017-04-17 11:20:04 1199

原创 python 结巴分词中按行读取 csv中的文件并将分词存储到csv中

#coding='utf-8'impo#coding='utf-8'import csvimport jiebaimport pandas as pd分词存储后如上图，数据格式，我们对上述数据的每一行进行分词，分词后如下表格式python语言如下file_object2=open('D:\A仲敏2015\python_code\\advice.csv').r

2017-04-11 17:41:55 24210 12

原创 python爬虫爬取页面链接

#coding=utf-8from bs4 import BeautifulSoupimport lxml import urllibfrom urllib import requesturl = 'http://ecpi.ggj.gov.cn/jndfgz/'#爬取页面req=request.Request(url)res=urllib.request.ur

2017-04-10 18:44:51 2098

转载 python爬取图片

import urllib.request,socket,re,sys,os targetPath = "D:\\python_code\\picture" #定义文件保存路径 def saveFile(path): #检测当前路径的有效性 if not os.path.isdir(targetPath): os.mkdi

2017-04-09 22:55:51 573

转载 python 编码乱码问题2

1、Python本身对各种语言支持都很好，字符串在python内部是用unicode编码表示的。 python支持两种编码格式，一个是UCS-2，一个是UCS-4，可以通过如下方式查看是那种：>>> import sys>>> print sys.maxunicode65535 ## 这个就是UCS-21114111 ## 这个就是UCS-42、如果要做编码转换，需要借助内

2017-04-08 22:13:11 594

转载 python 编码乱码问题

为什么Python使用过程中会出现各式各样的乱码问题，明明是中文字符却显示成“\xe4\xb8\xad\xe6\x96\x87”的形式？为什么会报错“UnicodeEncodeError: 'ascii' codec can't encode characters in position 0-1: ordinal not in range(128)”？本文就来研究一下这个问题。字符

2017-04-08 22:10:17 712

原创 python中pandas

import pandas as pdbj=pd.Series([4,7,-5,3])#产生带索引的一维数组bj.values#返回数组值bj.index#返回下表bj1=pd.Series([4,7,-5,3],index=['a','b','c','d'])#自定义索引bj1['a']#通过索引查找值bj1[['a','c']]#通过索引查找值，建立子集bj>2#逻

2017-04-01 16:30:44 1352

原创 python中numpy使用

import numpy as np#导入numpydata=[[1,2,3],[4,5,6]]#创建元组arr=np.array(data)#转化为数组arr.ndim#数组空间维数arr.shape#数据行列数arr.dtype#数据类型""int32""np.zeros(10)#指定长度np.zeros((3,6))#创建3行6列的0数组np.ones(5)#

2017-04-01 15:25:57 4816

jiasudu1234的博客