
python
文章平均质量分 77
liujianfei526
这个作者很懒,什么都没留下…
展开
-
从零开始,使用python快速开发web站点(1)
环境:ubuntu 12.04python版本: 2.73ok,首先,既然是从零开始,我们需要的是一台可以运行的python的计算机环境,并且假设你已经安装好了python,(ubuntu 或者debian的linux用户,安装python的过程可以参考:http://blog.youkuaiyun.com/i7788/article/details/9886127)然后,既转载 2015-05-07 23:22:11 · 650 阅读 · 0 评论 -
初学者报道(3) CRF 中文分词解码过程理解
一,标记问题解决分词:就是将 词语开始和结束的字标记出来,就能对一个句子完成分词,假设使用两个标记B (开始),E(结束)对句子进行处理,如:“民主是普世价值”,民B主E是B普B世E价B值E, 这样标记明确,分词结果就明确了。二,如何找到最好的标记结果:知道如何用标记的方式解决分词,那么怎么为一个句子找到一个最好的标记序列呢,CRF为这样的问题提供了一个解决方案,对于输入序列X1,X2…Xn(转载 2016-02-11 11:37:40 · 2294 阅读 · 0 评论 -
2.3 finditer
finditer( rule , target [,flag] )参数同findall返回一个迭代器finditer函数和findall函数的区别是,findall返回所有匹配的字符串,并存为一个列表,而finditer则并不直接返回这些字符串,而是返回一个迭代器。关于迭代器,解释起来有点复杂,还是看看例子把:>>> s=’111 222 333 444’>>> for i i转载 2016-02-11 14:02:47 · 846 阅读 · 0 评论 -
Python中使用正则表达式
本文通过示例来描述如何在Python中使用正则表达式来统计文本中的所有数字。示例中的文本来自命令行的管道数据,[python] view plain copysys.stdin.readlines() 主要是因为作者需要在命令行的输出信息中做数字统计。示例代码1,列出根目录下所有文件或文件夹的名称字符串中包含的数字转载 2016-02-11 14:11:40 · 395 阅读 · 0 评论 -
NumPy学习笔记(一)
读的是NumPy User Guide Release 1.3,官方另有一本Reference,600多页,还是先读这个省事儿的。凡例:a. [float]表示对象类型是float,用时不用加'['和']'。b. 代码中的跳格表示换行。Chap 2 NumPy Basics1. import numpy as np,沿用之,很喜欢np这个名字,呵呵转载 2016-02-12 09:06:23 · 651 阅读 · 0 评论 -
NumPy学习笔记(二)
31. 第二个参数类型是tuple,仅在将structure映射到一个已有的数据类型上时使用,即在tuple里已有的数据类型以及数据类型定义,比如:x = zeros(3, dtype=(’i4’,[(’r’,’u1’), (’g’,’u1’), (’b’,’u1’), (’a’,’u1’)])),这样就覆盖了默认名称(f0,f1之类),不过返回没搞明白,为啥是一个1*3的array?行为有点转载 2016-02-12 09:07:11 · 365 阅读 · 0 评论 -
NumPy学习笔记(三)
《用Python做科学计算》做得很漂亮,字体瞧着顺眼儿,代码部分不仅照例是等宽字符,还换了灰背景,作者是个有心人。今天答辩委员会的专家还提到了写论文要细致严谨,除了文字之外的其他细节包括图表的刻度、图例和图注还有论文字体大小对齐等等都要力争做到至少规范。因此在投入程度方面儿我要向作者致敬并学习。当然,还有他/她的开源精神~从目录看只准备看NumPy,SciPy和matplotlib的部分。转载 2016-02-12 09:08:41 · 669 阅读 · 0 评论 -
NumPy的详细教程
先决条件在阅读这个教程之前,你多少需要知道点python。如果你想从新回忆下,请看看Python Tutorial.如果你想要运行教程中的示例,你至少需要在你的电脑上安装了以下一些软件:PythonNumPy这些是可能对你有帮助的:ipython是一个净强化的交互Python Shell,对探索NumPy的特性非常方便。matplotlib将允许你绘图Sci转载 2016-02-12 09:10:35 · 496 阅读 · 0 评论 -
Python list 操作
创建列表sample_list = ['a',1,('a','b')]Python 列表操作sample_list = ['a','b',0,1,3]得到列表中的某一个值value_start = sample_list[0]end_value = sample_list[-1]删除列表的第一个值del sample_list[0]在列表中插入一转载 2016-02-12 11:25:25 · 371 阅读 · 0 评论 -
Python多线程学习
一、Python中的线程使用: Python中使用线程有两种方式:函数或者用类来包装线程对象。1、 函数式:调用thread模块中的start_new_thread()函数来产生新线程。如下例: import time import thread def timer(no, interval): cnt = 0 while cnt10:转载 2016-01-30 17:50:25 · 319 阅读 · 0 评论 -
Python图表绘制:matplotlib绘图库入门
Python图表绘制:matplotlib绘图库入门matplotlib 是python最著名的绘图库,它提供了一整套和matlab相似的命令API,十分适合交互式地行制图。而且也可以方便地将它作为绘图控件,嵌入GUI应用程序中。它的文档相当完备,并且Gallery页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本转载 2016-02-17 11:02:30 · 609 阅读 · 0 评论 -
Python元祖,列表,字典,集合的比较
定义 方法 列表可以包含不同类型的对象,可以增减元素,可以跟其他的列表结合或者把一个列表拆分,用[]来定义的 eg:aList=[123,'abc',4.56,['inner','list'],7-9j]1.list(str):将str转换成list类型,str可以使字符串也可以是元组类型 2.aList.append('test'):追加元素到列表中去 3转载 2016-02-04 11:27:34 · 291 阅读 · 0 评论 -
用chardet判断字符编码的方法
chardet 用来实现字符串/文件编码检测模板1、chardet下载与安装下载地址:http://pypi.python.org/pypi/chardet下载chardet后,解压chardet压缩包,直接将chardet文件夹放在应用程序目录下,就可以使用import chardet开始使用chardet了,也可以将chardet拷贝到Python系统目录下,这样你所有的pytho转载 2016-02-04 11:28:13 · 304 阅读 · 0 评论 -
python 静态方法和类方法
class TestClassMethod(object): METHOD = 'method hoho' def __init__(self): self.name = 'leon' def test1(self): print 'test1' print self @classmethod def转载 2016-02-04 11:30:45 · 250 阅读 · 0 评论 -
Python类的__getitem__和__setitem__特殊方法
一个有点绕的例子,用PyScripter调试器步进跟踪可以看清楚对 象结构的具体细节。对原作改变了一下,在未定义子对象属性时__getitem__中使用现成的__setitem__来定义。## encoding:utf-8"""这个类继承了object, object是Python的最小单元,可以在Python的">>>"控制台用dir(objct)或者dir (转载 2016-02-04 11:51:31 · 4026 阅读 · 0 评论 -
机器学习中的范数规则化之(一)L0、L1与L2范数
机器学习中的范数规则化之(一)L0、L1与L2范数zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 今天我们聊聊机器学习中出现的非常频繁的问题:过拟合与规则化。我们先简单的来理解下常用的L0、L1、L2和核范数规则化。最后聊下规则化项参数的选择问题。这里因为篇幅比较庞大,为了不吓到大家,我将这个五个部分分成两篇博文。知识有限,以下都转载 2016-02-18 21:02:25 · 440 阅读 · 0 评论 -
pychrom激活码
43B4A73YYJ-eyJsaWNlbnNlSWQiOiI0M0I0QTczWVlKIiwibGljZW5zZWVOYW1lIjoibGFuIHl1IiwiYXNzaWduZWVOYW1lIjoiIiwiYXNzaWduZWVFbWFpbCI6IiIsImxpY2Vuc2VSZXN0cmljdGlvbiI6IkZvciBlZHVjYXRpb25hbCB1c2Ugb25seSIsImNoZWNrQ原创 2016-05-15 14:02:23 · 5610 阅读 · 0 评论 -
python读取csv大数据文件到mysql数据库中(ubunu14.04下)
#- * - coding: UTF-8 -*- import mysql.connector import csv #数据库连接 config={ 'host':'127.0.0.1',#默认127.0.0.1 'user':'root', 'password':'ict', 'port':3306原创 2015-03-29 23:21:40 · 1445 阅读 · 0 评论 -
Python爬虫入门(1):综述
原文出处: 崔庆才的博客(@崔庆才丨静觅) 欢迎分享原创到伯乐头条Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Python爬虫入门(3):Urllib库的基本使用Python爬虫入门(4):Urllib库的高级用法Python爬虫入门(5):URLError异常处理Python爬虫入门(6):Cookie的使用Python爬虫入门(7):正则表达式Pyt转载 2016-01-29 21:06:05 · 806 阅读 · 0 评论 -
Python爬虫实战(5):模拟登录淘宝并获取所有订单
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果1. 淘宝的密码用了AES加密算法,最终将密码转化为256位,在POST时,传输的是256位转载 2016-01-29 21:14:04 · 4220 阅读 · 0 评论 -
Python爬虫实战(3):计算大学本学期绩点
大家好,本次为大家带来的项目是计算大学本学期绩点。首先说明的是,博主来自山东大学,有属于个人的学生成绩管理系统,需要学号密码才可以登录,不过可能广大读者没有这个学号密码,不能实际进行操作,所以最主要的还是获取它的原理。最主要的是了解cookie的相关操作。本篇目标1.模拟登录学生成绩管理系统2.抓取本学期成绩界面3.计算打印本学期成绩1.URL的获取恩,博主来自山东大学~转载 2016-01-29 21:12:54 · 1361 阅读 · 0 评论 -
Python中文分词组件jieba
jieba(Powered by Appfog) Python 2.x 下的安装目前master分支是只支持Python2.x 的Python3.x 版本的分支也已经基本可用: https://github.com/fxsjy/jieba/tree/jieba3kgit clone https://github.com/fxsjy/jieba.gitgit che转载 2015-08-29 23:03:14 · 581 阅读 · 0 评论 -
Python 2.7和NLTK安装教程
系统:Windows 7 Ultimate 64-bitsPython 2.7安装下载Python 2.7:http://www.python.org/ftp/python/2.7.6/python-2.7.6.amd64.msi安装NLTK安装下载NLTK: http://pypi.python.org/packages/2.7/s/setuptools/setupt转载 2015-08-29 23:02:09 · 2306 阅读 · 0 评论 -
Ubuntu 安装 scikit-learn
1. if you have Python 2 you can install all these requirements by issuing:sudo apt-get install build-essential python-dev python-setuptools \ python-numpy python-scipy \转载 2016-01-02 21:46:46 · 786 阅读 · 0 评论 -
ubuntu 安装pip
安装pip的方法:Install pip and virtualenv for Ubuntu 10.10 Maverick and newer $ sudo apt-get install python-pip python-dev build-essential $ sudo pip install --upgrade pip $ sudo pip ins转载 2016-01-02 21:49:25 · 300 阅读 · 0 评论 -
Python中的Numpy入门教程
1、Numpy是什么很简单,Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。其实,list已经提供了类似于矩阵的表示形式,不过numpy为我们提供了更多的函数。如果接触过matlab、scilab,那么numpy很好入手。 在以下的代码示例中,总是先导入了numpy:复制代码 代码如下:>>> import n转载 2016-01-05 19:00:28 · 396 阅读 · 0 评论 -
pandas 数据规整
合并数据集使用键参数的 DataFrame 合并轴向连接合并重叠数据重塑和轴向旋转重塑层次化索引将 “长格式” 转换为 “宽格式”数据转换移除重复数据利用函数或映射进行数据转换替换值重命名轴索引离散化和面元划分检测和过滤异常值随机采样转换指标/哑变量字符串操作合并数据集pandas.merge 可根据一个或多个键将不同 DataFrame 中的行连接起来。pandas.conc转载 2016-01-05 19:08:45 · 8389 阅读 · 0 评论 -
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)
机器学习算法与Python实践之(七)逻辑回归(Logistic Regression)zouxy09@qq.comhttp://blog.youkuaiyun.com/zouxy09 机器学习算法与Python实践这个系列主要是参考《机器学习实战》这本书。因为自己想学习Python,然后也想对一些机器学习算法加深下了解,所以就想通过Python来实现几个比较常用的机器学习算法。转载 2016-01-05 19:01:40 · 1163 阅读 · 0 评论 -
中文分词之HMM模型详解
关于HMM模型的介绍,网上的资料已经烂大街,但是大部分都是在背书背公式,本文在此针对HMM模型在中文分词中的应用,讲讲实现原理。尽可能的撇开公式,撇开推导。结合实际开源代码作为例子,争取做到雅俗共赏,童叟无欺。没有公式,就没有伤害。模型介绍第一次听说HMM模型是从李开复的博文论文中听说的:李开复1988年的博士论文发表了第一个基于隐马尔科夫模型(HMM)的语音识别系统Sph转载 2016-02-06 13:16:29 · 9383 阅读 · 3 评论 -
二阶和三阶隐马尔柯夫过程(HMM)进行中文分词的效果对比
第一部分 引言关于隐马尔柯夫模型的详细内容在此就不详细介绍了,介绍HMM模型的文章很多,请读者自行去学习。二阶隐马尔柯夫模型解决问题有两个假设:其一是当前的状态仅与它前面相邻的状态有关;其二是状态转换和从某个状态发射某个观察符号的概率与时间t无关(即不动性假设)。HMM是在这两个假设的前提下解决各种各样的问题的。对于第二个假设,我们不去讨论它。现在来看第一个假设,二阶马尔柯夫过程假设当转载 2016-02-06 13:40:26 · 1944 阅读 · 1 评论 -
Python爬虫入门(2):爬虫基础了解
原文出处: 崔庆才的博客(@崔庆才丨静觅) 欢迎分享原创到伯乐头条Python爬虫入门(1):综述Python爬虫入门(2):爬虫基础了解Python爬虫入门(3):Urllib库的基本使用Python爬虫入门(4):Urllib库的高级用法Python爬虫入门(5):URLError异常处理Python爬虫入门(6):Cookie的使用Python爬虫入门(7):正则表达式Pyt转载 2016-01-29 21:06:41 · 571 阅读 · 0 评论 -
Python爬虫入门(3):Urllib库的基本使用
那么接下来,小伙伴们就一起和我真正迈向我们的爬虫之路吧。1.分分钟扒一个网页下来怎样扒网页呢?其实就是根据URL来获取它的网页信息,虽然我们在浏览器中看到的是一幅幅优美的画面,但是其实是由浏览器解释才呈现出来的,实质它 是一段HTML代码,加 JS、CSS,如果把网页比作一个人,那么HTML便是他的骨架,JS便是他的肌肉,CSS便是它的衣服。所以最重要的部分是存在于HTML中的,下面我 们转载 2016-01-29 21:07:23 · 362 阅读 · 0 评论 -
Python爬虫入门(4):Urllib库的高级用法
1.设置Headers有些网站不会同意程序直接用上面的方式进行访问,如果识别有问题,那么站点根本不会响应,所以为了完全模拟浏览器的工作,我们需要设置一些Headers 的属性。首先,打开我们的浏览器,调试浏览器F12,我用的是Chrome,打开网络监听,示意如下,比如知乎,点登录之后,我们会发现登陆之后界面都变化 了,出现一个新的界面,实质上这个页面包含了许许多多的内容,这些内容也不是一次转载 2016-01-29 21:07:52 · 412 阅读 · 0 评论 -
Python爬虫入门(5):URLError异常处理
大家好,本节在这里主要说的是URLError还有HTTPError,以及对它们的一些处理。1.URLError首先解释下URLError可能产生的原因:网络无连接,即本机无法上网连接不到特定的服务器服务器不存在在代码中,我们需要用try-except语句来包围并捕获相应的异常。下面是一个例子,先感受下它的风骚Pythonimport urllib2转载 2016-01-29 21:08:21 · 375 阅读 · 0 评论 -
Python爬虫入门(6):Cookie的使用
大家好哈,上一节我们研究了一下爬虫的异常处理问题,那么接下来我们一起来看一下Cookie的使用。为什么要使用Cookie呢?Cookie,指某些网站为了辨别用户身份、进行session跟踪而储存在用户本地终端上的数据(通常经过加密)比如说有些网站需要登录后才能访问某个页面,在登录之前,你想抓取某个页面内容是不允许的。那么我们可以利用Urllib2库保存我们登录的Cookie,然后再抓取转载 2016-01-29 21:08:55 · 383 阅读 · 0 评论 -
Python爬虫入门(7):正则表达式
在前面我们已经搞定了怎样获取页面的内容,不过还差一步,这么多杂乱的代码夹杂文字我们怎样把它提取出来整理呢?下面就开始介绍一个十分强大的工具,正则表达式!1.了解正则表达式正则表达式是对字符串操作的一种逻辑公式,就是用事先定义好的一些特定字符、及这些特定字符的组合,组成一个“规则字符串”,这个“规则字符串”用来表达对字符串的一种过滤逻辑。正则表达式是用来匹配字符串非常强大的工具,转载 2016-01-29 21:09:44 · 368 阅读 · 0 评论 -
Python爬虫实战(1):爬取糗事百科段子
大家好,前面入门已经说了那么多基础知识了,下面我们做几个实战项目来挑战一下吧。那么这次为大家带来,Python爬取糗事百科的小段子的例子。首先,糗事百科大家都听说过吧?糗友们发的搞笑的段子一抓一大把,这次我们尝试一下用爬虫把他们抓取下来。本篇目标1.抓取糗事百科热门段子2.过滤带有图片的段子3.实现每按一次回车显示一个段子的发布时间,发布人,段子内容,点赞数。糗事百转载 2016-01-29 21:11:16 · 575 阅读 · 0 评论 -
Python爬虫实战(2):百度贴吧帖子
经过多次尝试,模拟登录淘宝终于成功了,实在是不容易,淘宝的登录加密和验证太复杂了,煞费苦心,在此写出来和大家一起分享,希望大家支持。本篇内容1. python模拟登录淘宝网页2. 获取登录用户的所有订单详情3. 学会应对出现验证码的情况4. 体会一下复杂的模拟登录机制探索部分成果1. 淘宝的密码用了AES加密算法,最终将密码转化为256位,在POST时,传输的是256位转载 2016-01-29 21:12:00 · 2301 阅读 · 0 评论 -
python下使用mysql.connector 安装以及连接数据库的操作
1.ubuntn下mysql.connector模块的安装 sudo-apt-get install mysql.connector2.数据库的连接 config={ 'host':'127.0.0.1',#默认127.0.0.1 'user':'root', 'password':'ict',转载 2015-03-29 20:01:20 · 2064 阅读 · 0 评论