
Python
江南小白龙
这个作者很懒,什么都没留下…
展开
-
【Python系列1】中文分词之后输出最大长度词
在中文分词之后,往往存在一个很麻烦的问题,即一个固定专有的短语被拆分为多个词,而实际上你只需要那个短语就行了。例如,对“欢迎来到北京大学”进行拆分,结果可能为“欢迎|来到|北京|大学|北京大学”。对于这种情况,如何让其只输出“欢迎|来到|北京大学”呢?下面自己动手写了一段程序来解决这个问题。def Maximum_difference(res): res_split=res.原创 2015-08-29 10:38:30 · 3104 阅读 · 0 评论 -
【Python系列2】赋值、深度复制与传参
在Python中,对象之间赋值时是按引用传递的,也就是说“b=a”指向同一内存。这样,改变b也会同时改变a。如果需要对b操作而不影响a,需要使用Python的内置函数进行复制:copy为浅拷贝,只拷贝父对象,不会拷贝对象内部的子对象;deepcopy为深拷贝,拷贝对象及其子对象。下面是从网上找到的一个典型例子:import copy a = [1, 2, 3, 4, ['a', 'b'原创 2015-08-31 15:05:12 · 1900 阅读 · 0 评论 -
【Python系列3】两个txt文件通过id进行关联
进行不同表的关联,我们首先想到的都是通过SQL在数据库中完成。然而,最近在做项目的过程中,却遇到了两个表都保存为txt文件,并且需要按照ID进行关联的问题。为了解决这个问题,自己写了下面一段Python程序,主要思想是将一个txt中的ID作为字典的key。def JointTWOTXT(self): #将A.txt和B.txt按照ID进行关联原创 2015-09-04 22:32:26 · 3487 阅读 · 0 评论 -
【Python系列4】国外程序员整理的机器学习资源大全——Python篇
原文链接: awesome-machine-learning 翻译: 伯乐在线 - toolate译文链接: http://blog.jobbole.com/73806/上面的链接中,还有其他常用语言(C++, Closure, Go, Java, JavaScript, Julia, Lua, Matlab, .Net, Ruby, R, Scala)的机器学习库介绍。本文只是罗列了转载 2015-09-20 14:42:25 · 2235 阅读 · 0 评论 -
【Python系列5】set和list的妙用
set和list是Python常用的结构类型,这里不再多述。本文主要是总结了一些它们配合起来的一些妙用。(1)去重比如一个序列:>>>line = ['a','b','a']为了去除重复的'a',可以进行如下操作:>>> list(set(line))['a', 'b'](2)提取两个序列中出现过的非重复元素比如两个序列:>>> line1=['a','b','原创 2015-11-29 21:50:42 · 13432 阅读 · 0 评论 -
【Scrapy爬虫系列2】性能调优
加快爬虫速度:在 settings.py 里把 TIMEOUT 设小点提高并发数( CONCURRENT_REQUESTS )瓶颈在 IO ,所以很有可能 IO 跑满,但是 CPU 没跑满,所以你用 CPU 来加速抓取其实是不成立的。不如开几个进程来跑死循环,这样 CPU 就跑满了在 setting.py 里面,可以把单 IP 或者单 domain 的 concurrent原创 2016-11-27 15:40:18 · 12806 阅读 · 1 评论 -
【Python系列6】Navigate for mysql显示Python导入的中文
很多国外软件对中文的支持都不太好,mysql也不例外。为了在客户端Naviagte for mysql中显示中文,核心是要求客户端、数据本身、系统连接、数据库等都统一为utf8编码的,具体地需要做到如下几点:1. Python程序本身需要在头部添加:# /usr/bin/env python# coding: utf-82. 通过navigate对数据库的编码进行修改(右键—原创 2016-11-23 22:11:27 · 1080 阅读 · 0 评论 -
【Scrapy爬虫系列1】爬虫的几大问题——抛砖引玉
什么是爬虫?抓取特定网站网页的HTML数据什么是Scrapy?Scrapy是一个基于Twisted,纯Python实现的爬虫框架,用户只需要定制开发几个模块就可以轻松的实现一个爬虫。Scrapy使用Twisted这个异步网络库来处理网络通讯,架构清晰,并且包含了各种中间件接口,可以灵活的完成各种需求。Scrapy的几大核心模块:S原创 2016-11-26 11:42:03 · 1110 阅读 · 0 评论