- 博客(8)
- 资源 (4)
- 问答 (1)
- 收藏
- 关注
原创 网络爬虫反爬技术
1.通过动态设置user agent字段设置headers属性来模拟成浏览器 http请求头中user agent包含了我们使用的浏览器和操作系统的一些信息,很多网站通过判断user agent内容来确定用户的,所以咱们要动态设置user agent,来假装自己是很多用户。主要有如下两种方法:使用build_opener()修改报头(由于urlopen()不支持一些HTTP的高级功能如
2017-09-07 10:34:17
1425
转载 k-means算法Python实现
#!/usr/bin/python# coding=utf-8from numpy import *# 加载数据def loadDataSet(fileName): # 解析文件,按tab分割字段,得到一个浮点数字类型的矩阵 dataMat = [] # 文件的最后一个字段是类别标签 fr = open(fileName)
2017-08-31 11:38:36
805
原创 python处理中文字符串的问题
开始提取百科的词条统计信息,遇到如图一所示的问题,之前也遇到过但不知道怎么回事,今天逐条审查才发现原来是中文字符串问题,比如这种:Python中默认情况下,赋值strs = '默认编码是ascii',输出strs[0],结果为'Ä',输出strs[10]为'a',输出strs[0:2]才是'默'因为字符串在Python内部的表示是unicode编码,因此,在做编码转换时,通常需要以unicod
2017-06-22 18:05:55
3836
原创 python爬虫实例之一
好久没有写博客了,之前做的项目也没有上传,今天来一波记录:使用XMLFeedSpider分析XML源 进行爬虫爬取新浪博客的订阅地址XML中的文章标题、对应链接、作者等信息,使用Scrapy框架进行爬取最终运行结果如下图:此处主要记录下该过程中遇到的问题:在命令行中输入scrapy crawl myxmlspider --nolog时出现了一错误:unhandled erro
2017-04-21 17:08:06
671
原创 Head_first_python 第二章共享你的代码 函数模块
由章节标题可知python要实现代码共享,1.代码共享有什么好处呢?个人认为可以重用共享的代码缩减工作量,而且有助于改进2.然而python通过什么实现代码共享呢?python提供了一组技术来实现代码共享,主要包括两部分:一是模块,主要是自己合理组织的代码优化共享;二是发布工具,通过发布你要共享的代码实现最终的共享,开放自己的代码3.如何实现共享?首先将函数转换
2017-03-06 17:13:20
443
1
原创 Head first python 之第一章初识python列表学习
python中列表名可以不用声明数据类型,列表索引从零开始,列表中的数据类型也可以有多种,可以用BIF内置函数(append()添加列表数据,len()求列表长度,pop()删除列表最后一项,extend()列表扩展可以添加一项或多项或另一个列表,remove()移除某一项,insert(索引,插入的内容)在索引值的前一位插入内容)一、处理列表数据尽量用for循环语句迭代处理一个列表,
2017-03-03 21:31:59
1278
关于django 2 xadmin中批量导入数据的问题
2021-01-29
TA创建的收藏夹 TA关注的收藏夹
TA关注的人