- 博客(7)
- 资源 (2)
- 收藏
- 关注
原创 python3学习(7):链接爬虫,让爬虫跟踪链接,访问感兴趣的内容
环境:python3.6.5 + pycharm注意事项:1. 在python3中,urllib2、urlparser 和 robotparser 全部归于 urllib,该模块目前只包含5个子模块: urllib.error, urllib.parser, urllib.request, urllib.response, urllib.robotparser2. 链接必须为绝对路径,以便包...
2018-06-30 20:39:13
470
原创 python3学习(6):ID 遍历爬虫,将需要下载的网页数量最小化
从python3学习(5)中可知所有爬取的网站URL只有在结尾处有区别,因此,可以利用该弱点来遍历访问所有URL。### 二、 ID 遍历爬虫,利用网站结构的弱点,轻松访问所有内容。# Downloading: http://example.webscraping.com/places/default/view/Afghanistan-1# Downloading: http://exampl...
2018-06-29 22:01:50
308
原创 python3学习(5):在网站地图爬虫时的cannot use a string pattern on a bytes-like object 问题的解决方法
一、python3里的 urllib2 已经没有了,改为了 urllbi.request,因此,直接导入 import urllib.request 即可。二、必须对正则表达式里的引用变量进行格式变换 .decode('utf-8'),否则会报错说 不能在一个字节类的对象上使用字符串格式。如下代码所示。### 一、 网站地图爬虫,控制用户代理的设定,可捕获异常、重试下载并设置用户代理。wswp:...
2018-06-29 20:53:03
697
原创 python3学习(4):用python编写一个统计分析某text文件里的字、空格、其他字符的数量,并统计排序频率最高的前10个字
### 本游戏旨在计算并打印出一个文件中内容的统计数据。比如,以只读方式统计并打印 出文件包含多少个字符、行和单词,# 并统计出现次数最多的前10个单词,按出现次数排列好。(文件类型主要是 .txt .xls .doc-- written by LiSongboWords = {'a', 'b', 'c', 'd', 'e', 'f', 'g', 'h', 'i', 'j', 'k', 'l'...
2018-06-29 11:23:17
1287
1
原创 python3学习(3):以例子说明python的类、继承和多态
## 游戏规则:两个玩家同时选择一个 1-10的整数,如果一个玩家选择的整数比对方的小 1 ,则该玩家获胜,否则算平手。class Player: ## written by LiSongbo def __init__(self,name): self._name = name self._score = 0 def reset_score(s...
2018-06-28 21:48:31
408
原创 python3学习(2):学习记录,since 04/05/2018
好吧,不得不承认有点懒,今天才开通优快云博客,既然开通了,还是要好好用起来吧。2018年5月4日开始自学python,主要是利用业余时间,就当是保持自我学习的一种方式吧,毕竟,工作之余还是要学点东西,浪费业余时间的行为是极其危险和可耻的。这篇博客主要是记录一下今天注册开通了优快云博客,以后每次学习后都会将新的学习内容或学习心得记录下来,希望能早日成为大牛。...
2018-06-28 17:34:18
164
原创 python3学习(1):函数的可变位置参数和可变关键字参数* 和** 学习心得
*args 和 **kwargs无论是函数调用还是函数声明,* 表示有元组或列表出现, ** 表示附近没有字典出现。① >>> check_web_server('www.python.org',80,'/') ## 常规方式,根据函数参数进行调用HTTP Response: status= 301 reason = Moved PermanentlyHTTP Heade...
2018-05-10 11:40:34
520
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人