爬虫
文章平均质量分 81
a602232180
学习算法分类,SVD,LDA,PLSA,KMEANS,word2vec
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫,爬糗百热门段子
想爬东西,必须熟悉正则啊,换行的 /s ,任意字符的 . 。先打开网页:url = 'http://www.qiushibaike.com/hot/page/' + str(page) user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)' headers = { 'User-Agent' : user_a转载 2018-01-05 10:24:33 · 552 阅读 · 0 评论 -
urllib2 爬虫 打印页面内容,部分无法显示
爬了一下起点小说网的内容,结果发现打印页面内容时丢失了部分内容这个是我的代码import reimport urllib2user_agent ='Mozilla/5.0 (Windows NT 10.0; WOW64; rv:49.0) Gecko/20100101 Firefox/49.0' headers = { 'User-Agent':user_agent}url原创 2018-01-06 18:00:32 · 1309 阅读 · 0 评论
分享