- 博客(7)
- 收藏
- 关注
转载 抓取新浪微博好友昵称和性别
这次抓取新浪微博好友数据的方法只是个人实验之作,不具有通用性,只是为后面学习模拟登陆抓取微博数据打一个基础。import requestsimport reimport pandas as pdurl1 = "http://weibo.com/******************page=" #这就是为什么不具有通用性的原因,个人玩玩还可以url2 = "#PL
2017-05-08 16:38:45
2141
转载 词云图
开始制作词云图:工具:TAGUL 这是一款在线词云图制作工具,非常方便。下面说一下制作过程中需要注意的问题1)点击word页面,点击import words,添加要制作的文本,文本数据包括关键词和size(频率),size越大,则生成的字就会越大。Add是人为追加关键词和size。2)shapes,选择形状。这里是一些模板图形,左边是分类主题。你如果想添加图片作为模板的话,点击左上角的
2017-05-05 22:07:34
3066
转载 python爬取百度贴吧的帖子
一、URL格式的确定:我们观察一下百度贴吧的任意一个帖子:https://tieba.baidu.com/p/3138733512?see_lz=1&pn=1,分析一下这个地址:1)http:// 代表资源传输使用http协议2)tieba.baidu.com是百度的二级域名,指向百度贴吧的服务器3)/p/3138733512是服务器摸个资源,即这个帖子的地址定位符4)see_
2017-05-03 15:46:21
934
转载 python爬取网页(设置headers2)
今天用python爬取糗事百科的笑料时,发现用前面学的方法竟然不好用了.........就是这样:def getHtml(url): page = urllib.urlopen(url) html = page.read() return htmlhtml = getHtml("http://www.qiushibaike.com/hot/")
2017-05-02 21:47:41
1097
转载 微信好友头像拼接图
今天在网上看到一篇文章,是讲解怎么用python制作微信好友拼接图,一起来学习一下。import itchatimport mathimport PIL.Image as Imageimport ositchat.auto_login(True) #使用命令行显示二维码登录,参数设为True,则每次运行时只要扫码一次就行了,不用重复扫码friends = itc
2017-05-02 13:31:29
3242
转载 python爬取网页内容
上次学习了用python爬取网页上的图片,这次来学习一下怎么用python来获取网页上我们感兴趣的内容。目标:爬取简书首页的文章标题,链接,阅读量,评论数,收藏数。步骤:和上节相同,关键在于正则表达式的选取。import reimport urllibdef getHtml(url): page = urllib.urlopen(url) html =
2017-05-01 20:19:12
22331
转载 python爬取网上图片
在网上看到一个使用python爬虫的小程序,自己学习了一下,下面来看一下这个程序实现的过程:目的:抓取网页上的图片。步骤:1、拿到网页的源码 2、用正则表达式匹配出网页上图片的URL 3、把图片保存到电脑中一、获取网页源码的程序为:import urllib #urllib是python进行网络访问的基础模块#比如获取贴吧
2017-05-01 13:23:59
941
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人