
爬虫
Clifnich
Keep it real.
展开
-
爬虫中的python使用技巧
Python 真的好用!测试要多用 print() 函数来做测试,如果不清楚某个变量的类型,可以用 print(type(x)) 来先做一个类型输出,其中x就是你要看的变量。比如说爬虫会用到美丽鸡汤 BeautifulSoup,一般使用方法会像这样:soup = BeautifulSoup(value1, 'html.parser')如果你要用 print(soup) 的话可能会报错(我的pytho原创 2017-01-02 13:44:50 · 639 阅读 · 0 评论 -
爬虫的基础知识
要学起爬虫了,这次学习不是光看文档,我在网易云课堂上找到了课程,是一位台湾的网络公司老板开的课,跟着老师学,速度和效率都会提高。关键词:非结构化数据要做研究、做调研,你需要数据,但这些数据大多时候不在本地。老师说90%的数据没有很好地存储着,而是离散地分布在广大的互联网上。你的数据库中的,或者说excel文件里的整齐的数据叫做结构化数据,而网上离散分布的数据就称为非结构化数据。爬虫的基本过程我们需要原创 2016-12-28 08:12:42 · 1291 阅读 · 0 评论 -
爬虫的准备工作
乘配件还在下载安装,我来把做好的准备工作总结一下。首先你要有个有开发者工具的浏览器,比如chrome 和Firefox,知道在网页上右击检查,就可以调用出开发者工具,选network-doc,doc下是网页想要搜索引擎搜到的东西,所以你想要的资料大多都会在这里。ps, 记得打开窃听器,就是那个红点,默认是开启的。然后要安装python及其配件,安装python挺简单的,下个pkg包,按流程装装;py原创 2016-12-28 18:50:44 · 775 阅读 · 0 评论 -
教你设置jupyter服务器的密码
今天刚跟着台湾老师用 pip install jupyter 装了著名的jupyter服务器,也用jupyter notebook命令打开了一个网页,开启爬虫新篇章。但是我有一个问题,我的默认浏览器是Safari,但开发者工具多是chrome的好用,所以我希望能把这个notebook放到chrome里面去。好,我就复制URL到chrome里面,发现它竟然要问我填密码!那么密码是什么啊,我不知道哈!我原创 2016-12-28 19:39:52 · 31137 阅读 · 2 评论