
爬虫基础
张愿斌
这个作者很懒,什么都没留下…
展开
-
数据清洗之四:regex
一、正则表达式的基础知识正则表达式(regular expression)是一种处理字符串的工具,功能十分强大。正则表达式使用预定义的特定模式去匹配一类具有共同特征的字符串,主要用于字符串处理,可以快速,准确地完成复杂的查找,替换等处理要求。二、python中re模块提供的函数re.searchre.matchre.fullmatchre.splitre.findallre.fi...原创 2019-10-30 19:52:52 · 147 阅读 · 0 评论 -
数据清洗之三:css选择器
一、css选择器介绍html上的元素的表现形式是通过css选择器一对一或者一对多选定,然后定义的。如:p{color:red}就是所有p标签的内容字体都是红色。二、常见用法类选择器:元素的class属性,比如class="box"表示选取class为box的元素;ID选择器:元素的id属性,比如id="box"表示选取id为box的元素;元素选择器:直接选择文档元素,比如p表示选择所有的...原创 2019-10-30 18:05:09 · 658 阅读 · 0 评论 -
数据清洗之二:BeautifulSoup
BeautifulSoup为一个python的数据清洗库。一、初始化初始化即把string格式的内容转化为可分析的xml格式语言。B的初始化和xpath有点像。Xpath为:tree=etree.HTML(strintg).BeautifulSoup为:soup=BeautifulSoup(string,‘lxml’)二、找到标签2.如何定位到一个标签:从长辈找起,可以通过属性attr...原创 2019-10-30 17:21:25 · 888 阅读 · 0 评论 -
数据清洗之一:xpath
首先,区别于Beautiful的是,xpath是一门语言,不是一个库。这门语言带有80多个自带的函数。xpath是一门专注于在xml、html文档中选取节点的语言。一、选取节点如果html文档是一棵树的话,节点就是你在于哪个树杈子。默认的为总干,即html。该如何选取节点呢?选取节点有三中方式:一序列、二属性、三值(一)通过序列序列中提供了以下几个函数:last(),position(...原创 2019-10-30 16:50:23 · 530 阅读 · 0 评论 -
selenium+cookie=crossing_login
selenium模拟浏览器进行测试时遇到有些网站要求登录才能够继续访问,登录的时候又需要验证码或者扫码等,操作起来比较麻烦。访问时加上cookie就表明你已经是登录的用户了,可以绕过登录这一步。关于cookie,可以这么简单的解释。htttp是无状态的,服务器为了辨别用户的信息,在登录时会在服务器添加一个session会话并且保存在服务端。再把session_id作为cookie发给客户端。浏览...原创 2019-10-23 18:20:39 · 235 阅读 · 0 评论 -
爬取简单的AJAX数据
现在传统的静态网页(所有数据都写入DOC,一次性加载完毕)几乎已经没有了。网站并不把所有数据写入DOC中,而是通过AJAX和服务器进行异步的数据交流(请求和响应),再把得到的数据加载在页面中。如果我们能获得AJAX所发出的请求url,就可以直接得到数据。对于没有加密的数据接口,数据非常好获取。只有分析得到存放数据的uri就可以直接获取。比如获取今日头条的新闻:import jsonimport...原创 2019-10-22 15:45:01 · 246 阅读 · 0 评论