
Python爬虫
云原生AI百宝箱
行万里路,此处相逢,共话云原生A之道。偶逗趣事,明月清风,与君同坐。已出版《Kubernetes:云原生与容器编排实战》,将出版《A大模型原理与场景应用》
展开
-
urllib:爬取贴吧静态数据
所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地。 在Python中有很多库可以用来抓取网页,其中最常用的就是urllib。urllib库的基本使用urllib提供了一系列用于操作URL的功能。 urllib库是用于操作URL,爬取页面的python第三方库,同样的库还有requests、httplib2。 在Python2.X中,分urllib和u...原创 2018-11-06 08:15:47 · 6240 阅读 · 2 评论 -
Python中文分词--jieba的基本使用
中文分词的原理1、中文分词(Chinese Word Segmentation) 指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新组合成词序列的过程2、现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法基于字符串匹配的分词方法:这种方法又叫做机械分词方法, 它是按照一定的策略将待分析的汉字串与一个“...转载 2017-09-02 08:13:14 · 18332 阅读 · 0 评论 -
Python爬虫-正则表达式
1.正则表达式的符号与方法常用符号:点号,星号,问号与括号(小括号). :匹配任意字符,换行符\n除外 * :匹配前一个字符0次或无限次 ? :匹配前一个字符0次或1次 .* :贪心算法 .*? :非贪心算法 () :括号内的数据作为结果返回常用方法:findall, search, subfindall:匹配所有符合规律的内容,返回包含结果的列表 search:...转载 2017-07-10 18:48:22 · 12820 阅读 · 0 评论 -
基于Python2.7和Scrapy, 爬取豆瓣9分榜单
现在scrapy的安装教程都明显过时了,随便一搜都是要你安装一大堆的依赖,什么装python(如果别人连python都没装,为什么要学scrapy....)wisted, zope interface,pywin32.........现在scrapy的安装真的很简单的好不好! 代码我放github上了,可以参考: https://github....转载 2017-07-08 08:41:24 · 14071 阅读 · 0 评论 -
Python中-Beautiful Soup库的基本使用
1. Beautiful Soup的简介简单来说,Beautiful Soup是python的一个库,最主要的功能是从网页抓取数据。官方解释如下: Beautiful Soup提供一些简单的、python式的函数用来处理导航、搜索、修改分析树等功能。它是一个工具箱,通过解析文档为用户提供需要抓取的数据,因为简单,所以不需要多少代码就可以写出一个完整的应用程序。 Beautiful S...转载 2017-09-02 21:11:31 · 12411 阅读 · 0 评论 -
python爬虫实战二——股票数据定向爬虫【有补充】
功能简介目标: 获取上交所和深交所所有股票的名称和交易信息。输出: 保存到文件中。技术路线: requests---bs4--re语言:python3.6说明 网站选择原则: 股票信息静态存在于html页面中,非js代码生成,没有Robots协议限制。 选取方法: 打开网页,查看源代码,搜索网页的股票价格数据是否存在于源代码中。 如打开新浪股票网址:链接描述[htt...转载 2017-10-06 19:18:34 · 2326 阅读 · 0 评论 -
Selenium和PhantomJS:模拟用户在浏览器中的操作
SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏,或者判断网站上某些动作是否发生。...原创 2018-10-28 11:44:12 · 8565 阅读 · 0 评论 -
Selenium:模拟用户点击(读取并执行本地文件中的URL链接)
Python环境3.6.1本地URL链接文件https://blog.youkuaiyun.com/fly910905/article/details/83418623https://blog.youkuaiyun.com/fly910905/article/details/83417911https://blog.youkuaiyun.com/fly910905/article/details/8314426...原创 2018-10-28 13:46:43 · 8777 阅读 · 0 评论 -
Scrapy :爬取培训网站讲师信息
Scrapy 框架Scrapy是用纯Python实现一个为了爬取网站数据、提取结构性数据而编写的应用框架,用途非常广泛。框架的力量,用户只需要定制开发几个模块就可以轻松的实现一个爬虫,用来抓取网页内容以及各种图片,非常之方便。Scrapy 使用了 Twisted['twɪstɪd](其主要对手是Tornado)异步网络框架来处理网络通讯,可以加快我们的下载速度,不用自己去实现异步框架...原创 2018-11-09 10:49:34 · 6349 阅读 · 2 评论 -
Selenium:动态页面模拟点击
Selenium:动态页面模拟点击 SeleniumSelenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,类型像我们玩游戏用的按键精灵,可以按指定的命令自动操作,不同是Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器(包括PhantomJS这些无界面的浏览器)。Selenium 可以根据我们的指令,让浏览器自动加载页面,获取需要的数据,甚至...原创 2018-11-06 19:53:41 · 31588 阅读 · 3 评论 -
BeautifulSoup4:抓取腾讯社招页面的招聘信息
Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。正则、Beautiful Soup、lml对比lxml 只会局部遍历,而Beautiful Soup 是基于HTML DOM的,会载入整个文档,解析整个DOM树,因此时间和内存开销都会大很多,所以性能要低于lxml。 BeautifulSoup 用来解析 HTML 比较...原创 2018-11-06 19:10:09 · 6441 阅读 · 0 评论 -
XPath:爬取百度贴吧图片,并保存本地
使用XPath,我们可以先将 HTML文件 转换成 XML文档,然后用 XPath 查找 HTML 节点或元素。什么是XMLXML 指可扩展标记语言(EXtensible Markup Language) XML 是一种标记语言,很类似 HTML XML 的设计宗旨是传输数据,而非显示数据 XML 的标签需要我们自行定义。 XML 被设计为具有自我描述性。 XML 是 W3C 的...原创 2018-11-06 18:37:03 · 7019 阅读 · 0 评论 -
urllib:Post方式爬取AJAX加载的数据
Request请求对象的里有data参数,它就是用在POST里的,我们要传送的数据就是这个参数data,data是一个字典,里面要匹配键值对。POST请求:代码模板导入request模块import urllib.request代码模板# 首先对data进行转码,转化成str类型data = urllib.parse.urlencode(data) # post请求只...原创 2018-11-06 11:59:36 · 6989 阅读 · 0 评论 -
Tesseract:识别知乎网站登录验证码
机器视觉从 Google 的无人驾驶汽车到可以识别假钞的自动售卖机,机器视觉一直都是一个应用广 泛且具有深远的影响和雄伟的愿景的领域。我们将重点介绍机器视觉的一个分支:文字识别,介绍如何用一些 Python库来识别和使用在线图片中的文字。我们可以很轻松的阅读图片里的文字,但是机器阅读这些图片就会非常困难,利用这种人类用户可以正常读取但是大多数机器人都没法读取的图片,验证码 (CAPTC...原创 2018-11-07 19:57:36 · 7473 阅读 · 0 评论