爬虫
程序猿蓝桉
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
xpath定位问题导致的数据缺失,selenium点击事件点击失败
问题描述:近日在抓取某网站的时候,遇到一个第三方的数据加密,由于破解成本较高,选择使用selenium进行抓取数据。在写完抓取脚本运行时候,发现脚本总会报错:selenium.common.exceptions.NoSuchElementException: Message: no such element: Unable to locate element: {"method":"xpath","selector":"//span[contains(text(), '123565677')]"原创 2020-07-29 09:44:04 · 2218 阅读 · 0 评论 -
scrapy 利用pymysql批量插入数据
最近在写爬虫爬取APP的时候通过scrapy的pipelines插入数据库,返回一次item 便插入一条数据,发现运行速度非常慢,一天只爬取了几万条数据。之前记得学习爬虫时,老师曾经提过,每条数据都插入会造成爬取速度非常慢。 所以我改进了一下自己的代码,选择批量插入数据库。每次往数据库中写入1000条数据,代码运行效率有大幅度的提升。本次使用的scrapy+pymysql...原创 2019-03-28 13:50:52 · 2362 阅读 · 1 评论 -
requests下载文件
在某些特定的爬虫需求中,我们难免要去下载爬到的下载链接,这里经过自己的实验后确定了一个可行的方案如下:import requests#抓到的下载链接url = 'http://duokoo.baidu.com/game/?pageid=Hdkicssp&p_tag=1702182'#将请求到内容写入到文件当中with open("a.apk", "wb") as f: ...原创 2019-04-25 18:07:37 · 3367 阅读 · 0 评论 -
关于urllib几个提取url方法的用法以及局限性。
以下所有的代码均是是python3.6环境运行1、提取url的类别 import urllib.requestd = urllib.request.splittype("https://www.baidu.com//")print(d)a = urllib.request.splittype("https://www.baidu.com")print(a)('http...原创 2019-05-08 18:09:26 · 1176 阅读 · 0 评论 -
反编译微信小程序 获取微信小程序JS和CSS
本文参考博客:https://www.cnblogs.com/teamemory/p/10873699.html https://baijiahao.baidu.com/s?id=1626150833428399320&wfr=spider&for=pc工具:夜神模拟器,微信,RE文件管理器, QQ, node.js...原创 2019-07-22 11:55:15 · 2423 阅读 · 0 评论
分享