- 博客(31)
- 收藏
- 关注
原创 appium的一些问题
activity不是启动的activity,更换为启动页的activity就好了。adb logcat |findstr-i displayed命令获取。
2022-12-29 00:28:58
183
原创 得到APP结合mitmproxy
mitmdump可以与Python结合编写实时的爬虫,这种方式更适合抓取App的数据,而且mitmweb工具可以实现可视化监听请求...
2022-12-23 22:25:23
193
原创 爬虫笔记 for Splash
例子:利用splash Lua脚本在京东商城搜索商品,然后抓取搜索出的商品名称,以及将每一页搜索结果的截图保存为PNG格式得文件。
2022-12-19 23:03:38
268
原创 基于splash的爬虫_01
Python可以通过HTTP API调用Splash内部的功能,与Lua代码进行交互。是一个JavaScript渲染服务,带有HTTP API的轻量级浏览器。Splash在安装在Docker上,首先要安装docker。安装Splash并启动,如果是linux加sudo。可以使用Lua语言编写代码对页面进行渲染。
2022-12-10 22:21:13
252
原创 爬虫之Selenium
运行本例之前,需要将chromedriver或chromedriver.exe文件放在当前目录的webdriver子目录中。运行程序,会立刻启动Chrome浏览器,并打开京东首页,然后在京东首页上方的搜索框中输入“Python从菜鸟到高手”WebDriverWait类,该类是为了在执行的过程中等待一段时间,这里设置为4秒。、按Enter键后,并不一定马上显示搜索结果,需要有一定的延长,但python程序不会等待搜索结果出来再往下执行,python程序会一直执行下去,所以如果不等待一定时间,就会造成pytho
2022-12-07 21:07:20
1103
原创 爬虫笔记_10
豆瓣电影T250保存在SQList数据库使用xpath和正则表达式PS:xpath的string(.)方法取出嵌套节点内的文本内容结果:
2022-12-05 23:14:24
127
原创 数据库储存 for MongoDB
非关系型数据库MongoDB是文档数据库,所有的数据以文档形式储存例如:如果要保存博客和相关的评论,使用关系型数据库,需要至少建立两个表:t_blogs和t_comments。前者用于保存博文,后者用于保存与博文相关的评论,然后通过键值将两个表关联,t_blogs和t_comments通常是一对多的关系。直接将博文以及博文下的所有评论放在一个文档中储存,也就是将相关的数据都放在一起,无须关联,查询速度更快。与关系型数据库类似,都需要先连接数据库、创建表、查询数据等只不过MongoDB数据库没有表的概率,一
2022-12-04 17:06:20
248
原创 数据库存储 for MySQL
mysql是关系型数据库以下几个函数和方法,绝大多数数据库都可以操作使用connect函数:连接数据库,根据连接的数据库类型不同,该函数的参数也不同。connect函数返回Connecting对象。cursor方法:获取操作数据库的Cursor对象。cursor方法属于Connecting对象。execute方法:用于执行sql语句,该方法属于Cursor对象。commit方法:在修改数据库后,需要调用该方法提交对数据库的修改,commit方法属于Cursor对象。rollback方法:如果修改数据库失败,
2022-12-04 12:33:23
385
原创 数据库存储 for SQList
SQList是一款开源,小巧,零配置的关系型数据库,现在运行的安卓,ios基本都是使用SQList数据库作为本地存储方案,有一些需要储存在本地的数据,虽然可以用xml,json等格式保存数据,但是不利于检索,因此将它们保存在SQList数据库中.是本地储存的最佳方案PS:在对数据进行增删改查之前,要想使用connect函数打开SQList数据库,通过cursor方法获取sqlist3.Cursor对象,通过sqlist3.Cursor对象的execute方法执行各种sql语句如果执行查询语句(select)
2022-12-03 23:57:18
242
原创 文件存储_笔记
open函数:open(文件路径,文件模式)'t'文本模式(默认,可以添加到其他模式)'+'读写模式(必须与其他模式一起使用)'b'二进制模式(可以添加到其他模式)'x'排他的写模式(只能用户写)'r' 读模式(默认)
2022-11-30 21:33:07
344
原创 Pyquery库_02
1)用pyquery查询节点时,如果需要指定多个样式,每个样式前面需要加点(.),而且多个样式要首尾相续,中间不能有空格。add_class方法可以向节点的class属性添加样式,remove_class可以从节点的class属性移除样式。2)添加和删除样式时,样式名不能带点(.),否则会将(.)作为样式名的一部分添加到class属性中。4)如果需要操作多个节点,add_class和remove_class方法对所有节点有效。3)添加和删除多个样式时,多个样式之间用空格分隔。如果多个样式,中间用空格隔开。
2022-11-26 21:44:05
326
原创 Pyquery库_01
运行发现报错了: 'gbk' codec can't decode byte 0xac in position 256: illegal multibyte sequence。pyquery包中包含一个PyQuery类,使用PyQuery前先导入该类,创建PyQuery类的实例。可以使用(字符串、URL、文件)来将HTML文档传入PyQuery对象。于是我把demo.html格式先处理一下,把他变成字符串的形式。尝试把demo.html里面中文改成英文,则运行成功。前面文章定义了demo.html文件。
2022-11-26 15:34:33
95
原创 爬虫笔记_06
BeautifulSoup提取信息。获取酷狗音乐抖音热歌榜前3页数据。关键信息:排名,歌手,歌名,时长。使用requests抓取。保存在excel表格。
2022-11-25 23:37:04
127
原创 Beautiful Soup_02
soup.li.attrs['value2']或者soup.li['value2']获取的属性值是一个字符串,而xpath是列表。previous_siblings属性获得当前节点前面的所有兄弟节点(可迭代对象)节点选择器直接通过节点的名称选择节点,然后使用string属性得到节点内的文本。next_siblings属性获得当前节点后面的所有兄弟节点(可迭代对象)previous_sibling属性获得当前节点的上一个兄弟节点。next_sibling属性获得当前节点的下一个兄弟节点。
2022-11-17 23:29:12
774
原创 lxml与xpath_03
以两个斜杠(//)开头的xpath规则会选取所有符合要求的节点.如果使用'//*',那么会选取整个HTML文档中所有的节点,其中星号(*)表示所有的节点.当然,'//'后面还可以跟更多的规则,如,要选取所有的节点,可以使用'//li'准备一个demo.html文件。
2022-11-07 23:00:11
238
原创 lxml与xpath_02
不同点:xml只有节点,html有节点并且有任何文本。读取并且分析html文件代码。操作html与xml类似。准备一个html文件。
2022-11-06 23:12:55
153
原创 爬虫笔记01
爬取小说from urllib import requestimport refrom lxml import etreeheaders={'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/107.0.0.0 Safari/537.36'}def getCatelogs(url): req=request.Request(url=url
2022-11-02 09:58:49
98
空空如也
python _thread问题
2023-01-05
谷歌表格正则表达式的问题
2023-01-04
mitmproxy报错No module named '_sqlite3'
2022-12-22
Lua脚本关于print的问题
2022-12-21
启动splash失败
2022-12-09
使用beautifulsoup,无法获取想要的文本信息
2022-11-24
TA创建的收藏夹 TA关注的收藏夹
TA关注的人