- 博客(64)
- 资源 (1)
- 问答 (2)
- 收藏
- 关注

原创 复习C语言过程中的总结与思考(万字长文 + 思维导图,建议收藏)
笔者基于《龙哥教你学C语言》、《C陷阱与缺陷》补充一些C语言的问题和之前学习没有注意到的地方。
2023-02-20 17:20:41
3535
1
原创 Linux 练习二 (VIM编辑器 + GCC编译器 + GDB调试)
针对VIM编辑器、GCC编译器和GDB调试的使用和总结。思维导图+注解截图。
2023-02-26 11:16:12
993
原创 爬虫高级应用(14. 可见即可爬Selenium)
本章主要内容1、安装Selenium和WebDriver2、Selenium的基本使用方法3、查找节点4、节点交互5、管理Cookie6、执行JavaScript代码7、改变节点属性值Selenium的主要功能:1、打开浏览器2、获取浏览器页面的特定内容3、控制浏览器页面上的空间,如向一个文本框输入一个字符串4、关闭浏览器14.1 first_selenium第一个案例使用selenium之前需要先下载浏览器驱动,chromedriver下载地址不仅chrome浏览器的驱动
2022-04-13 16:35:34
1669
原创 数据结构 第3章 栈和队列
第三章 栈和队列数据结构—栈思维导图错题集数据结构—队列思维导图错题集数据结构—栈思维导图错题集3.1.4 8.向一个栈顶指针为top的链栈(不带头结点)中插入一个x结点,则执行( )A top->next=x; B x->next=top->next; top->next=x;C x->next=top; top=x; D x=top->data; top=top->next;正确答案:C题目分析:注意一个点(不带头结点)。典型头插法,让新
2022-04-12 22:46:44
1614
原创 爬虫高级应用(13. 抓取异步数据)
抓取异步数据主要内容:关于异步传输AJAX什么是AJAX?AJAX基本原理AJAX服务端请求数据案例实战案例:抓取京东图书评价主要内容:什么是异步数据加载AJAX的基本概念如何获取异步数据使用的URL抓取异步数据项目实战:分析京东商城图书评论数据,并抓取这些数据关于异步传输AJAX什么是AJAX?1、异步,请求和下载异步,不占用主线程,即使加载数据缓慢,不会出现页面卡顿2、传输数据的格式,XML->JSONAJAX基本原理发送请求,Web端页面中实现业务逻辑与页面交互的
2022-04-09 17:13:28
2241
1
原创 爬虫数据存储(12. 数据库存储)
Mysql数据操作方法pymysql常用方法和参数打开数据库创建Person表插入数据查询记录调用上述方法pymysql常用方法和参数connect方法:连接数据库,根据连接的数据库类型不同,该函数参数也不同,赶回Connection对象cursor方法:获取操作数据库的Cursor对象。cursor方法属于Connection对象execute方法:用于执行SQL语句,该方法属于Cursor对象commit方法:在修改数据库后,需要调用该方法提交对数据库的修改,connmit方法属于Curso
2022-04-09 15:12:48
929
原创 爬虫数据存储(11. 文件存储)
文件存储内容概括11.1 write_file 写入文件open函数和使用方法实操案例:11.2 read_write_lines文件读写行操作方法:实操案例:11.3 fileput_demo另一种文件操作方法操作方法:实操案例:11.4 read_search_xml读取XML文件操作方法:实操案例:11.5 dict to xml 字典转xml文件方法操作方法:实操案例;11.6 xml to dict xml文件转字典类型操作方法:实操案例:11.7 json to dict JSON字符串转字典操
2022-04-08 17:36:55
1723
原创 爬虫解析库(9.Beautiful Soup)
Beautiful Soup解析库Beautiful Soup章节介绍Beautiful Soup的解析横向对比9.1 bs获取文本和属性方法9.2 选择节点方法selectnode9.3 allchildnodes获取子节点和子孙节点9.5 parentnodes父节点9.6 sibling兄弟节点9.7 find_all_name根据名字查找节点9.8 find_all_attrs根据属性查找节点9.9 find_all_text根据部分文本内容获取节点内容9.10 find方法9.11 CSSSele
2022-04-05 15:34:15
645
原创 爬虫解析库(8. lxml和XPath)
一、内容介绍尽管正则表达式很厉害,但是写出功能强大的正则表达式不容易,而且遇到不同的页面就要重写,难以维护(确实)Xpath非常容易理解的路径方式选择XML和HTML中的节点,容易维护和编写本章主要内容: 1、安装lxml 2、用lxml操作XML和HTML文档 3、XPath的基本概念 4、用XPath选取节点(所有节点、子节点、父节点等) 5、用Xpath匹配和选取属性 6、按序选取节点 7、节点轴 8、实战案例,演示使用reque
2022-04-03 17:35:36
693
原创 爬虫解析库(7. 正则表达式)
正则表达式正则表达式一、正则表达式的简介二、内容介绍三、干货7.1 match_group7.2 match和select方法7.3 SelectOne择一匹配符号"|"7.4 MatchAny7.5 CharSet字符集7.6 SpecificSymbol特殊匹配7.7 group分组匹配7.8 start和end-匹配单词的开始和结束7.9 findall函数7.10 sub函数和subn函数的替换和搜索7.11 split分割7.12 三种常用的匹配格式最终案例:糗事网笑话合集抓取正则表达式Tip
2022-04-01 22:39:18
909
原创 爬虫网络库(5.requests网络库)
这里写目录标题Request网络库介绍5.1 request使用案例15.2 get方法5.3 设置请求头headers5.4 get_binary方法5.5 使用post方法发送post请求5.6 response请求响应结果5.7 uploadfile上传文件5.8 设置Cookie5.9 使用Session对象5.10 SSL签名证书5.11 proxy设置HTTP/HTTPS的代理5.12 Timeout超时5.13 BasicAuth(HTTP Auth)5.14 Request对象封装打包拓展:
2022-03-31 15:11:54
1356
原创 爬虫网络库(4.urllib3网络库)
urllib侧重于URL的请求构造urllib2侧重于HTTP请求的处理urllib3服务于升级的HTTP1.1标准,且拥有高效HTTP连接池管理以及HTTP代理服务的功能库urllib3内容:1、线程安全2、连接池3、客户端SSL/TLS验证4、使用Multipart编码上传文件5、协助处理重复请求和HTTP重定位6、支持压缩编码7、支持HTTP和SOCKS代理8、100%测试覆盖率4.1 sendrequest发送请求引用urllib3模块,创建PoolManager类实例
2022-03-30 21:43:24
1496
原创 爬虫网络库(3.urllib网络库)
urllib基础知识urllib四个模块 1、request: 最基本的HTTP请求模块,可以用来发送HTTP请求,并接收服务端的相应数据。就像输入网址敲回车 2、error: 异常处理模块,如果出现请求错误可以捕捉异常,然后根据实际情况,重试或者忽略 3、parse: 工具模块,提供了很多处理URL的API,如拆分、解析、合并等 4、robotparser: 只要用来识别网站的robots文件,然后判断哪些网站可以抓取,那些网站不能抓取Request类构造方法参数的作用: 1、u
2022-03-26 22:52:02
1395
2
原创 Python爬虫技术深入(1.1 爬虫基础)
爬虫基础知识爬虫类型 按抓取范围分类 1、全网爬虫:用于抓取整个互联网的数据,主要用于搜索引擎(Google、Baidu)的数据源 2、站内爬虫:与全网爬虫相似,主要用于爬取站内的网络资源。主要用于企业内部搜索引擎的数据源。 3、定向爬虫 按抓取内容和方式分类 1、网页文本爬虫 2、图像爬虫 3、js爬虫 4、一步数据爬虫(json、xml),主要抓取基于AJAX的系统的数据 5、抓取其他数据的
2022-03-26 20:49:34
552
原创 win10下启动mitmproxy方法
最近想学习一下抓取app的内容,安装了mitmproxy包(pip方法),给手机和电脑都配置了mitmproxy代理协议,然后不知道怎么启动,烦恼了一天,去了stackoverflow和博客上看了很多文章问题还是没有解决。然后在搜索栏中输入mitmproxy,它出现了。就很无语,然后启动了一下没反应,百度一下原因是mitmproxy不支持windows系统,但是mitmweb支持,于是。。双击一下,出现了这样就算是启动成功了。有啥问题后面再补充。...
2022-02-06 16:21:20
1403
1
原创 Scrapy项目报错:no model name ‘xx.setting‘
折腾了两三天,快放弃这个框架了,重装了pycharm2021版本,重装了各种包,还是不行。我反复检查settings.py中的设置,甚至还读了源码,找了各种解答,都没有解决。着急上火的时候,改了一下文件名,再试试就行了,就挺傻宝的。原来的文件名:带有数字、空格和小数点新文件名:然后就好了,可以运行了思考了一下原因,可能是框架的文件识别方式,找不到这个文件名了,所以最好还是用全英文和下划线(_)的命名方式比较保险。说不定你也是因为命名的问题。我的项目是新建的,简单的项目,不太会因为文件夹路径
2022-01-25 11:23:48
1136
原创 使用scrapy框架进行爬虫时,报出异常:NotImplementedError: Test1Spider.parse callback is not defined
这种错误类型今天第一次使用Scrapy框架,就出现了,找了很多博客中的解决方法,还是不能访问,改了一下execute.py文件的位置就ok了如图:书上说这三个位置放置execute.py文件都可以,我把文件放在第二个目录下,就不会抛出异常错误了。下面总结一下,出现这种错误的解决方法:1、修改execute.py文件的位置2、类继承scrapy父类CrawlSpider。# class Test1Spider(scrapy.Spider):from scrapy.spiders import
2022-01-22 21:25:43
1598
原创 如何获取json的payload内容,并爬取网易云的python课程信息
爬虫案例:网易云Python课程昨天写了一个案例,用json数据去爬取网易云课堂的课程内容,使用了payload和headers,但是网页内容太多,payload很难找到。找一下网页内容,按F12进入开发者模式:给出代码:FileName = "制表"''''''import requestsimport xlsxwriterdef get_json(index): data = ''' 爬取课程的json数据 :param index:当前索引,从0开始
2021-05-20 09:15:26
1393
关于OPC-UA在32位和64位下无法添加对象结点的问题
2023-09-06
myeclipse中使用c3p0的登录注册操作为什么连接不上数据库?
2020-08-25
TA创建的收藏夹 TA关注的收藏夹
TA关注的人