爬虫
MFJ_AC
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
爬虫第四课,xpath
持久化:将数据保存到硬盘上。序列化:将一个类保存文件中,叫序列化反序列化:从一个文件中读取出一个类。=======================================================1.什么是xml。(1)定义:xml称为可扩展标记性语言。(2)特点:xml具有自描述特性。是一种半结构化数据。(3)作用:xml的设计宗旨是用来传输数据。2.xml和htm...原创 2019-10-30 21:51:57 · 207 阅读 · 0 评论 -
爬虫第三课,正则
标题1.cookie和session1.产生的原有:由于http是一个无状态的协议,每次请求如果需要之前请求的一些信息,此时必须重发送之前的请求。为了解决这种问题,产生了一种记录状态技术—就是cookie和session。2、cookie是在客户端记录状态。session是在服务端记录状态。3、在做爬虫的时候,如果要实现登录,只需要将浏览器中登录后的cookie信息封装到请求头中就可以实现...原创 2019-10-29 21:18:54 · 312 阅读 · 0 评论 -
爬虫第二课requests模块
斐波那契数列指的是这样一个数列:1、1、2、3、5、8、13、21、34、……在数学上,斐波那契数列以如下被以递推的方法定义:F(1)=1,F(2)=1, F(n)=F(n-1)+F(n-2)(n>=3,n∈N*)def F(n):if n 1 or n2:return 1return F(n-1)+F(n-2)求一个list的最大值和最小值,用递归的方法。返回值是一个元组,(ma...原创 2019-10-29 21:11:51 · 229 阅读 · 0 评论 -
爬虫第一课
1.网络爬虫的定义: 一个程序脚本—>自动的抓取互联网上信息的脚本。2、爬虫可以解决的问题:(1)解决冷启动问题。(2)搜索引擎的根基:做搜索引擎少不。(3)建立知识图谱,帮助建立机器学习知识图谱。(4)可以制作各种商品的比价软件,趋势分析。初级爬虫工程师1.web 前端的知识: HTML、CSS、JavaSc1ipt、 DOM、 DHTML 、Ajax、jQuery、js...原创 2019-10-29 21:09:21 · 298 阅读 · 0 评论
分享