
爬虫
文章平均质量分 62
_斑
这个作者很懒,什么都没留下…
展开
-
python爬虫学习第三节:BeautifulSoup模块
1:beautifulsoup模块作用是为了完成爬虫工作中的解析数据和提取数据 2:我们平时用浏览器上网,浏览器会把服务器返回的html源代码翻译为我们能看动的样子,之后我们才能在网页上做各种操作,爬虫工作也是一样,要使用能读懂html的工具,才能提取想要的数据 3:beautifulsoup如何解析数据: 这里面的解析器,python由一个内置的库:html.parser(他不是唯一的解析器) 解析代码结构为: 在第6行代码中,第一个参数必须是字符串,到这里,我们就完成了数据解析,且把解析到的数据转换成原创 2021-01-31 15:06:31 · 557 阅读 · 0 评论 -
python爬虫学习第二节:html基础
1:HTML的学习顺序,读懂,修改,编写,只有读懂了HTML才能看的懂网页的结构,而看懂网页的结构,是获取数据最关键的一步,如果你不知道自己需要的数据在网页的什么地方,那你怎么获取呢 2:html叫做超文本标记语言,专业用于编写前端的语言 html之于网页,就相当于建筑图纸之于建筑 3:如何查看网页的源代码:又两种方式 这种方法打开的网页源代码结构不清晰,很难看懂,另一种方式是 快捷键:ctrl+shift+i 4:HTML的层级 每一个小三角就是一个层级 5:HTML的组成:标签和元素,如图 每一对<原创 2021-01-30 21:46:03 · 168 阅读 · 0 评论 -
python爬虫学习第一节:获取数据
1:浏览器工作原理:我们输入要访问的网址(URL)-浏览器向服务器发出请求,服务器响应浏览器,把数据给浏览器,浏览器再解析数据,然后返回给我们,我们提取自己需要的数据,然后存储起来,这就是整个流程 2:爬虫的工作原理:爬虫向浏览器发起请求,浏览器返还数据给爬虫,爬虫解析数据,解析数据,提取数据,存储数据 第一步:获取数据:爬虫程序根据我们提供的网址,向服务器发起请求,然后返回数据 第二步:解析数据:爬虫程序把服务器返回的数据解析成我们能读懂的格式 第三步:提取数据:爬虫程序从解析的数据中原创 2021-01-30 20:37:25 · 301 阅读 · 0 评论