
Crawler
SaoYear
音频AI方向在读PhD 欢迎随时交流
展开
-
Python的爬虫学习笔记本(二)Urllib库使用
Urllib库详解 Urllib:是请求库,提供了强大的处理函数;Python内置的HTTP请求库 urllib.request # 请求模块 urllib.error # 异常处理模块 urllib.parse # url解析模块 urllib.robotparser # robots.txt解析模块 重点前三个模块,第四个用的少了 urlopen urllib.req...原创 2019-01-24 13:26:00 · 251 阅读 · 0 评论 -
Python的爬虫学习笔记本(一)爬虫的基本原理
NLP的任务往往需要大量的语料库作为数据集,而尽管现有的许多任务上都有固定的数据集,但还是在很多方面存在着欠缺。为了弥补这个欠缺,网上的大量免费的文本信息就需要通过爬虫爬下来。由此开始了爬虫的学习。 爬虫学习之: 爬虫的基本原理 爬虫:请求网站并提取数据的自动化程序。 请求:鼠标点击网页资源;程序实现; 提取:资源——HTML代码 - 资源包含在文本中 -> 从文本中提取想要的信息 ...原创 2019-01-24 10:52:50 · 631 阅读 · 0 评论