用户代理:
1.user agent是告诉服务器客户端可以接受怎么样的请求,实际上是告诉客户端可以接受怎么样的数据内容.
将数据从网页上爬取并且写入到excle表中。
代码分析
findLink = re.compile(r’’),这是匹配的规则
这是查找的代码,r代表忽略网址上的特殊符号,就是把转义字符忽略掉,.代表一个字符,*代表多个字符,?前面一个字符0次或1次扩展,并且网址是在标签内,所以加上了左括号和右括号。
这都是正则表达式
学习网址:
http://www.6868128.com/
4.beautifulsoup(bs4)
1.标签
tag:返回< >里面的所有内容
string:返回内容的文本值
beautifulsoup:返回一个文档