
爬虫
AlexMYH
这个作者很懒,什么都没留下…
展开
-
Python爬虫知识点学习流程(由浅入深)
1.python基础基础包括python语法基础,变量,循环嵌套等等,可以在菜鸟python菜鸟教程2. 基本库入门一般用到urllib和urllib2即可3.正则表达式正在表达式用于匹配网页中所需要的元素,可到我之前写的30分钟入门正则表达式学习。4. 网页抓取框架最常用框架scrapy5.高级爬虫...原创 2018-05-20 02:04:05 · 3403 阅读 · 3 评论 -
正则表达式30分钟入门笔记
最近需要用到java爬取网页数据,学了下正则表达式基础,做下笔记。1: \b是正则表达式规定的一个元字符,代表着单词的开头或结尾,也就是单词的分界处。如果要精确地查找hi这个单词的话,我们应该使用\bhi\b 2:.是另一个元字符,匹配除了换行符以外的任意字符 3:*同样是元字符,它代表的不是字符,也不是位置,而是数量——它指定*前边的内容可以连续重复使用...原创 2018-05-15 22:25:49 · 2333 阅读 · 0 评论