
爬虫
Johnny_sc
这个作者很懒,什么都没留下…
展开
-
【企业级推荐系统实践】Scrapy爬虫爬取新浪数据
实现目标:1. 通过scrapy框架爬取新浪五个分类主页的数据信息2. 并实现持久化存储进mysql数据库主要技术路线:scrapy,selenium,webdriver,datetime,re,python的orm框架sqlalchemy一、爬虫框架scrapycmd命令行创建scrapy爬虫项目:scrapy startproject sina sina.comcd进入 sina文件夹创建爬虫spider:scrapy genspider sina1二、编写spider单个s原创 2020-08-21 22:19:56 · 514 阅读 · 0 评论 -
【Python爬虫学习】股票基金数据定向爬虫
功能描述目标:获取上交所和深交所所有股票的名称和交易信息输出:保存到文件中技术路线:requests bs4 re候选数据网站的选择选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制选取方法:浏览器F12,源代码查看等选取心态:不要纠结于某个网站,多找信息源尝试程序的结构设计步骤1:从东方财富网获取股票列表(2020年也改存在js了)我们这里选取其他网页(天天基金网)步骤2:根据股票列表逐个获取个股信息原创 2020-07-25 01:41:53 · 639 阅读 · 0 评论 -
【Python爬虫学习】中国大学排名网页爬虫实战
功能描述:定向爬取中国大学排名网页的排名信息,包括学校名称,学校排名,所在省市技术路线:requests——bs4(BeautifulSoup)核心操作:1.熬制一锅汤soup = BeautifulSoup(html,“html.parser”)2. soup.find(‘tbody’).children:在html页面中发现大学排名信息都存在:tbody标签下的名为’td’的tr标签中。找出包含所有tbody下的tr标签3. 用isinstance()判断类型:tr标签有的是Tag类原创 2020-07-23 01:09:25 · 268 阅读 · 0 评论 -
【Python爬虫学习】淘宝商品比价爬虫实战
功能描述目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格。理解:淘宝的搜索接口翻页的处理技术路线:requests re程序的结构设计步骤1:提交商品搜索请求,循环获取页面步骤2:对于每个页面,提取商品名称和价格信息步骤3:将信息输出到屏幕上爬取时需要模拟淘宝登录信息#cookie的获取方法:打开淘宝商品页面,登录你的淘宝账号——F12进入浏览器的开发者调试工具,点击Network,重新刷新页面——选择最上面的search?initiative_id=…的原创 2020-07-23 00:47:22 · 1232 阅读 · 0 评论 -
【正则表达式】操作符_方法_match对象及其属性_贪婪匹配和最小匹配方法
作用:用简洁的符号表示一组字符串正则表达式(Regular Expression 或 Regex),是用于定义某种特定搜索模式的字符组合。正则表达式可用于匹配、查找和替换文本中的字符,进行输入数据的验证,查找英文单词的拼写错误等。用法:1.常用操作符实例:匹配Ip地址的正则表达式在代码中是怎样编译运行的呢?IDE中的写法2.正则表达式的表示类型在使用正则表达式时,最好使用raw string,方法是在字符串前加一个r因为出现转义字符斜杆 \ 时,string类型就需要多原创 2020-07-22 12:58:17 · 524 阅读 · 0 评论 -
【Python爬虫学习】中国大学排名定向实战
一、基本架构用到的库:requests、bs4(BeautifulSoup)1.定向爬取中国大学排名网的网页信息requests定向爬取网页信息import bs4import requestsfrom bs4 import BeautifulSoupdef getHTMLTEXT(url): """通过最好大学排名网站url获得网页Html信息""" try: r = requests.get(url) r.raise_for_status(原创 2020-07-21 13:23:14 · 292 阅读 · 0 评论