
Python 爬虫
CFF_伊人
在校大学生,计算机专业,主要学习数据分析、挖掘。对爬虫、人工智能等领域也有着浓厚的兴趣。
展开
-
爬虫之Xpath的使用
什么是Xpath: Xapth是一门在HTML文档、XML文档中查找信息的语言,可以用来在HTML/XML文档中对元素和属性进行遍历。 Xpath语法: 表达式 描述 nodename 选择此节点的所有节点 / 从根节点选取 // 从当前节点开始选取,不考虑位置 . 选取当前节点 .. 选取当前节点的父节点 @ 选取属性 ...原创 2019-05-01 18:11:08 · 547 阅读 · 0 评论 -
Python爬豆瓣影片数据(涉及json和python相互转换)
确定要爬取的数据:电影名称、上映时间、上映地区、影片评分、影片类型 鼠标右键点击检查,点击network下方的XHR,按f5刷新(这里可以看到请求地址、请求方式),左边name列,limit=20排行榜前20部电影 还可以在Response下看到响应的内容 下面是详细步骤 (1)请求json接口的整体数据 (2)json.loads将已编码的 JSON 字符串解码为 Pyth...原创 2019-05-01 22:25:27 · 1504 阅读 · 0 评论 -
用正则表达式爬豆瓣电影数据
学了正则表达式后,简单的用它来爬取豆瓣网的数据 import re from urllib.request import urlopen def getPage(url): # 获取网页的字符串 response = urlopen(url) return response.read().decode('utf-8') def parsePage(s): ret...原创 2019-05-23 18:20:52 · 1814 阅读 · 0 评论