自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(11)
  • 收藏
  • 关注

原创 爬取时光网电影信息

要求:通过时光网爬取每年评分在7-10分之间的电影信息(电影名/链接/评分)第一步 寻找URL时光网的分类查询页面:http://movie.mtime.com/movie/search/section/#时光网的页面是通过AJAX异步加载的,在浏览器上关闭JAVASCRPIT 会发现网页变成如下的样子(图1),如果直接用reques对上面的URL进行请求,只能得到这个页面的HTML代码,...

2019-10-03 21:44:56 2924 1

原创 PYTHON之迭代器和生成器

迭代器所谓迭代,就是一个循环,厉遍数据结构(列表,字典,元组等)内元素的过程。字符串,列表,字典,元组,集合都是可迭代对象。而迭代器是用与迭代操作(for循环)的对象。可迭代对象通过__iter__方法转变成迭代器,迭代器可以通过next()方法不断返回下一个元素直至结束。迭代器的优势在于它不像列表那样会预先就把列表内的所有元素加载到内存里,而是只在需要的时候(调用next的时候)才进行计算。...

2019-10-02 11:38:31 151

原创 爬取HKSTP入驻企业的信息

要求:HKSTP企业目录:点进HKSTP入驻的每一个公司中查看并获取企业的信息,包括企业名称/邮箱/网址/电话/联系人/公司介绍企业目录页面:企业信息页面:第一步 导入相关模块这里要注意一开始我直接通过from lxml import etree 会有报错,网上查了下似乎从python3.5开始就无法直接导入etree模块了解决方法是先引入html模块,通过html模块引入etr...

2019-09-24 21:35:48 928

原创 随机漫步

要求用matplotlib 在坐标轴内标注一个点随机运动1000步的分布情况第一步设置初始位置,创建X轴和Y轴的坐标列表,初始值为0.x_value=[0]y_value=[0]第二步计算每一步运动多少距离用1和-1表示这个点向左或向右走,每次移动0~4个单位,新的位置为上一次的位置加上移动距离x_direction = choice([1, -1])y_direction...

2019-09-09 22:25:36 172

原创 Selenium入门

第一步 安装Selenium在终端 输入pip install selenium第二步 下载Chromedriver查询自己的Chrome浏览器的版本找到对应版本的Chromedriver,chromedriver与chrome版本映射表如下https://blog.youkuaiyun.com/huilan_same/article/details/51896672下载地址:http:/...

2019-09-07 15:29:01 405

原创 用正则表达式爬取猫眼电影TOP100排行榜

要求爬取猫眼电影TOP100排行榜电影信息(排名/影片名称/上映时间/评分)爬取过程1.找出每一页url的变化规律是参数offset,写for循环for i in range(2): url = 'https://maoyan.com/board/4?offset={}'.format(i*10) response = requests.get(url,headers).t...

2019-08-15 22:23:58 942

原创 掷色子

题目模拟投掷两颗色子1000次,统计两颗色子点数,用柱状图表示他们的分布,代码如下:from random import randintimport pygalclass Die(): def __init__(self,num_sides=6): self.num_sides=num_sides def roll(self): retur...

2019-08-10 14:51:31 330

原创 手把手爬取知乎大V关注的所有人

要求爬取获得知乎“轮子哥”——vczh所有的关注对象:(本案例来源DC学院的爬虫课程)爬取过程1.由于知乎的反爬措施,向服务器请求信息的时候需要提交user agent的信息。通过谷歌浏览器开发者工具找到user agent的信息,具体方法为:用谷歌浏览器打开网页,右键“审查元素”,点击“network”,刷新页面,点击第一个文件“following”,右侧下拉到“request head...

2019-08-10 14:50:20 668

原创 自动比价

题目:某企业招标零担物流运输承运商,现有A,B,C,D,E,F,G 7家承运商投标,各承运商报价已经汇总到一份excel表中(如下)。现该企业有一份PO清单(如下)。清单上的信息包含了每个PO的发货地点及收费重量,现需要根据各承运商的报价计算每个PO的实际价格,选出价格最优的承运商。 实际计算价格的方法为:收费重量*每公斤价格,再与MINIMUM CHARGE相比,取较高者。请写一段PY...

2019-08-03 17:40:42 345

原创 生成随机测验

题目假如你是一位地理老师,班上有35 名学生,你希望进行美国各州首府的一个小测验。不妙的是,班里有几个坏蛋,你无法确信学生不会作弊。你希望用PYTHON随机调整问题的次序,这样每份试卷都是独一无二的,这让任何人都不能从其他人那里抄袭答案。以美国州为key,首府为value的字典如下capitals = {'Alabama': 'Montgomery', 'Alaska': 'Juneau...

2019-08-03 16:15:05 294

原创 用正则表达式抓取电话号码

要求:假设在一篇很长的文章或网页中,有很多电话号码。电话号码有不同的表达形式,可能有区号或者分机。要求用CTRL A & CTRL C 将文章复制粘贴到剪贴板中后,运行程序,就能把其中所有的电话号码抓取出来。import pyperclip,rephoneRegex=re.compile(r'''((\d{3,4}|\(\d{3,4}\))? (\s|-|\.)?(\d{8})...

2019-08-03 14:18:47 3745

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除