
爬虫
superjfhc
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
【量化交易】获取A股数据
tushare ID:497274准备本次数据的获取是通过tushare平台获取,该平台整理股票、基金、期货、债券、外汇等各种全面的数据。tushare网页链接:https://tushare.pro在该平台注册账号,并在个人主页中找到自己token获取代码1.获取所需股票的编码、行业、上市日期等基本信息def stock_basic(): save_path = "data/stock_basic.csv" if os.path.exists(save_path):原创 2022-04-05 11:57:43 · 2319 阅读 · 0 评论 -
爬虫第二课:定义函数
定义函数定义函数就是封装一部分代码,设置参数,输入相应的参数就会返回相应的结果。如果一个爬虫的代码超过五十行,那么如果不定义函数,每一行代码就会看起来很凌乱,如果定义一个函数的话,界面的结构就会很清晰。每次使用直接调用函数就可以了,不需要重复敲代码。比如:定义一个啷个数之和减去两个数之差的函数:def func(x,y): a = x + y b = x - y ...原创 2019-01-10 13:30:08 · 6731 阅读 · 2 评论 -
爬虫第三课:正则表达式
Regular expression 正则表达式正则表达式可以非常简洁的表达一组很长字符串的特征,所以把正则表达说成一行胜千言。可以把一组字符串的特征或特点表达出来。比如说有一组字符串:无穷多个以L开头后面有一个或无穷多个H字符串。‘LH’‘LHH’‘LHHH’…‘LHHHHHHH…’正则表达式: LH+‘PY’开头,后续存在不多于10个字符,后续字符不能是‘P’或‘...原创 2019-01-10 15:09:36 · 6480 阅读 · 1 评论 -
爬虫第四课:猫眼电影
首先要导入我们需要使用的库导入库是因为库里有我们需要用的函数,这些函数能帮我们实现某些功能。使用 import 导入我们需要用的库,写法如图1所示,由图1可以看出导入了requests库和re库,第一个库是用来向服务器发送请求获得响应的,第二个库是正则表达式用来提取数据的。你要提取什么数据?假如我们要获得猫眼电影榜单top100的电影信息,网址为https://maoyan.co...原创 2019-01-10 18:27:16 · 12786 阅读 · 22 评论 -
爬虫第六课:爬取携程酒店数据
首先打开携程所有北京的酒店http://hotels.ctrip.com/hotel/beijing1简简单单,源代码中包含我们需要的酒店数据,你以为这样就结束了?携程的这些数据这么廉价地就给我们得到了?事实并不是如此,当我们点击第二页的时候出现问题:虽然酒店的数据改变了,但是我们发现该网页的网址却没有改变,这也就造成了源代码中酒店的数据不改变,还是第一页的数据,如下图所示。我们遇到的第一个...原创 2019-01-09 16:54:06 · 30690 阅读 · 54 评论 -
python3爬虫系列教学、案例、代码实战,看这几篇就够了
内容较多,请您细嚼慢咽,不懂就搜。爬虫第一课:爬虫的思路 https://blog.youkuaiyun.com/weixin_41779359/article/details/86184148爬虫第二课:定义函数(新手必看) https://blog.youkuaiyun.com/weixin_41779359/article/details/86227792爬虫第三课:正则表达式 https://blog.c...原创 2019-01-12 20:26:40 · 14983 阅读 · 2 评论 -
爬虫第一课:写爬虫的思路
什么是爬虫?爬虫就是从网上获得数据,它是通过编程来实现的。对于非计算机专业的人来说,一提到编程两个字,可能就会觉得自己做不到。但其实并不是这样,编程就是通过写代码,来让计算机实现你的想法。你解决问题的想法,就会影响你编程时写的代码。对于爬虫这件事情,就是从网上获取数据,那么相对应的代码就不会有太大的变化。比如你爬取58同城的求职和爬猫眼电影的电影数据的代码并不会有太大的差别。我写过的每个关于...原创 2019-01-09 22:18:06 · 11933 阅读 · 4 评论