- 博客(8)
- 收藏
- 关注
原创 python爬虫随笔:动态渲染页面爬取之新浪股票1小时内10大热门股票
目标:爬取新浪股票首页最近一小时十大热门股票数据分析:1、查看网页源代码,发现找不到数据2、network分析数据,发现几乎全部是js代码动态渲染因此决定采用selenium工具来进行数据爬取。环境准备:1、pip install selenium2、下载chrome的驱动程序放到python的Scripts目录下 http://chromedriver.storage.googleapis.com/index.html测试chrome及python是否全部ok,如果弹出空白的chrome浏
2020-05-20 20:20:12
601
原创 第二季:爬取iciba上的单词发音文件
自从上次爬取iciba上的单词发音文件之后,今天再测试,居然发现爬取不到了,研究了一下发现网站改变了其网页的代码,没关系,爬与反爬是永远的主题,这次更新了源码,顺便将爬取到的文件存到我的hadoop集群上。不废话,上源码。import requestsimport reimport randomfrom hdfs import InsecureClientdef donwload_voice(word): uapools = [ "Mozilla/5.0 (Wi
2020-05-20 11:02:17
696
原创 Numpy学习之数组运算随笔
numpy的学习需要把初中、高中和大学的数学重新学一遍,才能学好越学越觉得对不起各位数学老师。import numpy as np# 一元通用函数arr = np.arange(10)arr1 = np.random.randn(8)*7print(np.sqrt(arr)) #np.sqrt() 开平方print(np.exp(arr)) #np.exp() 求e^x e=2.71828182845904523536prin
2020-05-19 11:29:19
279
原创 numpy学习之ndarry随笔
Numpy几乎是Python 生态系统的数值计算的基石,例如Scipy,Pandas,Scikit-learn,Keras等出色的包都基于Numpy.ndarry是numpy的核心数据结构,学好ndarry的相关操作是掌握numpy的前提条件。import numpy as np# 新建ndarrydata = np.random.randn(2,4) #生成2行4列的随机数组data1 = np.array([[1,2,3,4],[5,6,7,8]])
2020-05-19 00:06:30
419
原创 Python的69个内建函数一网打尽
作为一个新人,必须熟练掌握Python的69个内建函数,这里介绍的python版本是3.7,每个函数最少一个案例,开整吧。# 69个pathon内建函数,必须掌握的,先统统练一遍再说print(abs(-10)) # abs() 返回一个数的绝对值print(divmod(15,4)) # divmod() 函数把除数和余数运算结果结合起来,返回一个包含商和余数的元组(a // b, a % b)print(hash("hello"))
2020-05-18 20:05:25
238
原创 python中的字符串必会基本操作
字符串的操作是基本功字符串基本操作42个方法,需要全部背熟掌握。走起。str = 'This test is a test’s test'print(str.capitalize()) #返回字符串的副本,该字符串的首个字符大写,其余小写。print(str.lower()) #返回字符串的副本,该字符串的所有字母小写print(str.upper()) #返回字符串的副本,该字符串的所有字母大写print(str.swapcase()) #该字符串的所有字母大小写
2020-05-17 22:55:17
302
原创 Python爬虫随笔:爬取iciba上的单词发音文件
不废话,上代码# 抓取iciba网站上的发音文件并存储到系统中import requestsimport reimport randomdef donwload_voice(word): uapools = [ "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:75.0) Gecko/20100101 Firefox/75.0" "Mozilla/5.0 (Windstows NT 10.0; Win64;
2020-05-14 15:56:40
1209
原创 Python中的sum()详解
Python中的sum()详解定义sum : sum(iterable, [start=0] ) :求和运算参数说明:iterable:可迭代对象,如列表。start:指定相加的参数,如果没有设置这个值,默认为0list for sum()print(sum([0,1,2])) # OK 无第二个参数,默认为0 结果=3print(sum([0,1,2], 10)) # OK list计算总和后再加 10 13a = [[1],[2,3],[4,5,6]]print(s
2020-05-14 11:45:49
11516
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人