- 博客(30)
- 问答 (1)
- 收藏
- 关注
原创 搭建Spark框架
1、下载jdk压缩包以及Spark压缩包以下是jdk1.8和spark3.0的压缩包,需要的可以下载https://pan.baidu.com/s/1IiPscqdIgHvXOGR1FAFPAA提取码:84U32、将两个压缩包一起上传至linux系统这里我将它们上传至/opt/module/software中3、安装JDK参考文章https://blog.youkuaiyun.com/qq_44838702/article/details/1195211834、解压解压spark-3.0.0-bin
2021-08-09 10:48:18
248
原创 在linux中安装JDK
1、下载jdk压缩包以下是jdk1.8的压缩包,需要的可以下载https://pan.baidu.com/s/1IiPscqdIgHvXOGR1FAFPAA提取码:84U32、将压缩包上传至linux系统这里我将其上传至/opt/module/software中3、解压tar -zxvf jdk-8u301-linux-i586.tar.gzz -C /usr/local/java4、设置环境变量vim /etc/profile在文档前面添加:export JAVA_HOME=/u
2021-08-08 21:32:16
274
原创 Linux文件目录结构
在Linux系统中,所有的内容都可以以文件的形式展现出来,并通过一个树形的结构统一管理和组织这些文件。如图所示:下面是各个目录的介绍:目录功能/bin存放系统命令/sbin存放系统管理员(root)使用的系统管理程序/home存放普通用户的主目录,每个用户都有一个默认是登录和保护自己数据的位置/root超级权限者(root)的用户主目录/lib存放系统开机所需要的动态连接共享库。作用类似于windows里面的DLL文件/lost+found
2021-08-08 20:09:53
226
原创 Scala学习笔记(一)——变量和数据类型、运算符
一、Scala入门1. 概述Spark—新一代内存级大数据计算框架,是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark, 而需要掌握Scala这门语言。2.Scala和Java的关系Scala是基于Java的,它可以直接引用Java的各种类库。在语法上,Scala比Java更加简洁。3.Scala语言特点Scala是一门以Java虚拟机(JVM)为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言(静态语言需要提前编译的如:Java、c、c+
2021-08-07 11:23:59
572
转载 exploration 和 exploitation 的区别
exploration 是开发未知领域,而exploitation 是利用已知状态。在遗传算法中:全局探索(Exploration):交叉重组与突变是算法全局探测能力的主要构成要素。局部探测(Exploitation):对种群个体的选择是算法局部探测能力的主要构成要素。关于Exploration能力太强的话,即使是到达了最优解集的区域中,下一步,依然会远离这个区域(解的变化比较大,和前面是什么关系不大),从而找不到收敛的值。Exploitation比较强,则会把局部最优解区域解集更容易被找到,但
2021-02-02 20:32:29
4816
原创 Matlab把一个矩阵的行按某列元素的大小排列
直接上代码吧~% 把矩阵B的行按第一列元素从小到大排列[~,idx]=sort(B(:,1))B=B(idx,:)同理,把矩阵的列按某行元素的大小排列如下% 把矩阵B的列按第一行元素从小到大排列[~,idx]=sort(B(1,:))B=B(:,idx)...
2021-01-23 16:18:32
8524
原创 python选择结构和循环结构练习
1、玩家与计算机一起玩剪刀、石头、布的游戏,分别由0,1,2代表剪刀、石头、布,玩家需要通过键盘输入值,计算机随机产生,比较大小,如果玩家获胜,则输出“恭喜,你赢了!”,如果平局,则输出“平局,要不再来一局!”,如果玩家输了,则输出“Game over!”import random player = int(input('请输入:0(剪刀),1(石头),2(布):'))compu = random.randint(0,2)print(compu)if ((player == 0) and (com
2020-06-13 20:22:33
1906
1
原创 Solver lbfgs supports only “l2” or “none” penalties, got l1 penalty.解决办法
Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.解决办法
2020-06-04 22:27:33
4919
1
原创 解决TypeError: reduction operation “argmax” not allowed for this dtype
解决方法:在idxmax()前加.astype(‘float64’).argmin() .argmax() 计算最大、小值所在位置的索引(针对自动索引的)(适用于Series类型:).idxmin() .idxmax() 计算最大、小值所在位置的索引(针对自定义索引的)(适用于Series类型:)这几个函数都是适用的 不过 最好先把数据类型都打印出来print(results_table.dtypes)...
2020-06-04 21:02:18
2668
1
原创 AttributeError: “DataFrame” object has no attribute “reshape”解决
程序报错:AttributeError: ‘DataFrame’ object has no attribute ‘reshape’解决方法“DataFrame”对象没有“reshape”,我们在DataFrame后加上.values即可即DataFrame.values.reshape(-1, 1)
2020-06-04 20:56:39
12098
原创 python语言基础练习
1、输入小明身高1.75,体重80.5kg。请根据BMI公式(体重除以身高的平方)帮小明计算他的BMI指数,并根据BMI指数,用if else语句实现以下结果:低于18.5:过轻18.5-25:正常25-28:过重28-32:肥胖高于32:严重肥胖h = 1.75w = 80.50BIM = w/(h*h)if BIM < 18.5: print('过轻')elif BIM < 25: print('正常')elif BIM < 28: pri
2020-05-31 00:14:53
1999
原创 解决pymysql执行SQL语句提示成功但实际并没有操作数据库
问题:在用pymysql执行插入语句后返回1,但是数据库中找不到插入的数据原因:pymysql在连接数据库的时候,参数autocommit默认为False,表示执行完SQL语句后是否自动提交到真正的数据库,如果没有设置为True,那么你执行sql过后,还要进行显式提交操作,即conn.commit()。我们也可以在在创建pymysql.connect()的连接对象的时候赋值autocommit=True。...
2020-05-23 11:03:02
3243
3
原创 爬虫学习笔记二:网络爬虫之提取(MOOC北京理工大学)
第二周 网络爬虫之提取单元四 Beautiful Soup库入门· Beautiful Soup库的基本元素· Beautiful Soup库是解析、遍历、维护“标签树”的功能库(beautifulsoup4或bs4)<p class="title">...</p><p>..</p>:标签Tag p:名称Name,成对出现 cl...
2020-04-20 17:43:21
407
原创 爬虫学习笔记一:网络爬虫之规则(MOOC北京理工大学)
第一周 网络爬虫之规则单元一:Request库入门· Request库的get()方法 r=requests.get(url); 构造一个向服务器请求资源的Request对象 get()方法返回一个包含服务器资源的Response对象(即r使一个Response对象) Response对象包含从服务器返回的所有资源(爬虫返回的全部内容) get()函数完整使用方法:requ...
2020-04-20 17:42:49
351
原创 超超超实用的Tensorflow安装教程
最近开始入门机器学习,但是在安装tensorflow的时候就被卡住了,每次当我以为安装好了的时候,导入tensorflow模块都报错:No module named ‘tensorflow’然后就是找各种安装教程和解决方法,但是问题都得不到解决。python环境以及anaconda都卸载了不下十遍。下面,来看看我最后如何安装好的。安装Anaconda,先到官网下载Anaconda官...
2020-04-17 22:40:27
565
1
原创 一篇文章带你理解Scrapy框架
首先,什么是Scrapy框架?Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架那什么是爬虫框架呢?爬虫框架是实现爬虫功能的一个软件结构和功能组件集合;爬虫框架是一个半成品, 能够帮助用户实现专业网络爬虫。Scrapy框架图如下:先来看看Scrapy的5+2结构(五个主体+两个中间件):Scrapy Engine(引擎): 负责Spider、Ite...
2020-04-03 20:09:05
472
原创 Requests库和Scrapy框架的区别
一、我们先将Requests库与Scrapy框架做一个比较:相同点: ①两者都可以进行页面请求和爬取,Python爬虫的两个重要技术路线 ②两者可用性逗号,文档丰富,入门简单 ③两者都没有处理js、提交表单、应对验证码等功能(可扩展)不同点:RequestsScrapy页面级爬虫网站级爬虫功能库框架并发性考虑不足,性能较差并发性好,性能较...
2020-04-03 20:05:09
2429
转载 sklearn.svm.LinearSVC与sklearn.svm.SVC区别
1.LinearSVC与SVC的区别LinearSVC基于liblinear库实现有多种惩罚参数和损失函数可供选择训练集实例数量大(大于1万)时也可以很好地进行归一化既支持稠密输入矩阵也支持稀疏输入矩阵多分类问题采用one-vs-rest方法实现SVC基于libsvm库实现训练时间复杂度为 [公式]训练集实例数量大(大于1万)时很难进行归一化多分类问题采用one-vs-...
2020-04-02 22:05:06
2350
原创 numpy库常用函数大总结
Numpy是Python的一个科学计算的库,提供了矩阵运算的功能,其一般与Scipy、matplotlib一起使用。arange方法:创建某个区间内等间距的序列数组,返回的是ndarray①语法:numpy.arange(start, stop, step, dtype = None)②参数:start —— 开始位置,数字,可选项,默认起始值为0stop —— 停止位置,数字ste...
2020-04-02 18:03:34
343
原创 During handling of the above exception, another exception occurred解决办法
我在执行pip install scrapy时报错,内容如下:During handling of the above exception, another exception occurred这是由于频繁访问网站或请求造成的,可以通过更换国内源的方法来解决此问题。示例如下:pip install scrapy -i http://pypi.douban.com/simple --t...
2020-03-23 15:53:34
76090
15
转载 相对路径的表示方法
我们使用“…/”来表示上一级目录,“…/…/”表示上上级的目录,以此类推。下级目录用“/…”表示。同级目录不须用“/”,直接表示为“…”。例1: c:/website/web/index.htm c:/website/img/photo.jpg 在此例中“index.htm”中联接的“photo.jpg”应该怎样表示呢? 正确写法:使用“…/img/photo.jpg”的相...
2020-03-21 23:47:47
814
原创 Python爬虫之正则表达式——股票数据定向爬虫
1、目标:获取上交所和深交所所有股票的名称和交易信息2、输出:保存到文件中3、技术路线:requests-bs4-re4、网页选取原则:股票信息静态存在于HTML页面中,非js代码生成,没有Robots协议限制5、选取方法:浏览器F12,源代码查看等6、步骤:①从东方财富网获取股票列表②根据股票列表组个到百度股票获取个股信息③将结果存储到文件以下是MOOC的源代码,但是由于时间问...
2020-03-20 12:08:28
1391
原创 Python爬虫之正则表达式——淘宝商品比价定向爬虫
1、目标:获取淘宝搜索页面的信息,提取其中的商品名称和价格2、理解:我们需要解决淘宝的搜索接口、翻页的处理3、技术路线:requests-re4、步骤:①提交商品搜索请求,循环获取页面 ②对于每个页面,提取商品名称和价格信息 ③将信息输出到屏幕上5、对原来代码的改进:增加销量的输出6、编写代码时需注意的问题①淘宝拒绝爬虫的访问,因此我们需要将headers改掉②对翻...
2020-03-20 11:19:22
655
原创 Python爬虫之BeautifulSoup库——爬取大学排名
这个实例解决了输出的中文对齐的问题import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.appa...
2020-03-20 10:58:21
225
原创 Python爬虫之Requests库——IP地址归属地自动查询
import requestsurl="http://m.ip138.com/ip.asp?ip="kv={'user-agent':'Mozilla/5.0'}try: r=requests.get(url+'需要查询的IP地址',headers=kv) r.raise_for_status() r.encoding=r.apparent_encoding ...
2020-03-20 10:47:25
699
原创 Python爬虫之Requests库——网络图片的爬取和存储
import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root="D://"path=root+url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(...
2020-03-20 10:40:02
479
原创 Python爬虫之Requests库——百度/360搜索关键词提交
1、百度关键词提交若按照MOOC上老师的代码来提交关键词,我们会遇到百度的安全验证我们打开浏览器,搜索Python,结果如下观察网址特点,开始编写代码import requeststry: # kv={'wd':'python'} kv ={'ie':'utf-8','wd': 'Python','p_timestamp':'1583634916'} ua =...
2020-03-20 10:37:03
1270
原创 Python爬虫之Requests库——亚马逊商品页面的爬取
由于这是由爬虫引起的浏览器访问,被亚马逊网站拒绝访问。因此要把user-agent改为标准浏览器Mozilla/5.0import requestsurl="https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=k...
2020-03-20 10:22:46
1044
原创 Python爬虫之Requests库——京东商业页面的爬取
import requestsurl="https://item.jd.com/2967929.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...
2020-03-20 10:16:55
408
2
原创 原码、反码、补码的计算
原码就是符号位加上真值的绝对值反码的表示方法是:正数的反码是其本身;负数的反码是在其原码的基础上,符号位不变,其余各个位取反补码的表示方法是:正数的补码就是其本身;负数的补码是在其原码的基础上,符号位不变,其余各位取反,最后+1。(即在反码的基础上+1)...
2020-03-08 09:38:43
244
空空如也
python在post请求下爬取数据,为什么返回的只有一个空列表?
2020-05-08
TA创建的收藏夹 TA关注的收藏夹
TA关注的人