qq_44838702-优快云博客

原创搭建Spark框架

1、下载jdk压缩包以及Spark压缩包以下是jdk1.8和spark3.0的压缩包，需要的可以下载https://pan.baidu.com/s/1IiPscqdIgHvXOGR1FAFPAA提取码：84U32、将两个压缩包一起上传至linux系统这里我将它们上传至/opt/module/software中3、安装JDK参考文章https://blog.youkuaiyun.com/qq_44838702/article/details/1195211834、解压解压spark-3.0.0-bin

2021-08-09 10:48:18 248

原创在linux中安装JDK

1、下载jdk压缩包以下是jdk1.8的压缩包，需要的可以下载https://pan.baidu.com/s/1IiPscqdIgHvXOGR1FAFPAA提取码：84U32、将压缩包上传至linux系统这里我将其上传至/opt/module/software中3、解压tar -zxvf jdk-8u301-linux-i586.tar.gzz -C /usr/local/java4、设置环境变量vim /etc/profile在文档前面添加：export JAVA_HOME=/u

2021-08-08 21:32:16 274

原创 Linux文件目录结构

在Linux系统中，所有的内容都可以以文件的形式展现出来，并通过一个树形的结构统一管理和组织这些文件。如图所示：下面是各个目录的介绍：目录功能/bin存放系统命令/sbin存放系统管理员(root)使用的系统管理程序/home存放普通用户的主目录，每个用户都有一个默认是登录和保护自己数据的位置/root超级权限者(root)的用户主目录/lib存放系统开机所需要的动态连接共享库。作用类似于windows里面的DLL文件/lost+found

2021-08-08 20:09:53 226

原创 Scala学习笔记（一）——变量和数据类型、运算符

一、Scala入门1. 概述Spark—新一代内存级大数据计算框架，是大数据的重要内容。Spark就是使用Scala编写的。因此为了更好的学习Spark, 而需要掌握Scala这门语言。2.Scala和Java的关系Scala是基于Java的，它可以直接引用Java的各种类库。在语法上，Scala比Java更加简洁。3.Scala语言特点Scala是一门以Java虚拟机（JVM）为运行环境并将面向对象和函数式编程的最佳特性结合在一起的静态类型编程语言（静态语言需要提前编译的如：Java、c、c+

2021-08-07 11:23:59 572

转载 exploration 和 exploitation 的区别

exploration 是开发未知领域，而exploitation 是利用已知状态。在遗传算法中：全局探索（Exploration）:交叉重组与突变是算法全局探测能力的主要构成要素。局部探测（Exploitation）：对种群个体的选择是算法局部探测能力的主要构成要素。关于Exploration能力太强的话，即使是到达了最优解集的区域中，下一步，依然会远离这个区域（解的变化比较大，和前面是什么关系不大），从而找不到收敛的值。Exploitation比较强，则会把局部最优解区域解集更容易被找到，但

2021-02-02 20:32:29 4816

原创 Matlab把一个矩阵的行按某列元素的大小排列

直接上代码吧~% 把矩阵B的行按第一列元素从小到大排列[~,idx]=sort(B(:,1))B=B(idx,:)同理，把矩阵的列按某行元素的大小排列如下% 把矩阵B的列按第一行元素从小到大排列[~,idx]=sort(B(1,:))B=B(:,idx)...

2021-01-23 16:18:32 8524

原创 python选择结构和循环结构练习

1、玩家与计算机一起玩剪刀、石头、布的游戏，分别由0,1,2代表剪刀、石头、布，玩家需要通过键盘输入值，计算机随机产生，比较大小，如果玩家获胜，则输出“恭喜，你赢了！”，如果平局，则输出“平局，要不再来一局！”，如果玩家输了，则输出“Game over！”import random player = int(input('请输入：0（剪刀），1（石头），2（布）：'))compu = random.randint(0,2)print(compu)if ((player == 0) and (com

2020-06-13 20:22:33 1906 1

原创 Solver lbfgs supports only “l2” or “none” penalties, got l1 penalty.解决办法

Solver lbfgs supports only 'l2' or 'none' penalties, got l1 penalty.解决办法

2020-06-04 22:27:33 4919 1

原创解决TypeError: reduction operation “argmax” not allowed for this dtype

解决方法：在idxmax()前加.astype(‘float64’).argmin() .argmax() 计算最大、小值所在位置的索引（针对自动索引的）（适用于Series类型：）.idxmin() .idxmax() 计算最大、小值所在位置的索引（针对自定义索引的）（适用于Series类型：）这几个函数都是适用的不过最好先把数据类型都打印出来print(results_table.dtypes)...

2020-06-04 21:02:18 2668 1

原创 AttributeError: “DataFrame” object has no attribute “reshape”解决

程序报错：AttributeError: ‘DataFrame’ object has no attribute ‘reshape’解决方法“DataFrame”对象没有“reshape”，我们在DataFrame后加上.values即可即DataFrame.values.reshape(-1, 1)

2020-06-04 20:56:39 12098

原创 python语言基础练习

1、输入小明身高1.75，体重80.5kg。请根据BMI公式（体重除以身高的平方）帮小明计算他的BMI指数，并根据BMI指数，用if else语句实现以下结果：低于18.5：过轻18.5-25：正常25-28：过重28-32：肥胖高于32：严重肥胖h = 1.75w = 80.50BIM = w/(h*h)if BIM < 18.5: print('过轻')elif BIM < 25: print('正常')elif BIM < 28: pri

2020-05-31 00:14:53 1999

原创解决pymysql执行SQL语句提示成功但实际并没有操作数据库

问题：在用pymysql执行插入语句后返回1，但是数据库中找不到插入的数据原因：pymysql在连接数据库的时候，参数autocommit默认为False，表示执行完SQL语句后是否自动提交到真正的数据库，如果没有设置为True，那么你执行sql过后，还要进行显式提交操作，即conn.commit()。我们也可以在在创建pymysql.connect()的连接对象的时候赋值autocommit=True。...

2020-05-23 11:03:02 3243 3

原创爬虫学习笔记二：网络爬虫之提取（MOOC北京理工大学）

第二周网络爬虫之提取单元四 Beautiful Soup库入门· Beautiful Soup库的基本元素· Beautiful Soup库是解析、遍历、维护“标签树”的功能库（beautifulsoup4或bs4）<p class="title">...</p><p>..</p>：标签Tag p：名称Name，成对出现 cl...

2020-04-20 17:43:21 407

原创爬虫学习笔记一：网络爬虫之规则（MOOC北京理工大学）

第一周网络爬虫之规则单元一：Request库入门· Request库的get()方法 r=requests.get(url); 构造一个向服务器请求资源的Request对象 get()方法返回一个包含服务器资源的Response对象（即r使一个Response对象） Response对象包含从服务器返回的所有资源（爬虫返回的全部内容） get()函数完整使用方法：requ...

2020-04-20 17:42:49 351

原创超超超实用的Tensorflow安装教程

最近开始入门机器学习，但是在安装tensorflow的时候就被卡住了，每次当我以为安装好了的时候，导入tensorflow模块都报错：No module named ‘tensorflow’然后就是找各种安装教程和解决方法，但是问题都得不到解决。python环境以及anaconda都卸载了不下十遍。下面，来看看我最后如何安装好的。安装Anaconda，先到官网下载Anaconda官...

2020-04-17 22:40:27 565 1

原创一篇文章带你理解Scrapy框架

首先，什么是Scrapy框架?Scrapy是一个快速、高层次、轻量级的屏幕抓取和web抓取的python爬虫框架那什么是爬虫框架呢？爬虫框架是实现爬虫功能的一个软件结构和功能组件集合；爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。Scrapy框架图如下：先来看看Scrapy的5+2结构（五个主体+两个中间件）：Scrapy Engine(引擎): 负责Spider、Ite...

2020-04-03 20:09:05 472

原创 Requests库和Scrapy框架的区别

一、我们先将Requests库与Scrapy框架做一个比较：相同点： ①两者都可以进行页面请求和爬取，Python爬虫的两个重要技术路线 ②两者可用性逗号，文档丰富，入门简单 ③两者都没有处理js、提交表单、应对验证码等功能（可扩展）不同点：RequestsScrapy页面级爬虫网站级爬虫功能库框架并发性考虑不足，性能较差并发性好，性能较...

2020-04-03 20:05:09 2429

转载 sklearn.svm.LinearSVC与sklearn.svm.SVC区别

1.LinearSVC与SVC的区别LinearSVC基于liblinear库实现有多种惩罚参数和损失函数可供选择训练集实例数量大（大于1万）时也可以很好地进行归一化既支持稠密输入矩阵也支持稀疏输入矩阵多分类问题采用one-vs-rest方法实现SVC基于libsvm库实现训练时间复杂度为 [公式]训练集实例数量大（大于1万）时很难进行归一化多分类问题采用one-vs-...

2020-04-02 22:05:06 2350

原创 numpy库常用函数大总结

Numpy是Python的一个科学计算的库，提供了矩阵运算的功能，其一般与Scipy、matplotlib一起使用。arange方法：创建某个区间内等间距的序列数组，返回的是ndarray①语法：numpy.arange(start, stop, step, dtype = None)②参数：start —— 开始位置，数字，可选项，默认起始值为0stop —— 停止位置，数字ste...

2020-04-02 18:03:34 343

原创 During handling of the above exception, another exception occurred解决办法

我在执行pip install scrapy时报错，内容如下：During handling of the above exception, another exception occurred这是由于频繁访问网站或请求造成的，可以通过更换国内源的方法来解决此问题。示例如下：pip install scrapy -i http://pypi.douban.com/simple --t...

2020-03-23 15:53:34 76090 15

转载相对路径的表示方法

我们使用“…/”来表示上一级目录，“…/…/”表示上上级的目录，以此类推。下级目录用“/…”表示。同级目录不须用“/”，直接表示为“…”。例1：　　c:/website/web/index.htm　　c:/website/img/photo.jpg　　　　在此例中“index.htm”中联接的“photo.jpg”应该怎样表示呢？　正确写法：使用“…/img/photo.jpg”的相...

2020-03-21 23:47:47 814

原创 Python爬虫之正则表达式——股票数据定向爬虫

1、目标：获取上交所和深交所所有股票的名称和交易信息2、输出：保存到文件中3、技术路线：requests-bs4-re4、网页选取原则：股票信息静态存在于HTML页面中，非js代码生成，没有Robots协议限制5、选取方法：浏览器F12，源代码查看等6、步骤：①从东方财富网获取股票列表②根据股票列表组个到百度股票获取个股信息③将结果存储到文件以下是MOOC的源代码，但是由于时间问...

2020-03-20 12:08:28 1391

原创 Python爬虫之正则表达式——淘宝商品比价定向爬虫

1、目标：获取淘宝搜索页面的信息，提取其中的商品名称和价格2、理解：我们需要解决淘宝的搜索接口、翻页的处理3、技术路线：requests-re4、步骤：①提交商品搜索请求，循环获取页面 ②对于每个页面，提取商品名称和价格信息 ③将信息输出到屏幕上5、对原来代码的改进：增加销量的输出6、编写代码时需注意的问题①淘宝拒绝爬虫的访问，因此我们需要将headers改掉②对翻...

2020-03-20 11:19:22 655

原创 Python爬虫之BeautifulSoup库——爬取大学排名

这个实例解决了输出的中文对齐的问题import requestsfrom bs4 import BeautifulSoupimport bs4def getHTMLText(url): try: r=requests.get(url,timeout=30) r.raise_for_status() r.encoding=r.appa...

2020-03-20 10:58:21 225

原创 Python爬虫之Requests库——IP地址归属地自动查询

import requestsurl="http://m.ip138.com/ip.asp?ip="kv={'user-agent':'Mozilla/5.0'}try: r=requests.get(url+'需要查询的IP地址',headers=kv) r.raise_for_status() r.encoding=r.apparent_encoding ...

2020-03-20 10:47:25 699

原创 Python爬虫之Requests库——网络图片的爬取和存储

import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0211/20170211061910157.jpg"root="D://"path=root+url.split('/')[-1]try: if not os.path.exists(root): os.mkdir(...

2020-03-20 10:40:02 479

原创 Python爬虫之Requests库——百度/360搜索关键词提交

1、百度关键词提交若按照MOOC上老师的代码来提交关键词，我们会遇到百度的安全验证我们打开浏览器，搜索Python，结果如下观察网址特点，开始编写代码import requeststry: # kv={'wd':'python'} kv ={'ie':'utf-8','wd': 'Python','p_timestamp':'1583634916'} ua =...

2020-03-20 10:37:03 1270

原创 Python爬虫之Requests库——亚马逊商品页面的爬取

由于这是由爬虫引起的浏览器访问，被亚马逊网站拒绝访问。因此要把user-agent改为标准浏览器Mozilla/5.0import requestsurl="https://www.amazon.cn/gp/product/B01M8L5Z3Y"try: kv={'user-agent':'Mozilla/5.0'} r=requests.get(url,headers=k...

2020-03-20 10:22:46 1044

原创 Python爬虫之Requests库——京东商业页面的爬取

import requestsurl="https://item.jd.com/2967929.html"try: r=requests.get(url) r.raise_for_status() r.encoding=r.apparent_encoding print(r.text[:1000])except: print("爬取失败")...

2020-03-20 10:16:55 408 2

原创原码、反码、补码的计算

原码就是符号位加上真值的绝对值反码的表示方法是：正数的反码是其本身；负数的反码是在其原码的基础上，符号位不变，其余各个位取反补码的表示方法是：正数的补码就是其本身；负数的补码是在其原码的基础上，符号位不变，其余各位取反，最后+1。（即在反码的基础上+1)...

2020-03-08 09:38:43 244

qq_44838702的博客