温醉否忆-优快云博客

原创 Failed to load resource: the server responded with a status of 404() PageNotFound No mapping for GET

前往“优极限【完整项目实战】半天带你用-springBoot”地址：https://www.bilibili.com/video/BV1sf4y1L7KE?p=22第22_实现商品列表页，第17：40开始，至21：10结束当前框架：SpringBoot2Failed to load resource: the server responded with a status of 404()WARN 11636 — [nio-8080-exec-5] o.s.web.servlet.Page

2022-04-11 15:08:37 774

原创 idea的tomcat控制台中文乱码

1、进入tomcat安装目录下的conf目录，打开logging.properties文件2、将 java.util.logging.ConsoleHandler.encoding = UTF-8改为 java.util.logging.ConsoleHandler.encoding = GBK3、保存文件，重启tomcat

2021-06-30 20:31:16 234

原创 8、鸢尾花预测率、决策树分类器

实验目的1.掌握逻辑回归与决策树模型模型的原理及使用场景2.掌握pyspark库使用3.掌握模型预测结果保存的方法实验背景下面以鸾尾花数据集(Iris)为例进行分析，Iris 以鸾尾花的特征作为数据来源，数据集包含 150 个数据，分为 3 类，每类 50 个数据，每个数据包含 4 个属性，是在数据挖掘、数据分类中非常常用的测试集、训练集。为了便于理解，这里主要用后两个属性(花瓣的长度和宽度)来进行分类。首先来看一下逻辑回归分类器。逻辑斯蒂回归(Logistic Regression)是统计学习

2021-06-04 22:06:32 3697

原创 7、预测婴儿生存机会实验

实验资源births_transformed.csv实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPyspark实验内容读入“births_transformed.csv”，利用逻辑回归算法生成评估模型，从而预测婴儿的生存机会。在正式开始实验之前，我们先来讲一下ROC曲线：ROC曲线起源于第二次世界大战时期雷达兵对雷达的信号判断。当时每一个雷达兵的任务就是去解析雷达的信号，但是当时的雷达技术还没有那么先进，存在很多噪声（比如一只大鸟

2021-05-31 14:43:20 829

原创 6、淘宝双11数据分析与预测

实验环境Java1.8HadoopHiveSparkSqoopEchartsIntellij ideaVMware WorkstationUbuntu 16.04实验内容对文本文件形式的原始数据集进行预处理把文本文件的数据集导入到数据仓库Hive中对数据仓库Hive中的数据进行查询分析使用Sqoop将数据从Hive导入MySQL利用Eclipse搭建动态Web应用利用ECharts进行前端可视化分析利用Spark MLlib进行回头客行为预测

2021-05-31 14:41:12 9188 2

原创 5、电影推荐系统

实验资源u.useru.itemu.data实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPyspark实验内容本实验使用其中三个文件，用户信息、影片信息、评分数据用户信息（u.user）用户id年龄性别职业邮政编码影片信息(u.item)影片id影片名称发行日期链接other评分数据(u.data)用户id影片id评分值时间戳（U

2021-05-31 14:35:12 915

原创 4、Spark流式计算电商商品关注度

实验环境eclipsespark-2.1.1-bin-hadoop2.7VMware WorkstationUbuntu 16.04实验内容处于网络时代的我们，随着 O2O 的营销模式的流行，越来越多的人开始做起了电商。与此同时也产生了许多网络数据，然而这些数据有什么用呢。比如说一个电商公司可以根据一个商品被用户点击了多少次，用户停留时间是多久，用户是否收藏了该商品。这些都是可以被记录下来的。通过这些数据我们就能分析出这段时间内哪些商品最受普遍人们的关注。同时也可以针对这些数据进行用户商品推荐。

2021-05-31 14:28:22 935

原创 3、Spark 和 D3.js 分析航班大数据

实验资源1998.csvairports.csv实验环境VMware WorkstationUbuntu 16.04spark-2.4.5scala-2.12.10实验内容“我们很抱歉地通知您，您乘坐的由 XX 飞往 XX 的 XXXX 航班延误。”相信很多在机场等待飞行的旅客都不愿意听到这句话。随着乘坐飞机这种交通方式的逐渐普及，航延延误问题也一直困扰着我们。航班延误通常会造成两种结果，一种是航班取消，另一种是航班晚点。在本次实验中，我们将通过 Spark 提供的 DataFrame

2021-05-31 14:04:43 3751 4

原创 2、Kmeans算法处理出租车数据

实验资源taxi.csv实验环境VMware WorkstationUbuntu 16.04Jupyter NotebookPysparkPycharm实验内容现有某地区出租车 GPS 定位数据 taxi.csv，部分数据见下图：130.624806104.136604211846130.624809104.136612211815130.624811104.136587212017130.624811104.13659621191

2021-05-31 12:38:00 1727 1

原创 1、Kmeans 聚类算法评估足球比赛

实验资源data.txt实验环境VMware WorkstationUbuntu 16.04Spark-2.4.5Scala-2.12.10实验内容利用Spark机器学习库中Kmeans算法分析足球赛事实验步骤一、数据集介绍序号国别2006年世界杯2007年亚洲杯2010年世界杯1韩国173152沙特282403卡塔尔509404泰国509505越南505506中国509507

2021-05-31 12:21:43 1433

原创 Spark 性能优化

目录一、开发调优原则一：避免创建重复的RDD原则二：尽可能复用同一个RDD原则三：对多次使用的RDD进行持久化原则四：尽量避免使用shuffle类算子原则五：使用map-side预聚合的shuffle操作原则六：使用高性能的算子原则七：广播大变量原则八：使用Kryo优化序列化性能2、资源调优num-executorsexecutor-memoryexecutor-coresdriver-memoryspark.default.parallelismspark.storage.

2021-05-16 17:45:42 206

原创 Spark高级认证

一、K-Means聚类算法1、K-Means聚类算法介绍1、算法接受参数k ；然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足∶同一聚类中的对象相似度较高；而不同聚类中的对象相似度较小。2、算法思想：以空间中k个点为中心进行聚类，对最靠近他们的对象归类。通过迭代的方法，逐次更新各聚类中心的值，直至得到最好的聚类结果2、K-Means聚类算法步骤1、先从元素集合A中随机取k个元素，作为k个子集各自的重心。2、分别计算剩下的元素到k个子集重心的距离，根据距离将这些元素分别划归到最近

2021-05-16 16:25:39 501

转载爬取csdn博客访问量保存在sqlite3数据库中

转载：https://blog.youkuaiyun.com/imred/article/details/78149538#https://blog.youkuaiyun.com/imred/article/details/78149538#使用python抓取csdn博客访问量并保存在sqlite3数据库中 import osimport sqlite3import urllib.requestfrom bs4 import BeautifulSoup# 前缀+页数+后缀拼成URL，HOST用来把链接相对地址转

2020-12-03 00:48:54 220

原创爬取京东图书价格表

from selenium import webdriver #爬取京东图书价格表from bs4 import BeautifulSoupfrom lxml import htmlfrom time import sleepimport csvdef getHtml(url): # 获取网页源代码 driver = webdriver.Chrome() #为Google浏览器安装ch

2020-12-03 00:38:05 494

原创爬取天猫商品评论

import requests #https://mp.weixin.qq.com/s/9FUWopB--BPYe0f-K2lT2g 爬取天猫商品评论from bs4 import BeautifulSoup as bsimport jsonimport csvimport re#宏变量存储目标js的URL列表COMMENT_PAGE_URL = []#生成链接列表def Get_Url(num): urlFront

2020-12-03 00:25:28 913

原创 Spyder爬虫——数据预处理（二）

1、修改记录修改记录(数据)是比较常用的，比例数据中有些需要整体替换，有些需要个别修改等情况。（1）整体替换（2）个别修改①单值替换②指定列单值替换③多值替换import pandas as pddata=pd.DataFrame({'name':['妲己','诸葛亮','上官婉','司马懿','韩信'], #源数据 'age':[14,23,17,24,21]}) print(data)print(".......整

2020-11-16 17:07:27 3469 1

原创 2020年11月工信部考试——Hadoop（数据应用技术）中级认证 1

数据库15.MongoDB副本集的描述，不能对备份节点执行写操作。备份节点只通过复制功能写入数据，不接受客户端的写入请求；MongoDB各个节点常见搭配方式为：一主一从、一主多从；所有写入操作都在主节点上191. MongoDB 数据库关于集合的命名规则，下列选项描述正确的是不能是空字符串、不能用 system.开头、不能包含$218.MongoDB 被用作分片群集的控制器和查询路由器的组件是 mongosHBase4.HBase 的特点有高可靠性、高性能、面向列、可伸缩12. HBase

2020-11-16 16:50:38 3657

原创 2020年11月工信部考试——Hadoop（数据应用技术）中级认证3

283. 在 Linux 系统中创建一个目录 work，切换到该目录，并在该目录下创建文件 file.txt，写入内容“I have a dream!”，最后查看文件是否创建。mkdir workcd workecho “I have a dream” > file.txtls284. 请使用 SQL 创建如下表：表名： student属性：ID varchar(18) PKName varchar(20)Gender varchar(10)插入下列数据：学号，姓名，性别0

2020-10-24 00:11:33 3228 1

原创 2020年11月工信部考试——Hadoop（数据应用技术）中级认证2

280. 使用 Java API 在 HDFS 的根目录下创建/tmp/demo1 目录package com.myhdfs.mypro;import java.net.URI;import org.apache.hadoop.conf.Configuration;import org.apache.hadoop.fs.FileStatus;import org.apache.hadoop.fs.FileSystem;import org.apache.hadoop.fs.Path;publi

2020-10-24 00:11:14 1481

原创使用PowerDesigner搭建学生选课管理系统（学生老师管理员一体系结构）由基础设计至数据库生成（SQL语句源代码的生成）全过程实例操作

思考构图大小及范围首先，我们大致的写出要建的几张表，并自定义其Code（所谓Code其实就是自定义一个字段名，因为SQL语句不能由中文）我们可以将不同的表按照不同的类型分开，这样一个类型的表可以一起建并且相互之间的关系不会弄混制作概念模型我们建立管理员表、老师表、学生表，起初每张表的属性没有必要填的过于全面，我们开始要注重的是表之间的关系，表的属性可以在后面添加1、建第一类表老师和学生之间是多对多的关系（n：n）学生和管理员之间是多对多的关系（n：n）管理员和老师之间是多对多的关系（n：n

2020-10-04 19:45:15 15504 6

原创 CentOS 7 系统虚拟机之搭建伪分布式Hadoop环境（超级完整版没有之一）

一、建立虚拟机在VMware中新建1台虚拟机1、主机名：hadp2、镜像文件：Centos7链接: link.（https://pan.baidu.com/s/1pqGMlRwC-t5Qp5YF-aowuA 提取码:w3du）3、内存建议为4G，CPU建议为2核4、网络连接：NAT5、记录各虚拟机IPip addr //适用于Centos7以上版本ipconfig //适用于Centos7以下版本二、配置静态网卡（IP）虚拟机每次开机时都有可能更改IP，我们在搭建Hadoop时，每台

2020-07-15 23:44:02 4843 1

原创 Centos系统之jdk的安装（详细过程和注意事项）、openjdk如何装回安装包版本的jdk

1、下载jdkWindows系统中下载jdk文件jdk-8u73-linux-x64.tar.gz链接1: link.（https://pan.baidu.com/s/1cna38PQykYN03Hy_bUZ9pw 提取码:a42v）链接2（oracle官网下载）: link.(https://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html)2、上传jdk创建目录（置放安装文件）mkdir

2020-07-15 13:51:23 3810

原创 Centos7 系统虚拟机之搭建完全分布式Hadoop环境

基本工作建立虚拟机群在VMware中新建4台虚拟机1、主机名：hadp01、hadp02、hadp03、hadp042、镜像文件：Centos7（https://pan.baidu.com/s/1pqGMlRwC-t5Qp5YF-aowuA 提取码:w3du）3、内存：1.5G资源管理器中在此电脑上右键查看属性，要使得四个虚拟机的内存之和要小于本机运存4、网络连接：NAT5、记录各虚拟机IPip addr //适用于Centos7以上版本ipconfig

2020-07-13 22:38:55 5013 1

原创 vim编辑器的基本操作以及编译过程中常见的错误和简单解决方法

1、正常模式：对文本内容只能进行浏览，不可修改。在任何模式下按下Esc键就可返回正常模式2、编辑模式：可以向文本中添加删除修改内容，直接输入i键即可进入编辑模式3、退出vim：输入Esc键返回正常模式，然后输入:wq保存文本并退出vim（w→保存，q→退出）在编辑过程中可能出现的错误：E45: 'readonly' option is set (add ! to override) //当前用户没有权限对文件作出修改解决方法1：输入：wq！解决方法2：在进入vim编辑器编辑文本内容之前，进入超

2020-07-12 16:18:01 5559

源源源的博客