小林月-优快云博客

原创一、基础select查询和设置别名“重命名”——小林月

1.3觉得麻烦也可以使用navicat的创建工具进行勾选查询字段。1.1查询表格中某个字段。1.2 查询多个字段。

2023-03-23 13:18:41 1752

原创 Hadoop集群启动后命令JPS没有DataNode或者NameNode

a:进入/opt/module/hadoop-3.1.3/data/dfs目录里面删除掉所有文件。c:进入/opt/module/hadoop-3.1.3/logs目录里面删除掉所有文件。1）需要检查core-site.xml 和 hdfs-site.xml这俩文件，配置没错的话再看第二条。2）可能已经执行格式化NameNode后，但是格式之前并没有停止之前的进程并删除相关数据。1）删除dfs文件夹里的文件和删除nm-local-dir目录。2）删除后需要重新执行格式化NameNode操作。

2023-03-22 09:19:07 9495

原创 selenium模拟登陆某宝商家店铺千牛后台--小林月

selenium：用来模拟人自动登陆网页任务：爬取店铺链接创建时间以及ID，标题。

2023-05-11 10:46:00 1982 1

原创 server.start()出现报错browsermobproxy.exceptions.ProxyServerError

browsermobproxy.exceptions.ProxyServerError: The Browsermob-Proxy server process failed to start. Check <_io.TextIOWrapper name='F:\\pythonProject\\爬虫\\server.log' mode='w' encoding='cp936'>for a helpful error message.记住你的安装地址，我把它更改为 F:\Java】86位电脑的点击上面那个。

2023-05-05 17:22:20 1955 3

原创 python -- 查找出相同文件夹中缺失的文件

我要看出左边商品明细数据有25个文件，而全站推广只有22个文件，而缺失的文件如果我们一一对比会消耗大量时间（实际业务需求会更大）。在实际业务中我们会发现两个文件夹数据缺失人工对比会太难，这时候用几行代码就可以判断出文件的缺失，大大的减少了我们的时间。第二步、用完整的商品明细取比对一个个文件名是否存在于搜索推广中。第一步、先读取对应文件夹路径找出商品明细中的所有数据存于列表中。查找出缺失的三个文件。

2023-04-23 16:59:48 619

原创 xpath局部解析以及最新58（链家）二手房案例-小林月

58同城Xpath爬取结果（用excel存储）

2023-04-04 00:30:21 548

原创 python连接数据库--小林月

Python3如何连接Mysql呢？PyMySQL是在Py3版本用于连接Mysql。

2023-04-02 22:57:07 268

原创 python爬虫-bs4案例爬取三国演义全文-小林月

因此我们可以先爬取网页的标题和对应的章节网址，再以此爬取章节对应的内容。而每个标签的href则是对应章节的详细内容的网址。可以看出三国演义的标题在页面源码的里面。《三国演义》全集在线阅读_史书典籍_诗词名句网。1.2.2 标签页（外页）利用抓包器查看数据包类型。1.1.2 详情页页面。1.1.1 标题页面。

2023-04-02 20:22:30 1815

原创 python爬虫-bs4详解--小林月

bs4进行数据解析。

2023-04-02 19:16:13 725

原创 python-请你从 nums 中选出三个整数，使它们的和与 target 最接近-小林月

【代码】python-请你从 nums 中选出三个整数，使它们的和与 target 最接近-小林月。

2023-03-30 15:09:47 197

原创 python爬虫-豆瓣喜剧电影评分top100的电影-小林月

查看请求方法，网址，以及返回形式。直接利用requests模块上代码。排行榜向下滑动的时候发起一个请求。

2023-03-29 13:41:29 856

原创 python爬虫-简单页面抓取器-小林月

UA伪装:门户网站的服务器会检测对应请求的载体身份标识. # 如果检测到请求的载体身份标识为某一款浏览器，则他是一个正常的请求王 # 共为不正常的请求，则服务器端就很有可能拒绝该次请求。查看我们进入页面的UA，打开网页，回车搜索，打开F12，找到网络（wetbook）#UA:.UserAgent(请求载体的身份标识)因此我们要访问网站的反反爬策略就是已UA客户端进入。这就是我们的客户端的UA。

2023-03-29 09:27:52 571

原创 python 爬虫介绍入门

通过编写程序，模拟浏览器上网，然后让其去互联网上抓取数据的过程。

2023-03-28 23:37:35 486

原创十二、sql使用explain调优详解--小林月

在语句前添加explain。

2023-03-28 19:50:02 178

原创 hadoop三个核心框架底层原理--小林月

HDFS（Hadoop Distributed File System），它是一个文件系统，用于存储文件，通过目录树来定位文件；其次，它是分布式的，由很多服务器联合起来实现其功能，集群中的服务器有各自的角色。HDFS的使用场景：适合一次写入，多次读出的场景。一个文件经过创建、写入和关闭之后就不需要改变。5.1.1) Resource Manager (RM) :整个集群资源（内存、CPu等）的老大A)处理来自客户端的请求B)监控NodeManager。

2023-03-27 22:51:21 704

原创十一、sql-DML操作（插入insert，删除update，修改delete）--小林月

1.2.不可以为null的列必须插入值。可以为null的列如何插入值?#案例1:修改beauty表中姓唐的女神的电话为13899888899。delete from表名where筛选条件。#1.播入的值的类型要与列的类型—致或兼容。案例:修改张无忌的女朋友的手机号为114。1、方式一支持插入多行。#2.修改多表的记录。#1.修改单表的记录。

2023-03-27 15:19:48 179

原创十、sql-子查询-小林月

含义:出现在其他语句中的select语句,称为子查询或内查询外都的查询语句,称为主查询或外查询。

2023-03-27 14:26:44 172

原创九、sql-多表查询（sql99）-小林月

含义:又称连接查询，当查询的字段来自于多个表时，就会用到连接查询笛卡尔乘积现象:表1有m行，表2有n行，结果=m*n行发生原因:没有有效的连接条件如何避免:添加有效的连接条件会出现一对多的情况，需要添加条件来避免。

2023-03-26 23:30:16 220

原创八、sql-分组函数 group by（where和having）详解和举例-小林月

案例:按员工姓名的长度分组，查询每一组的员工个数，筛选员工个数>5的有哪些。案例2:查询每个工种有奖金的员工的最高工资>12000的工种编号和最高工资。案例1:查询邮箱中包含a字符的，每个部门的平均工资。案例2:查询有奖金的每个领导手下员工的最高工资。②根据①结果继续筛选，最高工资>12000。案例:查询每个部门每个工种的员工的平均工资。案例1：查询出员工个数大于2 的部门。①查询每个工种有奖金的员工的最高工资。案例二：查询每个位置上的部门个数。案例一：查询每个工种的最高工资。

2023-03-26 19:09:40 1446 1

原创【数据分析】基于XGboost（决策树）的银行产品认购预测--小林月

环境：使用python+jupter nodebook数据：本文数据来源2023年【教学赛】金融数据分析赛题1：银行客户认购产品预测。

2023-03-24 12:04:05 5454 2

原创七、分组函数（sum，avg，max，min，count）-小林月

功能:用作统计使用，又称为聚合函数或统计函数或组函数分类:sum求和、avg 平均值、max最大值、min最小值、count计算个数#1、简单的使用SELECTSUM(salary)和,aVG(salary)平均,MAX(salary)最高, MIN(salary)最低, coUNT (salary) 个数。

2023-03-24 10:51:39 449

原创六、sql流程控制if和case函数详讲-小林月

案例：查询班级没有信息的学生信息并备注。

2023-03-24 10:16:05 175

原创五、sql 获取日期的函数-小林月

其余的与他月，秒，分，等相同。

2023-03-23 21:57:38 1195

原创四、sql常见数字函数-小林月

【代码】四、sql常见数字函数-小林月。

2023-03-23 21:45:47 164

原创三、 sql语句常用字符函数-小林月

案例：姓名中首字符大写，其他字符小写然后用_拼接，显示出来。Iinsert：返回字符串第一次出现的位置，找不到返回0。加入form可以自我定义。

2023-03-23 21:36:04 165

原创 order by 排序查询 -小林月

案例三：如果按照一个字段排序以后，需要再次排序。案例：按照学号从小大进行显示名字和班级。案例二：按照姓名长度进行排序。

2023-03-23 20:38:20 160

原创二、条件查询（where）

案例：查找学号在2019443800到2019444000或者班级是大数据19-03班的的学生。案例：查询班级是大数据2019-03或者大数据2019-04的学生的学号和名字。案例：班级不是大数据2019-03或者大数据2019-04的学生的学号和名字。案例：查询学号在2019443800到2019444000的学生名字和班级。案例二：查询第二个字符是数，第是个数据是2的学生学号。案例：#查询学号大于2019443800的学生。案例：查询某字段数据中含有“数”的学生信息。

2023-03-23 16:06:58 307

原创 mysql去重和+的使用-小林月

【代码】mysql去重和+的使用-小林月。

2023-03-23 14:04:19 108

原创 mysql常用命令-小林月

- show TABLEs from “数据库”CREATE TABLE “表名”(3)展示当前数据库下的所有表格。4)查看其他库的所有表。2)3)进入某个数据库。

2023-03-23 12:34:51 132

原创编写myhadoop.sh脚本快捷开启集群，一起开启（关闭）dfs，yarn

1）各个模块分开启动/停止（配置ssh是前提）常用（1）整体启动/停止HDFS （2）整体启动/停止YARN2）各个服务组件逐一启动/停止（1）分别启动/停止HDFS组件（2）启动/停止YARN编写Hadoop集群常用脚本1）Hadoop集群启停脚本（包含HDFS，Yarn，Historyserver）：myhadoop.sh输入以下内容保存后退出，然后赋予脚本执行权限2）查看三台服务器Java进程脚本：j

2023-03-22 12:53:17 436

原创【问题】hadoop jar wordcount时报INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.75

运行hadoop jar share/hadoop/mapreduce/hadoop-mapreduce-examples-3.1.3.jar wordcount /input /output1出现INFO client.RMProxy: Connecting to ResourceManager at hadoop103/192.168.75。这里可以自己去用stop.dfs.sh和stop.yarn.sh分别去你配置的副本进行关闭。集群下的所有data/ logs/文件夹。3.重新格式化nameno。

2023-03-22 12:39:37 1292

qq_53953480的博客