新宿一次狼-优快云博客

原创卸载wps后，win10的office所有图标变白最简单方法

卸载wps后，win10的office所有图标变白最简单方法

2022-08-04 13:36:45 8135 6

原创极大似然法python例子

已知一组数符合二项式分布，其中????为9，请采用最大似然估计方法估计该分布的另一个参数???? 。最大似然估计方法的思路是：要估计ppp，我们可以先写出在所有样本已知条件下的似然函数，P(x1,x2,⋯ ,xm∣p)=∏i=1mP(xi∣p)P(x_1,x_2,\cdots,x_m|p) = \prod_{i=1}^m P(x_i|p)P(x1,x2,⋯,xm∣p)=∏i=1mP(xi∣p)然后最大化似然函数，也就是对ppp求导，让导数等于0。可以得到 p=Xnmp = \frac{X

2021-02-01 20:23:45 2570

原创 intellij idea中git分支使用

在git中，本地仓库有本地仓库的master分支和其他分支，远程仓库有master分支和其他分支，分支和仓库是独立的概念。在idea的右下角，可以看到本地仓库的master分支和远程仓库的master分支。当然可以创建新的分支。黄色令牌代表是当前的分支，五角星代表最喜爱的分支。分支的作用就是在开发过程中，由于开发是合作开发模式，可能有一个功能，你需要当都check out一个分支出来，其他同事还是在原来的master 分支上做开发，等到你开发好了之后，你再把你的分支合并回到master 分支，这样

2020-12-05 22:39:30 2674

原创 intellij idea中git 提交本地仓库，远程仓库

开始之前要先了解几个概念工作区：即在代码所在的文件夹索引区：也叫暂存区本地仓库：使用git init在代码的所在文件夹中创建了一个.git隐藏文件。代码的所有修改和版本都记录在里面远程仓库：比如github，或者公司内部的远程仓库1.VCS，点击enable version control integration2.选择git3.这样就可以添加到暂存区和commit到本地仓库4.add之后5.commit,提交之后文件会变成白色6.此时这个文件夹只是提交到本地仓库，还可以在ide

2020-12-05 18:21:40 1998

原创 intellij idea中使用github

1.在idea中的file→settings中设置git账号2.填上github里面的token，先登录github，点击settings3.找到developer settings4.5.这个值就是token。这样idea就可以用github了

2020-12-05 17:42:26 361

原创 spark中shuffle过程分区源码分析

spark rdd 在shuffle过程中，涉及数据重组和重新分区，主要是根据key值，把相同的key值分配到同一个区。需要注意的是，因为分区的数量是有限的，所以会有不同的key分到相同的分区，这个过程主要是用hash算法实现。分区规则由抽象类Partitioner控制。默认分区是用HashPartitioner往下找可以找到HashPartitionerclass HashPartitioner(partitions: Int) extends Partitioner { require(pa

2020-11-16 12:04:05 330

原创 spark中rdd分区源码分析—textFile()创建rdd时的分区分析

textFile()创建rdd时分区分析此时是可以自己填入分区数的，也可以不填。现在来分析一下默认值。ctrl+鼠标左键点击textFile()def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile(path, classOf[TextInputFormat],

2020-11-16 10:43:40 695

原创 spark中rdd分区源码分析——parallelize()创建rdd时的分区分析

spark很让人迷惑的问题就是分区了。1.spark可以分成两代，第一代是rdd，主要是用来分析日志文件比较多，rdd里面就涉及到了分区的概念，spark是怎么去执行一个程序的。到了第二代，sparksql，已经没有需要个人自己去分区了，更多是操纵表，写sql。2.spark分区原则：(1)rdd分区的原则是尽量利用集群中的cpu数量，比如一个wordcount任务，一开始根据整个集群中cpu的个数，分成的份数尽量等于cpu核数，就可以充分利用cpu的资源。(2)rdd在有两种创建方法，分别是par

2020-11-15 22:11:51 1923 1

原创 spark代码idea、yarn、standalone模式运行

1.idea上运行val conf = new SparkConf().setAppName("SparkRDDWordCount") .setMaster("local[*]") //设置本地模式，用尽可能多的cpu2.yarnyarn模式分client客户端模式和cluster集群模式测试可以用client模式生产环境用cluster模式yarn模式运行spark，可以不用启动spark集群。这是与standalone模式的一个区别。还有查看运行的日志端口不同，yarn是

2020-11-15 15:39:41 629

原创 spark程序打jar包

spark代码要在集群上运行，需要先在idea上面打成jar包。1.打包前需要把一些代码删除掉package org.exampleimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDWordCount")// .se

2020-11-15 13:58:12 700

原创 spark的pom.xml

一个spark任务提交前需要用idea打包代码，pom.xml设置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> &lt

2020-11-15 11:27:27 814

原创 SparkRDD和SparkSQL实现wordcount

import org.apache.spark.{SparkConf, SparkContext}/* sparkrdd单词计数 */object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDWordCount") .setMaster("local[*]") val sc = new SparkContext

2020-11-15 00:14:41 238

原创 scala发送邮件设置参数

/** * @author: ymz * @DateTime: * @Description: */import com.typesafe.config.ConfigFactoryimport org.apache.log4j.Loggerimport org.junit.Testimport play.api.libs.mailer._object SendMail { /** * 发送邮件方法 * @param subject : 主题 * @param

2020-08-30 15:27:59 1261 2

原创 spark中用yarn client和yarn cluster两种模式提交任务

spark需要设置参数1、spark-env.sh 根据集群设置export SPARK_HOME=/export/servers/spark-2.2.0-bin-hadoop2.7export JAVA_HOME=/export/servers/jdk1.8.0_141export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop2、slaves 根据集群设置node01node02node03yarn cluster 模

2020-08-28 00:00:58 1103

原创 spark报错INFO yarn.Client: Application report for application (state: ACCEPTED)解决

在生产环境中，spark的计算任务提交一般是用yarn模式来做提交的。今天在自己搭建的集群测试yarn提交时候遇到以下报错，20/08/27 23:04:15 INFO yarn.Client: Application report for application_1598539765305_0002 (state: ACCEPTED)20/08/27 23:04:16 INFO yarn.Client: Application report for application_15985397653

2020-08-27 23:34:41 9190

原创目前python就业市场方向

目前python在外面公司主要有几种岗位：1.爬虫。爬虫一般根据不同公司业务，还分为电商，工商，内容，征信。a.电商，主要是爬商品价格，做热门的商品，比价等。b.工商，比如爬企业信用信息公示系统，做像天眼查，企查查那样产品。c.内容，像今日头条那种爬内容，现在很少公司做了，因为做不出第二个今日头条app了。d.征信，这个基本被打击全没了，而且也不知道怎么会有这种爬虫，个人信息的接口不知道哪里来的。爬虫目前就电商和工商在做比较多，但是难度越来越大，基本很多都是爬抖音，小红书这些app的

2020-08-23 12:24:48 1132

原创目前大数据就业市场的方向

网上有很多生化环材的劝退帖，加之最近几年的就业形势比较差，各种培训机构和广告在推销各种计算机培训，大数据和python是目前炒的很火的。很多人都是不怎么了解外面大数据公司到底是在做什么的，所以就讲讲自己知道的这个大数据。1.电商公司(1)做报表系统。现在很多公司做数据中台，把整个公司各个部门数据整合一起，做数据的报表系统。比如公司有各种日志，和埋点数据，销售数据，这些数据都是每时每刻产生的，日积月累，数量庞大，普通的数据库计算太慢了，所以一般会放到分布式集群，用数仓工具进行处理。最后再把计算结果展示

2020-08-22 10:24:14 606

原创大数据学习笔记——分布式计算有向无环图和深度学习迭代计算

大数据分布式计算一个很显著的特征是单向性，就像程序流程设计中的顺序执行程序，是按照一个方向前进的，不会有循环往复的计算过程，我们可以仔细想一下，我们用算子，或者sql的时候，只是计算出一个最终结果就完结束了。所以这也是叫有向无环图的原因。但是深度学习神经网络的计算不一样，是一种迭代式计算，像程序流程设计中的循环，会不断往复计算得到结果的误差率，误差率我们设置一个认为合适的值，当计算到在误差率内的时候，认为参数满足要求，进而结束运算。...

2020-08-21 23:43:09 917

原创写sql的技巧

写sql的时候，新手容易一开始无从下手，有个技巧是，sql分类起来是三种：1、select 语句2、group by 分组语句3、join 连接语句平常写的sql，大多数是这三种的组合，另外聚合和排序是和这三种语句结合使用的。在写sql的时候，想一想sql分类，就可以更快写出sql。写出sql后，我们一般的优化也就是匹配索引，加上索引后explain执行计划，看看是不是有用到索引，type是否满足要求，就基本上算是合格的sql了，不行的话再调整索引。...

2020-08-21 23:28:10 916

原创 mysql优化——索引使用技巧

一、加索引方法加索引可以用命令，也可以在sqlyog中进行操作，比较方便。索引分成四种：fulltext：全文索引，基本不用，搜索一般用esprimary：主键索引unique：唯一索引空白：普通索引索引还可以分成：5. 单列索引6. 联合索引要注意的就是他们是可以组合来的，比如把几个字段设置做一个联合索引，这个联合索引还可以选择fulltext里面四种的一种，可以在sqlyog中试试。二、如何查看索引是否有效看索引是否有效还是在执行计划里面看，主要有以下三点type

2020-08-19 11:50:26 589

原创 mysql 执行计划详解(附实例)

mysql 执行计划详解执行计划查询执行计划： explain +SQL语句id : 编号 select_type ：查询类型table ：表type ：类型possible_keys ：预测用到的索引key ：实际使用的索引key_len ：实际使用索引的长度ref :表之间的引用rows ：通过索引查询到的数据量Extra ：额外的信息准备数据：create table course(cid int(3),cname varchar(20),tid i

2020-08-19 00:18:14 817

原创安装linux版本mysql

linux版本用yum安装比较简单1、在线安装mysql相关软件包yum install mysql mysql-server mysql-devel2、启动mysql服务/etc/init.d/mysqld start3、通过mysql安装自带脚本进行设置，主要有以下5项，其中要注意的是选择n才可以不关闭远程登录mysql/usr/bin/mysql_secure_installationa)为root用户设置密码b)删除匿名账号c)取消root用户远程登录d)删除tes

2020-08-10 11:13:08 431

原创大数据学习笔记——idea如何打开一个别人maven项目

1、启动idea，选择import project2、选择pom.xml文件打开3、在setting中设置maven，包括maven的安装路径文件夹，setting.xml，和maven在本机上的仓库4、在project structure中设置sdk，还有output文件夹，如果是别人的maven项目，很可能没有需要自己创建一下5、等待maven的jar依赖导入完毕，或者等待下载完，这样别人的项目就可以运行了...

2020-08-10 00:27:25 7685

原创大数据学习笔记——sqoop

导入mysql表数据到HDFS# userdb库表emp导到目标文件夹/sqoopresult212bin/sqoop import \--connect jdbc:mysql://192.168.65.120:3306/userdb \--username root \--password 123456 \--delete-target-dir \--target-dir /sqoopresult212 \ # hdfs路径--table emp --m 1

2020-08-08 10:58:43 470

原创大数据学习笔记——算法时间复杂度简单推导

下图是常用的时间复杂度变化曲线O(n)：一个for循环计算public int count(int n){　　int sum = 0;　　for(int i = 1; i <= n; i++) sum += i; return sum;}O(n2)：就是两个for循环嵌套O(log2n)：int n = 100;int i = 1; while(i <= n){ i *= 2;}1∗2x=100⇒x=log21001*2^{x

2020-08-07 15:13:52 808

原创大数据学习笔记——sql优化实例

1、where语句优化select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt='20200808';可优化为select m.cid,u.id from （select * from order where dt='20200808'） m join customer u on( m.cid =u.id);2、union优化尽量不要使用union （union 去掉重复的记录）而是使用 union

2020-08-07 11:04:09 599

原创大数据学习笔记——linux连接工具secureCRT配置

1、仿真linux设置2、字体字符编码设置3、一个命令发送到多台服务器，这个命令很有用，可能很多人还不知道。同一个命令只需要敲一次。

2020-08-07 10:09:38 473

原创大数据学习笔记——windows环境下配置hadoop

在windows中idea直接运行spark代码出现缺少winutils.exe报错情况，需要配置Hadoop运行环境可能出现如下报错：缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java cla.

2020-08-06 01:11:53 555

原创大数据学习笔记——用dbeaver6.2.4连接hive1.2

给hive装备上一个可视化工具，那是相当给力的。dbeaver连接hive的时候，需要以下步骤：1、启动MySQL数据库，hive的元数据存储在mysql中2、cd /export/servers/apache-hive-1.2.1-bin/bin 进入hive安装的bin目录3、nohuphive--servicemetastore-p9083>/dev/null& 后台启动metastore4、nohup hive --service hives...

2020-08-06 00:51:15 709

原创大数据学习笔记——数据仓库hive重要的总结

1、外部表和内部表Hive 表分为两类，即内部表和外部表。所谓内部表，即Hive 管理的表， Hive 内部表的管理既包含逻辑以及语法上的，也包含实际物理意义上的，即创建 Hive 内部表时，数据将真实存在于表所在的目录内，删除内部表时，物理数据和文件也一并删除。外部表（ external table）则不然，其管理仅仅是在逻辑和语法意义上的，即新建表仅仅是指向一个外部目录而已。同样，删除时也并不物理删除外部目录，而仅仅是将引用和定义删除。外部表，指定 EXTERNAL 关键字后，因而不会把.

2020-08-05 15:31:15 875

原创大数据学习笔记——kafka总结

1.kafka整体架构和术语Broker：kafka集群中包含一个或者多个服务实例，这种服务实例被称为Broker Topic：每条发布到kafka集群的消息都有一个类别，这个类别就叫做Topic Partition：Partition是一个物理上的概念，每个Topic包含一个或者多个Partition Producer：负责发布消息到kafka的Broker中。 Consumer：消息消费者,向kafka的broker中读取消息的客户端 Consumer Group：每一个Consu..

2020-08-03 17:59:55 563

原创大数据学习笔记——zookeeper在hadoop集群中的作用

zookeeper主要是用来搭建高可用的Hadoop集群，即High Availability，简称(HA)测试中集群是可以不需要高可用的，即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性，需要增加一个namenode备用，当active的namenode挂了之后，系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。...

2020-08-02 22:29:17 2762

原创大数据学习笔记——linux常用命令整理

1、常用操作查看当前目录下的所有文件及目录 ls/ll 进入目录 cd 查看当前目录 pwd 结束当前进程 ctrl+c/ctrl+z ctrl + z可以将一个正在前台执行的命令放到后台，并且暂停，进程其实还在的，也可以将其恢复。新建目录 mkdir dir1[ dir2 dir3 dir4] 新建四个dir 删除目录 rm -rf dir 删除目录下及目录下的所有文件递归创建目录 mkdir -p /dir1/dir2/dir3/dir4 清屏 clear 或者 ctrl+...

2020-08-02 18:29:01 583

原创大数据学习笔记——大数据学习过程中的重点

目前大数据开发方面，市场上最主要的还是用spark做开发居多。这一点也可以从招聘网站上可以看到。整个大数据体系经过这么多年的发展，相当的繁杂，各种各样的组件，但是其中有一些已经过时了，或者用的少了，其实干脆就不用学了，免得浪费时间。下面介绍自己学习过程中的大数据重点。1.linuxlinux系统肯定是基础了，大数据集群是运行在这上面的。linux在服务器上面一般是用centos系统，还分6.x版本和7.x版本，这两个版本有一些命令是不一样的，比如在启动某个服务的命令是不一样的，写法有区别，有...

2020-08-02 18:17:30 949

yanzhao_num_all.xlsx

空空如也