自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(53)
  • 资源 (1)
  • 收藏
  • 关注

原创 卸载wps后,win10的office所有图标变白最简单方法

卸载wps后,win10的office所有图标变白最简单方法

2022-08-04 13:36:45 8135 6

原创 极大似然法python例子

已知一组数符合二项式分布,其中????为9,请采用最大似然估计方法估计该分布的另一个参数???? 。最大似然估计方法的思路是:要估计ppp,我们可以先写出在所有样本已知条件下的似然函数,P(x1,x2,⋯ ,xm∣p)=∏i=1mP(xi∣p)P(x_1,x_2,\cdots,x_m|p) = \prod_{i=1}^m P(x_i|p)P(x1​,x2​,⋯,xm​∣p)=∏i=1m​P(xi​∣p)然后最大化似然函数,也就是对ppp求导,让导数等于0。可以得到 p=Xnmp = \frac{X

2021-02-01 20:23:45 2570

原创 intellij idea中git分支使用

在git中,本地仓库有本地仓库的master分支和其他分支,远程仓库有master分支和其他分支,分支和仓库是独立的概念。在idea的右下角,可以看到本地仓库的master分支和远程仓库的master分支。当然可以创建新的分支。黄色令牌代表是当前的分支,五角星代表最喜爱的分支。分支的作用就是在开发过程中,由于开发是合作开发模式,可能有一个功能,你需要当都check out一个分支出来,其他同事还是在原来的master 分支上做开发,等到你开发好了之后,你再把你的分支合并回到master 分支,这样

2020-12-05 22:39:30 2674

原创 intellij idea中git 提交本地仓库,远程仓库

开始之前要先了解几个概念工作区:即在代码所在的文件夹索引区:也叫暂存区本地仓库:使用git init在代码的所在文件夹中创建了一个.git隐藏文件。代码的所有修改和版本都记录在里面远程仓库:比如github,或者公司内部的远程仓库1.VCS,点击enable version control integration2.选择git3.这样就可以添加到暂存区和commit到本地仓库4.add之后5.commit,提交之后文件会变成白色6.此时这个文件夹只是提交到本地仓库,还可以在ide

2020-12-05 18:21:40 1998

原创 intellij idea中使用github

1.在idea中的file→settings中设置git账号2.填上github里面的token,先登录github,点击settings3.找到developer settings4.5.这个值就是token。这样idea就可以用github了

2020-12-05 17:42:26 361

原创 spark中shuffle过程分区源码分析

spark rdd 在shuffle过程中,涉及数据重组和重新分区,主要是根据key值,把相同的key值分配到同一个区。需要注意的是,因为分区的数量是有限的,所以会有不同的key分到相同的分区,这个过程主要是用hash算法实现。分区规则由抽象类Partitioner控制。默认分区是用HashPartitioner往下找可以找到HashPartitionerclass HashPartitioner(partitions: Int) extends Partitioner { require(pa

2020-11-16 12:04:05 330

原创 spark中rdd分区源码分析—textFile()创建rdd时的分区分析

textFile()创建rdd时分区分析此时是可以自己填入分区数的,也可以不填。现在来分析一下默认值。ctrl+鼠标左键点击textFile()def textFile( path: String, minPartitions: Int = defaultMinPartitions): RDD[String] = withScope { assertNotStopped() hadoopFile(path, classOf[TextInputFormat],

2020-11-16 10:43:40 695

原创 spark中rdd分区源码分析——parallelize()创建rdd时的分区分析

spark很让人迷惑的问题就是分区了。1.spark可以分成两代,第一代是rdd,主要是用来分析日志文件比较多,rdd里面就涉及到了分区的概念,spark是怎么去执行一个程序的。到了第二代,sparksql,已经没有需要个人自己去分区了,更多是操纵表,写sql。2.spark分区原则:(1)rdd分区的原则是尽量利用集群中的cpu数量,比如一个wordcount任务,一开始根据整个集群中cpu的个数,分成的份数尽量等于cpu核数,就可以充分利用cpu的资源。(2)rdd在有两种创建方法,分别是par

2020-11-15 22:11:51 1923 1

原创 spark代码idea、yarn、standalone模式运行

1.idea上运行val conf = new SparkConf().setAppName("SparkRDDWordCount") .setMaster("local[*]") //设置本地模式,用尽可能多的cpu2.yarnyarn模式分client客户端模式和cluster集群模式测试可以用client模式生产环境用cluster模式yarn模式运行spark,可以不用启动spark集群。这是与standalone模式的一个区别。还有查看运行的日志端口不同,yarn是

2020-11-15 15:39:41 629

原创 spark程序打jar包

spark代码要在集群上运行,需要先在idea上面打成jar包。1.打包前需要把一些代码删除掉package org.exampleimport org.apache.spark.{SparkConf, SparkContext}object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDWordCount")// .se

2020-11-15 13:58:12 700

原创 spark的pom.xml

一个spark任务提交前需要用idea打包代码,pom.xml设置<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance" xsi:schemaLocation="http://maven.apache.org/POM/4.0.0 http://maven.apache.org/maven-v4_0_0.xsd"> &lt

2020-11-15 11:27:27 814

原创 SparkRDD和SparkSQL实现wordcount

import org.apache.spark.{SparkConf, SparkContext}/* sparkrdd单词计数 */object WordCount { def main(args: Array[String]): Unit = { val conf = new SparkConf().setAppName("SparkRDDWordCount") .setMaster("local[*]") val sc = new SparkContext

2020-11-15 00:14:41 238

原创 scala发送邮件设置参数

/** * @author: ymz * @DateTime: * @Description: */import com.typesafe.config.ConfigFactoryimport org.apache.log4j.Loggerimport org.junit.Testimport play.api.libs.mailer._object SendMail { /** * 发送邮件方法 * @param subject : 主题 * @param

2020-08-30 15:27:59 1261 2

原创 spark中用yarn client和yarn cluster两种模式提交任务

spark需要设置参数1、spark-env.sh 根据集群设置export SPARK_HOME=/export/servers/spark-2.2.0-bin-hadoop2.7export JAVA_HOME=/export/servers/jdk1.8.0_141export HADOOP_CONF_DIR=/export/servers/hadoop-2.7.5/etc/hadoop2、slaves 根据集群设置node01node02node03yarn cluster 模

2020-08-28 00:00:58 1103

原创 spark报错INFO yarn.Client: Application report for application (state: ACCEPTED)解决

在生产环境中,spark的计算任务提交一般是用yarn模式来做提交的。今天在自己搭建的集群测试yarn提交时候遇到以下报错,20/08/27 23:04:15 INFO yarn.Client: Application report for application_1598539765305_0002 (state: ACCEPTED)20/08/27 23:04:16 INFO yarn.Client: Application report for application_15985397653

2020-08-27 23:34:41 9190

原创 目前python就业市场方向

目前python在外面公司主要有几种岗位:1.爬虫。爬虫一般根据不同公司业务,还分为电商,工商,内容,征信。a.电商,主要是爬商品价格,做热门的商品,比价等。b.工商,比如爬企业信用信息公示系统,做像天眼查,企查查那样产品。c.内容,像今日头条那种爬内容,现在很少公司做了,因为做不出第二个今日头条app了。d.征信,这个基本被打击全没了,而且也不知道怎么会有这种爬虫,个人信息的接口不知道哪里来的。爬虫目前就电商和工商在做比较多,但是难度越来越大,基本很多都是爬抖音,小红书这些app的

2020-08-23 12:24:48 1132

原创 目前大数据就业市场的方向

网上有很多生化环材的劝退帖,加之最近几年的就业形势比较差,各种培训机构和广告在推销各种计算机培训,大数据和python是目前炒的很火的。很多人都是不怎么了解外面大数据公司到底是在做什么的,所以就讲讲自己知道的这个大数据。1.电商公司(1)做报表系统。现在很多公司做数据中台,把整个公司各个部门数据整合一起,做数据的报表系统。比如公司有各种日志,和埋点数据,销售数据,这些数据都是每时每刻产生的,日积月累,数量庞大,普通的数据库计算太慢了,所以一般会放到分布式集群,用数仓工具进行处理。最后再把计算结果展示

2020-08-22 10:24:14 606

原创 大数据学习笔记——分布式计算有向无环图和深度学习迭代计算

大数据分布式计算一个很显著的特征是单向性,就像程序流程设计中的顺序执行程序,是按照一个方向前进的,不会有循环往复的计算过程,我们可以仔细想一下,我们用算子,或者sql的时候,只是计算出一个最终结果就完结束了。所以这也是叫有向无环图的原因。但是深度学习神经网络的计算不一样,是一种迭代式计算,像程序流程设计中的循环,会不断往复计算得到结果的误差率,误差率我们设置一个认为合适的值,当计算到在误差率内的时候,认为参数满足要求,进而结束运算。...

2020-08-21 23:43:09 917

原创 写sql的技巧

写sql的时候,新手容易一开始无从下手,有个技巧是,sql分类起来是三种:1、select 语句2、group by 分组语句3、join 连接语句平常写的sql,大多数是这三种的组合,另外聚合和排序是和这三种语句结合使用的。在写sql的时候,想一想sql分类,就可以更快写出sql。写出sql后,我们一般的优化也就是匹配索引,加上索引后explain执行计划,看看是不是有用到索引,type是否满足要求,就基本上算是合格的sql了,不行的话再调整索引。...

2020-08-21 23:28:10 916

原创 mysql优化——索引使用技巧

一、加索引方法加索引可以用命令,也可以在sqlyog中进行操作,比较方便。索引分成四种:fulltext:全文索引,基本不用,搜索一般用esprimary:主键索引unique:唯一索引空白:普通索引索引还可以分成:5. 单列索引6. 联合索引要注意的就是他们是可以组合来的,比如把几个字段设置做一个联合索引,这个联合索引还可以选择fulltext里面四种的一种,可以在sqlyog中试试。二、如何查看索引是否有效看索引是否有效还是在执行计划里面看,主要有以下三点type

2020-08-19 11:50:26 589

原创 mysql 执行计划详解(附实例)

mysql 执行计划详解执行计划查询执行计划: explain +SQL语句id : 编号 select_type :查询类型table :表type :类型possible_keys :预测用到的索引key :实际使用的索引key_len :实际使用索引的长度ref :表之间的引用rows :通过索引查询到的数据量Extra :额外的信息准备数据:create table course(cid int(3),cname varchar(20),tid i

2020-08-19 00:18:14 817

原创 安装linux版本mysql

linux版本用yum安装比较简单1、在线安装mysql相关软件包yum install mysql mysql-server mysql-devel2、启动mysql服务/etc/init.d/mysqld start3、通过mysql安装自带脚本进行设置,主要有以下5项,其中要注意的是选择n才可以不关闭远程登录mysql/usr/bin/mysql_secure_installationa)为root用户设置密码b)删除匿名账号c)取消root用户远程登录d)删除tes

2020-08-10 11:13:08 431

原创 大数据学习笔记——idea如何打开一个别人maven项目

1、启动idea,选择import project2、选择pom.xml文件打开3、在setting中设置maven,包括maven的安装路径文件夹,setting.xml,和maven在本机上的仓库4、在project structure中设置sdk,还有output文件夹,如果是别人的maven项目,很可能没有需要自己创建一下5、等待maven的jar依赖导入完毕,或者等待下载完,这样别人的项目就可以运行了...

2020-08-10 00:27:25 7685

原创 大数据学习笔记——sqoop

导入mysql表数据到HDFS# userdb库表emp导到目标文件夹/sqoopresult212bin/sqoop import \--connect jdbc:mysql://192.168.65.120:3306/userdb \--username root \--password 123456 \--delete-target-dir \--target-dir /sqoopresult212 \ # hdfs路径--table emp --m 1

2020-08-08 10:58:43 470

原创 大数据学习笔记——算法时间复杂度简单推导

下图是常用的时间复杂度变化曲线O(n):一个for循环计算public int count(int n){  int sum = 0;  for(int i = 1; i <= n; i++) sum += i; return sum;}O(n2):就是两个for循环嵌套O(log2n):int n = 100;int i = 1; while(i <= n){ i *= 2;}1∗2x=100⇒x=log21001*2^{x

2020-08-07 15:13:52 808

原创 大数据学习笔记——sql优化实例

1、where语句优化select m.cid,u.id from order m join customer u on( m.cid =u.id )where m.dt='20200808';可优化为select m.cid,u.id from (select * from order where dt='20200808') m join customer u on( m.cid =u.id);2、union优化​尽量不要使用union (union 去掉重复的记录)而是使用 union

2020-08-07 11:04:09 599

原创 大数据学习笔记——linux连接工具secureCRT配置

1、仿真linux设置2、字体字符编码设置3、一个命令发送到多台服务器,这个命令很有用,可能很多人还不知道。同一个命令只需要敲一次。

2020-08-07 10:09:38 473

原创 大数据学习笔记——windows环境下配置hadoop

在windows中idea直接运行spark代码出现缺少winutils.exe报错情况,需要配置Hadoop运行环境可能出现如下报错:缺少winutils.exeCould not locate executable null \bin\winutils.exe in the hadoop binaries缺少hadoop.dllUnable to load native-hadoop library for your platform… using builtin-Java cla.

2020-08-06 01:11:53 555

原创 大数据学习笔记——用dbeaver6.2.4连接hive1.2

给hive装备上一个可视化工具,那是相当给力的。dbeaver连接hive的时候,需要以下步骤:1、启动MySQL数据库,hive的元数据存储在mysql中2、cd /export/servers/apache-hive-1.2.1-bin/bin 进入hive安装的bin目录3、nohuphive--servicemetastore-p9083>/dev/null& 后台启动metastore4、nohup hive --service hives...

2020-08-06 00:51:15 709

原创 大数据学习笔记——数据仓库hive重要的总结

1、外部表和内部表Hive 表分为两类,即内部表和外部表。 所谓内部表,即Hive 管理的表, Hive 内部表的管理既包含逻辑以及语法上的,也包含实际物理意义上的,即创建 Hive 内部表时,数据将真实存在于表所在的目录内,删除内部表时,物理数据和文件也一并删除。 外部表 ( external table)则不然,其管理仅仅是在逻辑和语法意义上的,即新建表仅仅是指向一个外部目录而已。 同样,删除时也并不物理删除外部目录,而仅仅是将引用和定义 删除。外部表,指定 EXTERNAL 关键字后,因而不会把.

2020-08-05 15:31:15 875

原创 大数据学习笔记——kafka总结

1.kafka整体架构和术语Broker:kafka集群中包含一个或者多个服务实例,这种服务实例被称为Broker Topic:每条发布到kafka集群的消息都有一个类别,这个类别就叫做Topic Partition:Partition是一个物理上的概念,每个Topic包含一个或者多个Partition Producer:负责发布消息到kafka的Broker中。 Consumer:消息消费者,向kafka的broker中读取消息的客户端 Consumer Group:每一个Consu..

2020-08-03 17:59:55 563

原创 大数据学习笔记——zookeeper在hadoop集群中的作用

zookeeper主要是用来搭建高可用的Hadoop集群,即High Availability,简称(HA)测试中集群是可以不需要高可用的,即使用一个namenode即可。但是在生产环境中为了提高集群的可靠性,需要增加一个namenode备用,当active的namenode挂了之后,系统会启动standby的namenode。这就需要zookeeper监控namenode的状态。...

2020-08-02 22:29:17 2762

原创 大数据学习笔记——linux常用命令整理

1、常用操作查看当前目录下的所有文件及目录 ls/ll 进入目录 cd 查看当前目录 pwd 结束当前进程 ctrl+c/ctrl+z ctrl + z可以将一个正在前台执行的命令放到后台,并且暂停,进程其实还在的,也可以将其恢复。 新建目录 mkdir dir1[ dir2 dir3 dir4] 新建四个dir 删除目录 rm -rf dir 删除目录下及目录下的所有文件 递归创建目录 mkdir -p /dir1/dir2/dir3/dir4 清屏 clear 或者 ctrl+...

2020-08-02 18:29:01 583

原创 大数据学习笔记——大数据学习过程中的重点

目前大数据开发方面,市场上最主要的还是用spark做开发居多。这一点也可以从招聘网站上可以看到。整个大数据体系经过这么多年的发展,相当的繁杂,各种各样的组件,但是其中有一些已经过时了,或者用的少了,其实干脆就不用学了,免得浪费时间。下面介绍自己学习过程中的大数据重点。1.linuxlinux系统肯定是基础了,大数据集群是运行在这上面的。linux在服务器上面一般是用centos系统,还分6.x版本和7.x版本,这两个版本有一些命令是不一样的,比如在启动某个服务的命令是不一样的,写法有区别,有...

2020-08-02 18:17:30 949

原创 安装windows版本mysql

1.下载windows版本的mysql,mysql-5.7.24-winx642.该版本是自己配置的,不需要安装,解压到一个合适的文件夹3.在系统变量中添加路径4.配置my.ini文件[mysql]# 设置mysql客户端默认字符集default-character-set=utf8[mysqld]#设置3306端口port = 3306# 设置mysql的安装目录basedir=D:\mysql-5.7.24-winx64# 设置mysql数据库的数据的存放目录datadir=

2020-05-28 17:25:17 575

原创 对于程序员35岁的态度,beyond-35,beyond ourselves.

https://github.com/beyond-35/programming-beyond-35-years-old几乎每个程序员都听说过35岁危机,所以我想创建这样一个github仓库,大家可以follow这个仓库并提出你的观点来面对,甚至解决这个问题。2019年的春节,非常的特别,github上面有一个996-icu的项目成为了一个过20万星的火爆项目,很多程序员都说他们很光荣的参...

2020-04-28 23:33:57 583

原创 centos7部署flask服务器实践(flask+gunicore+nginx)

简介大家写完一个flask项目后都需要布置到服务器上面,很多时候是买现成的阿里云服务器。但也可以在电脑的虚拟机上安装一个centos系统,然后装上各种环境,模拟一个用来部署的服务器。因为要安装的东西比较多,中间安装的过程要查很多资料,所以我总结了整个步骤流程。1.安装vm虚拟机软件vm虚拟机软件可以在https://www.cr173.com/soft/81088.html下载2....

2019-09-09 23:55:10 1001

原创 对朴素贝叶斯公式的理解

2019-03-21 22:40:12 618

原创 git 换行符LF与CRLF转换问题

有次上传git服务器中遇到了上述问题,我是用pycharm写python代码,本地是windows系统,远程服务器系统是linux,所以会出现这个问题。其实用pycharm的话这个问题很简单解决,见图,在add一个文件之前,点击要add的文件,然后选中图中line separators,即可add,提交上传。...

2019-03-21 00:20:37 1370

原创 虚拟机中ubuntu使用共享文件夹

1.在vmware中添加共享文件夹2.在虚拟机中使用命令,sudo vmware-config-tools.pl -d,需要输入ubuntu管理员账号3.在mnt/hgfs  路径下可以看到共享文件夹

2019-02-05 07:50:36 16693

yanzhao_num_all.xlsx

考研各个学校各个科目招生人生爬虫

2019-11-05

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除