自定义博客皮肤VIP专享

*博客头图:

格式为PNG、JPG,宽度*高度大于1920*100像素,不超过2MB,主视觉建议放在右侧,请参照线上博客头图

请上传大于1920*100像素的图片!

博客底图:

图片格式为PNG、JPG,不超过1MB,可上下左右平铺至整个背景

栏目图:

图片格式为PNG、JPG,图片宽度*高度为300*38像素,不超过0.5MB

主标题颜色:

RGB颜色,例如:#AFAFAF

Hover:

RGB颜色,例如:#AFAFAF

副标题颜色:

RGB颜色,例如:#AFAFAF

自定义博客皮肤

-+
  • 博客(31)
  • 收藏
  • 关注

原创 长度为2n的数组,分为两个长度为n的数组,两个数组各自的和相比的差的绝对值最小。

动态规划:整个思路大概是这样的,可能哪儿有问题,谢谢指出。首先求出整个2n数组的和sum,最好的情况是两个数组能够将2n数组平分,那么差的绝对值为0。建立一个二维数组int[n][m],分了以后的数组的长度,m为sum的一般,就是最好的情况,当然不管怎么样,最终分完的一个n长度的组数总和也一定是在0到m之间,或者等于m。接下来就是java代码:public void process(int...

2019-10-09 17:13:11 881

原创 两个字符串,求他们的最长子串

还是面试被问了,动态规划实现,参考的某位哥哥。具体的,没啥好说的,就是一个二维数组,str1为行,str2为列。public class test1 { public static void main(String[] args) { String str1 = "acbcbcef"; String str2 = "abcbced"; t...

2019-10-01 16:37:59 340

原创 两个线程,一个打印1-5,一个打印6-10,最后打印success

去瓜子面试遇到的面试题,回来实现一下。。。菜。。。。。可能有不对的地方,还需要学习。public class test{ public static volatile int num = 1; boolean isPrint = false; boolean isSuccess = false; public static void main(String[] args){ test...

2019-09-29 12:12:11 303

原创 数据库聚簇索引和非聚簇索引

看到一个很好的文章关于索引,分享给大家。https://www.cnblogs.com/crazylqy/p/7772615.html主要内容聚簇索引和非聚簇索引。有空自己再总结一下。索引

2019-08-21 10:43:06 171

原创 数据库范式

范式:其实是一种规则,就是设计表的时候需要遵循一定的规则。第一范式:字段值的原子性,所有字段都是不可分割的原子值。idname-age1bruce-25如name-age还可以分为name和ageidnameage1bruce25第二范式:第一范式前提下,所有非主属性不能部分依赖主属性。idcourse_idname...

2019-08-20 15:33:59 164

原创 优快云用户信息爬取

python实现BeautifulSoup框架爬取优快云用户信息保存形式为txt格式# coding:utf-8from bs4 import BeautifulSoupimport requestsimport sysimport bs4def getFrist(account): print("#加载中...") baseUrl = 'https://me.c...

2019-05-19 21:52:13 965 6

原创 物理机ping虚拟机ip可行,ping主机名不可行问题

之前遇到这类的问题,也试了网上的方法。在windows中的C:\Windows\System32\drivers\etc\hosts在其中加入ip 主机名例如:192.168.17.140 hadoop注意:这里的中间使用空格之前一直不能用,是因为使用了\t。...

2019-02-14 11:00:56 494

原创 flume启动问题

flume启动遇到卡在Staring Sink…阶段具体启动代码flume-ng agent \--name exec-memory-logger \--conf $FLUME_HOME/conf \--conf-file /usr/local/doc/streaming_project.conf \-Dflume.root.logger=INFO,console其中–conf可...

2019-02-12 15:57:24 1499 1

原创 SparkStreaming

StreamingContext:`def this(sparkContext: sparkContext, batchDuration: Duration) ={ this(sparkContext, null, batchDuration)}def this(conf: SparkConf, batchDuration: Duration) ={ this(Streamin...

2019-02-07 10:05:26 140

原创 KAFKA

消息系统通常用来构建实时的处理管道,实时的流处理消息中间件:生产者和消费者例如妈妈做馒头给你吃。妈妈:生产者你:消费者馒头:数据流、消息正常的情况:生产一个馒头,吃掉一个馒头其他情况:一直生产,到一定的时候,你吃不了了(机器故障),馒头就丢失了。一直生产,做馒头的速度快,你来不及吃,馒头也丢失了。那么就需要一个篮子,来盛放做好的馒头,要吃的时候去篮子里拿。篮子、框:Kafk...

2019-02-03 16:41:48 184

原创 Flume

解决log传输的高延时,容错,负载均衡,压缩等问题。Flume is a distributed, reliable, and available service for efficiently collecting, aggregating, and moving large amounts of log data....

2019-02-03 11:16:45 168

原创 关于spark运行 scala.Predef$.$scope()Lscala/xml/TopScope$问题

scala.Predef...scope()Lscala/xml/TopScope$问题是因为pom.xml中的<dependency> <groupId>org.apache.spark</groupId> <artifactId>spark-core_2.10</artifactId&gt...

2019-01-26 11:23:30 399

原创 java创建对象方式

java创建对象的方式有几种?四种。1)通过new语句实例化一个对象。2)通过反射机制创建对象。3)通过clone()方法创建一个对象。4)通过反序列化的方式创建对象。之前总是死记硬背,通过女朋友的督促,决定好好整理一下。对象:把数据以及操作数据的方法放在一起,作为一个相互依存的整体,这个整体就是对象。方法一:通过new语句实例化一个对象。如:Person p = new Pe...

2018-12-12 15:27:16 152

转载 hdfs架构

HDFS的架构和数据存储原理HDFS是一个主/从(Mater/Slave)体系结构,从最终用户的角度来看,它就像传统的 文件系统一样,可以通过目录路径对文件执行CRUD(Create、Read、Update和Delete) 操作。但由于分布式存储的性质,HDFS集群拥有一个NameNode和一些DataNode。NameNode管理文件系统的元数据,DataNode存储实际的数据。客户...

2018-11-30 15:10:59 152

原创 Spark(三)

123

2018-11-28 18:17:15 121

原创 Spark(二)

RDD(Resilient Distributed Dataset)弹性分布式数据集(“弹性”是指可以通过重新安排计算来自动重建丢失的分区)是Spark最核心的概念,它是在一个集群中跨多个机器分区存储的一个只读对象集合。在典型的Spark程序中,首先要加载一个或多个RDD,作为输入通过一系列转换得到一组目标RDD,然后对这些目标RDD执行一个动作,例如计算出结果或者写入持久存储器。Spark...

2018-11-27 16:34:09 117

原创 Spark(一)

Apache Spark:是用于大数据处理的集群计算框架。Spark并没有以MapReduce作为执行引擎,而是使用了它自己的分布式运行环境在集群上执行工作。但是它与MapReduce在API和运行环境方面有许多相似之处。Spark和Hadoop紧密集成,可以在YARN上运行,并支持Hadoop文件存储格式以及存储后端(HDFS)。Spark最突出的表现在于它能够将作业与作业之间产生的大规模...

2018-11-26 15:39:55 185

原创 Zookeeper

Zookeeper是Hadoop的分布式协调服务,用于构建一般的分布式应用。首先介绍一下分布式应用的主要困难:部分失败这可以有多种情况:当一条消息在网络中两个节点之间传输,如果出现网络错误,发送者无法知道接受者是否已经收到这条消息。接受者可能在网络出现错误之前就已经收到这条消息,也可能没有收到,或者收到接受者的进程已经死掉。而发送者的唯一途径就是重新连接接受者,并向它发出询问。而Zookee...

2018-11-26 15:15:02 164

原创 Sqoop(一)

一个组织中有价值的数据都存储在关系型数据库系统等结构化存储器中。Apache Sqoop是一个开源工具,他允许用户将数据从结构化存储器抽取到Hadoop中,用于进一步处理。一旦生成最终的分析结果,Sqoop可以将这些结果导回数据存储器,供其他客户端使用。Sqoop拥有一个可扩展的框架,能够从(向)任何支持批量数据传输的外部存储系统导入(导出)数据。一个Sqoop连接器就是这个框架下的一个模块...

2018-11-26 09:53:57 185

原创 HIVE(二)

导入数据LOAD DATA操作,通过把文件复制或移动到表的目录中,从而把数据导入Hive的表(或分区)。用INSERT语句把数据从一个Hive表填充到另一个,或在新建表的时候使用CTAS结构,CTAS是CREATE TABLE … AS SELECT 的缩写。如果想把数据从一个关系型数据库直接导入Hive,可以看一下Sqoop。1.INSERT语句INSERT OVERWRITE TAB...

2018-11-21 10:05:12 212

原创 HIVE(一)

HIVEApache Hive是构建在Apache Hadoop之上的数据仓库,有助于对大型的数据集进行读写和管理。HIVE和传统数据库的区别在于数据存储位置,数据量,数据格式,查询语言,数据规模等。HIVE特征:1.可以通过Sql轻松访问数据的工具,从而实现数据仓库任务,如提取/转换 /加载(ETL),报告和数据分析;2.可以使已经存储的数据结构化;3.可以直接访问存储在HDFS或其...

2018-11-20 14:54:13 251

原创 Yarn总结(三)

1

2018-11-13 15:33:01 265

原创 MapReduce总结(二)

11.12

2018-11-12 15:50:33 335

原创 hadoop总结之HDFS(一)

最近又学习了hadoop,准备好好整理一下这一部分的学习内容。

2018-11-03 15:01:14 422

原创 爬虫02

这是一个简单的baidu.com的链接收集,存放在了url.txt文件中,其中需要接着学习的有BeautifulSoup,他是一个网页源码解析器,且lxml这个类库,可以加快解析速度。...

2018-10-09 10:26:44 140

转载 爬虫-01

今天刚稍微学了点python,找了个简单的爬虫学习一下。这个是简单爬取贴吧帖子图片的一个小内容,主要就是获取网址,得到源码,找出其中的图片链接,并下载。接下来,正文:coding:utf-8import urllibimport repage = urllib.urlopen(‘http://tieba.baidu.com/p/1753935195’)htmlcode = page....

2018-10-07 15:43:36 96

转载 Jsoup未完

摘要 Jsoup是一款JavaHTML解析器。可以直接解析某个URL地址,HTML文本内容。Jsoup主要功能 1、从一个URL,文件或字符串中解析HTML 2、使用DOM或CSS选择器来查找、取出数据 3、可操作HTML元素、属性、文本输入 jsoup可以从包括字符串、URL地址以及本地文件来加载HTML文件,并生成Document对象实例。 1、Document对象(一个文...

2018-08-26 11:06:56 83

原创 zookeeper未完

下载zookeeper解压 解压完进入zookeeper文件夹 mkdir data(在data中创建myid,myid中写入,后面配置的编号1或2….) mkdir dataLog进入zookeeper文件中conf文件夹 修改zoo_simple….cfg还是什么的为zoo.cfg进入修改配置 添加dataDir=zookeeper路径/data 添加dataLogDir=...

2018-08-20 11:32:18 84

转载 yum更换阿里资源

1、备份 mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.backup2、下载新的CentOS-Base.repo 到/etc/yum.repos.d/ CentOS 6 wget -O /etc/yum.repos.d/CentOS-Base.repo http://mirrors.aliyu...

2018-07-29 00:31:29 159

原创 linux 克隆 网络配置

修改主机名 vi /etc/sysconfig/network设置ip地址 vi /etc/sysconfig/network-scripts/ifcfg-eth0 删除UUID和HWADDR 然后删除 rm -rf /etc/udev/rules.d/70-persistent-net.rules最后重启 shutdown -r now ...

2018-07-28 16:32:50 231

转载 hadoop搭建配置(转)

1.准备Linux环境 1.0先将虚拟机的网络模式选为NAT1.1修改主机名 vi /etc/sysconfig/network NETWORKING=yes HOSTNAME=itcast ###1.2修改IP 两种方式: 第一种:通过Linux图形界面进行修改(强烈推荐) 进入Linux图形界面 -> 右键...

2018-07-28 15:54:43 115

空空如也

空空如也

TA创建的收藏夹 TA关注的收藏夹

TA关注的人

提示
确定要删除当前文章?
取消 删除