- 博客(42)
- 资源 (4)
- 收藏
- 关注
原创 整理常见的数据结构和算法知识点
数据结构:链表数组二叉树树堆(大顶堆、小顶堆)栈队列向量hash表算法:广度(深度)优先搜索递归二分法查找排序树的插入/删除/查找/遍历图论hash法分治法动态规划其他:位操作设计模式内存管理(堆栈)《计算机程序设计艺术》好好好
2017-10-30 11:38:01
1387
原创 Repartition Join在Spark的缺点(简版)
100-300G/表,节点10x3核2.7GHz,1.6版,centos6问题:1.需要在查询时对参与两表连接的数据进行动态的重划分,网络和内存开销都很大,宽表的情况下,结构化数据中事实表和维度表i的数据通信量较大造成实时性差。2.通过哈希函数划分到同一节点的很多事实表元组在外键上具有相同的值,CPU和内存消耗量较大。解决:1.事实表去重,数据块粒度的去重2.设置并行度,一
2017-10-13 12:31:07
1064
原创 kafka 问题
1. http://blog.youkuaiyun.com/qq_19427739/article/details/51095463java编译中出现了Exception in thread “main” java.lang.UnsupportedClassVersionError起因: StringBuilder不能赋值?不对,错误原因是因为下面报错的log:
2017-07-06 17:14:38
2105
转载 ubuntu/var/log/下各个日志文件
/var/log/alternatives.log-更新替代信息都记录在这个文件中/var/log/apport.log -应用程序崩溃记录/var/log/apt/ -用apt-get安装卸载软件的信息/var/log/auth.log -登录认证log/var/log/boot.log -包含系统启动时的日志。/var/log/btmp -记录
2017-07-02 18:42:19
3278
转载 [spark论文翻译] RDD:基于内存的集群计算容错抽象
[spark论文翻译] RDD:基于内存的集群计算容错抽象分类: 大数据之spark | 标签: hadoop集群,云计算,数据分析,大数据,spark | 作者: enoch520 相关 | 发布日期 : 2014-11-07 | 热度 : 855°目录[+]该论文来自Berkeley实验室,英文标题为:Resi
2017-06-27 11:41:44
1363
原创 Python: import numpy 报错
实际上是numpy未成功安装pip install numpy报错 pkg_resources.DistributionNotFound: The 'pip==1.5.4' distribution was not found安装 pip 报错 pkg_resources.DistributionNotFound: distribute==0.6.10安装distribu
2017-06-23 20:32:00
4935
原创 centos 6.9 升级python 2.6.6 至 3.5.0
1、下载python3.5wget https://www.python.org/ftp/python/3.5.0/Python-3.5.0.tgz解压 tar zxvf Python-3.5.0.tgz进入目录 cd Python-3.5.0配置 ./configure --prefix=/usr/local/python3.5编译 make安装
2017-06-23 18:48:34
1917
转载 selvet的生命周期
Servlet生命周期分为三个阶段: 1,初始化阶段 调用init()方法 2,响应客户请求阶段 调用service()方法 3,终止阶段 调用destroy()方法Servlet初始化阶段: 在下列时刻Servlet容器装载Servlet: 1,Servlet容器启动时自动装载某些Servlet,实现它只需要在web.X
2017-06-22 21:09:06
899
原创 Hash (一)
Hash,一般翻译做“散列”,也有直接音译为“哈希”的,就是把任意长度的输入(又叫做预映射, pre-image),通过散列算法,变换成固定长度的输出,该输出就是散列值。这种转换是一种压缩映射,也就是,散列值的空间通常远小于输入的空间,不同的输入可能会散列成相同的输出,所以不可能从散列值来唯一的确定输入值。简单的说就是一种将任意长度的消息压缩到某一固定长度的消息摘要的函数。www.baik
2017-06-22 11:29:38
494
转载 Linux启动过程详解
启动第一步--加载BIOS当你打开计算机电源,计算机会首先加载BIOS信息,BIOS信息是如此的重要,以至于计算机必须在最开始就找到它。这是因为BIOS中包含了CPU的相关信息、设备启动顺序信息、硬盘信息、内存信息、时钟信息、PnP特性等等。在此之后,计算机心里就有谱了,知道应该去读取哪个硬件设备了。启动第二步--读取MBR众所周知,硬盘上第0磁道第一个扇区被称为MBR,也就是Ma
2017-06-20 15:27:33
182
转载 计算机是如何启动的
http://www.ruanyifeng.com/blog/2013/02/booting.htmlhttp://blog.youkuaiyun.com/langeldep/article/details/8788119零、boot的含义先问一个问题,”启动”用英语怎么说?回答是boot。可是,boot原来的意思是靴子,”启动”与靴子有什么关系呢? 原来,这里的boo
2017-06-20 15:11:35
451
原创 hive(二)
Hive最初是应Facebook每天产生的海量新兴社会网络数据进行管理和机器学习的需求而产生和发展的。https://cwiki.apache.org/confluence/display/Hive/HomeThe Apache Hive data warehouse software facilitates querying and managing large datasets
2017-06-20 13:15:20
527
原创 hive(一)
数据库:数据库(Database)是按照数据结构来组织、存储和管理数据的建立在计算机存储设备上的仓库。简单来说是本身可视为电子化的文件柜——存储电子文件的处所,用户可以对文件中的数据进行新增、截取、更新、删除等操作。严格来说,数据库是长期储存在计算机内、有组织的、可共享的数据集合。数据库中的数据指的是以一定的数据模型组织、描述和储存在一起、具有尽可能小的冗余度、较高的数据独
2017-06-20 12:45:48
668
转载 每日算法(二)
KMeans-K均值算法点击打开链接k-means算法,也被称为k-平均或k-均值,是一种得到最广泛使用的聚类算法。它是将各个聚类子集内的所有数据样本的均值作为该聚类的代表点,算法的主要思想是通过迭代过程把数据集划分为不同的类别,使得评价聚类性能的准则函数达到最优,从而使生成的每个聚类内紧凑,类间独立。这一算法不适合处理离散型属性,但是对连续型具有较好的聚类效果K-MEANS算法是
2017-06-19 20:39:39
484
转载 每日算法(一)
Apriori-关联规则挖掘算法:Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。关于这个算法有一个非常有名的故事:"尿布和啤酒"。故事是这样的:美国的妇女们经常会嘱咐她们的丈夫下班后为孩子买尿布,而丈夫在买完尿布后又要顺 手买回自己爱喝的啤酒,因此啤酒和尿布在一起被购买的机会很多。这个举措使尿布和啤酒的
2017-06-18 22:05:38
496
原创 Intellij IDEA 快捷键
Ctrl+Alt+s : settingsCtrl+Alt+L : 格式化代码Alt +Enter : 导入包Keymap --> Main menu --> Code -->Completion --> Basic
2017-06-18 18:58:01
215
原创 Hadoop之HDFS(二)
namenode::也称元数据节点其将所有的文件和文件夹的元数据保存在一个文件系统树中。这些信息也会在硬盘上保存成以下文件:命名空间镜像(namespace image)及修改日志(edit log)其还保存了一个文件包括哪些数据块,分布在哪些数据节点上。然而这些信息并不存储在硬盘上,而是在系统启动的时候从数据节点收集而成的。结构:{dfs.name
2017-06-17 17:18:15
253
原创 Hadoop之HDFS(一)
HDFS :Hadoop Distribute File System 的简称,Hadoop的一个分布式文件系统一,HDFS的主要设计理念1,存储超大文件:GB-TB-PB及文件2, 一次写入,多次读取(流式数据访问):HDFS存储的数据集作为hadoop的分析对象。在数据集生成后,长时间在此数据集上进行各种分析。每次分析都将设计该数据集的大部分数据甚至全部数据,因此读取整个数据集
2017-06-17 16:18:34
360
原创 RAID 5 (分布式奇偶校验的独立磁盘结构)
RAID 5 是一种存储性能、数据安全和存储成本兼顾的存储解决方案。 RAID 5可以理解为是RAID 0和RAID 1的折中方案。RAID 5可以为系统提供数据安全保障,但保障程度要比Mirror低而磁盘空间利用率要比Mirror高。RAID 5具有和RAID 0相近似的数据读取速度,只是多了一个奇偶校验信息,写入数据的速度比对单个磁盘进行写入操作稍慢。同时由于多个数据对应一个奇偶校验信
2017-06-17 15:21:31
15764
1
原创 英语标点符号及翻译
http://blog.chinaunix.net/u/20725/showart_296963.html+ plus 加号;正号- minus 减号;负号± plus or minus 正负号× is multiplied by 乘号÷ is divided by 除号= is equal to 等于号≠ is not equal to 不等于号≡ is
2017-06-17 13:51:54
307
原创 笛卡尔积 ,支持向量机,图灵完全,边缘计算的概念
笛卡尔乘积是指在数学中,两个集合X和Y的笛卡尓积(Cartesian product),又称直积,表示为X × Y,第一个对象是X的成员而第二个对象是Y的所有可能有序对的其中一个成员。假设集合A={a, b},集合B={0, 1, 2},则两个集合的笛卡尔积为{(a, 0), (a, 1), (a, 2), (b, 0), (b, 1), (b, 2)}。笛卡尔积是关系代数里的概念
2017-06-15 21:15:17
668
原创 MD5 校验和(checksum)
MD5 校验和(checksum)通过对接收的传输数据执行散列运算来检查数据的正确性。一个散列函数,比如 MD5,是一个将任意长度的数据字符串转化成短的固定长度的值的单向操作。任意两个字符串不应有相同的散列值(即,有“很大可能”是不一样的,并且要人为地创造出来两个散列值相同的字符串应该是困难的)。一个 MD5 校验和(checksum)通过对接收的传输数据执行散列运算来检查数据
2017-06-13 14:11:17
11034
原创 Java基础语法3
方法:为了解决代码重复编写的问题,可以将代码提取出来放在一个大括号中,并为这段代码起个名字,这样在每次获取最值的地方通过这个名字来调用获取最值的代码就可以了。上述过程中,所提取出来的代码可以被看作是程序中定义的一个方法(功能),程序在需要获取最值时调用该方法即可。方法可以简单定义为:完成特定功能的代码块函数在Java中被称为方法。格式:修饰符 返回值类型 方法名(参数类型 参数
2017-06-12 21:32:12
204
原创 zookeeper
ZooKeeper is a centralized service for maintaining configuration information, naming, providing distributed synchronization, and providing group services. All of these kinds of services are used in
2017-06-11 12:01:27
211
原创 python)) unknown encoding: cp65001
unknown encoding: cp65001异常编码格式错误,需要将编码修改为:简体中文即:C:\>chcp 936参考:http://blog.youkuaiyun.com/shuxue051/article/details/46986759http://blog.youkuaiyun.com/hubuguia/article/details/70138684
2017-06-08 19:15:56
1731
原创 mysql shell 查看 所有用户的 授权列表
mysql> select * from information_schema.user_privileges;mysql的远程登录授权mysql>grant all privileges on *.* to 'root'@'%' identified by 'root' with grant option;mysql>flush privilege
2017-06-03 15:45:33
1041
原创 安装zookeeper 3.4.6 jps 有进程 status 报 (Error contacting service. It is probably not running.)一个小问题绕过的圈
2017-05-24 11:57:03
728
原创 SecureCRT无法正常连接Ubuntu 14.0.4的解决办法
在SercureCRT中使用root帐号连接Ubuntu14.0.4.1的时候,提示“Password Authentication Failed,Please verify that the username and password are correct.”重新输入密码,反复检查多次密码并重新输入正确的密码,还是提示同样的错误。解决:(1)安装SSH 打开U
2017-05-18 20:59:28
754
原创 caffe: make all j4 错误:Makefile.config:95: *** missing separator. Stop.
解决方法:(两个路径之间用空格隔开,不用换行)参考:在make命令后出现这种错误提示,是提示第2行没有分隔符。例如:1 target:prerequisites2 command……改为:1 target:prerequisites2 command……就可以了。在Makef
2017-05-18 17:37:33
1824
原创 如何查看 ubuntu 是 32位 or 64位?
打开终端,输入sudo uname --m 命令,按下enter如果显示i686,你安装了32位操作系统如果显示 x86_64,你安装了64位操作系统输入sudo uname --s 显示内核名字输入sudo uname --r 显示内核版本输入sudo uname --n 显示网络主机名输入sudo uname --p 显示cp
2017-05-18 09:57:44
353
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人