chongjiapi1753-优快云博客

转载堡垒机读取中文文件显示乱码解决办法

linux终端输入iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8 然后路径中新生成1个.utf8的文件，打卡它即可正常显示中文 ...

2019-04-18 15:15:00 2570

转载区块链合集

区块链共识机制分析——论PoW，PoS，DPos和DAG的优缺点 https://www.8btc.com/article/174678 区块链共识机制的演进 https://www.cnblogs.com/studyzy/p/8849818.html 区块链智能合约解决方案 htt...

2018-11-19 12:46:00 395

转载 Execution Error,return code 2 from org.apache.haddop.hive.ql.exec.mr.MapRedTask解决办法

insert overwrite table XX 1.建表后修改过表结构（增删字段等）后，重新加载数据时报return code2错，元数据和数据文件不匹配导致解决办法：重建一张新表； 2.解决办法：修改表结构时加cascade 3.若排查定位是内存不足，则到资源充足的库新建...

2018-10-22 18:54:00 1157

转载台式机Chrome打不开网盘，网页无法访问，连接已重置???

问题描述：My台式机Chrome打开https://pan.baidu.com网页显示“无法访问此网站，连接已重置”，确认该连接在My笔记本电脑可正常打开排查：1.是否被“墙”？ www.checkgfw.com显示，没有被“墙” 2.是...

2018-10-16 13:53:00 2238

转载 HADOOP集群搭建实战

参考《史上最详细的hadoop环境搭建》https://blog.youkuaiyun.com/hliq5399/article/details/78193113 参考《单机部署》https://www.cnblogs.com/ee900222/p/hadoop_1.html 参考《超详细单机版搭建h...

2018-10-15 21:29:00 156

转载 Git常用命令

进入客户端的Git Bash: cd d: mkdir mygit_xyz cd mygit_xyz ll pwd ---查看当前路径 git --version ---查看当前版本 git update-git-for-windows ---升级版本（需要进入安装包路径后） ...

2018-10-15 17:34:00 181

转载常用DOS命令

1.查看电脑配置开始---运行--dxdiag 2.“运行”窗口快捷键 win+R 转载于:https://my.oschina.net/u/3575262/...

2018-01-09 09:28:00 157

转载 Python字典

参考http://www.jb51.net/article/47990.htm 参考https://www.cnblogs.com/yjd_hycf_space/p/6880026.html（写的挺好） #!/usr/bin/python dict = {'Name': 'Zara', '...

2017-12-27 17:59:00 254

转载【Pyspark】Map、FlatMap、filter、union等常用

参考https://www.iteblog.com/archives/1395.html#map [Map] # map # sc = spark context, parallelize creates an RDD from the passed object x = sc.paral...

2017-12-26 11:43:00 1778

转载 CPU、内存、磁盘、硬盘

参考https://www.cnblogs.com/hellojesson/p/5793583.html CPU：是计算机的运算核心和控制核心，让电脑的各个部件顺利工作，起到协调和控制作用。硬盘：存储资料和软件等数据的设备，有容量大，断电数据不丢失的特点。也被人们称之为“数据仓库”。内存...

2017-12-20 10:14:00 233

转载 HDFS存储原理【萌图易懂】

转载http://blog.youkuaiyun.com/u013160024/article/details/52161198 转载于:https://my.oschina.net/u/357526...

2017-12-20 10:14:00 138

转载线程、进程、并行、并发

【并行和并发】参考https://www.zhihu.com/question/33515481 你吃饭吃到一半，电话来了，你一直到吃完了以后才去接，这就说明你不支持并发也不支持并行。你吃饭吃到一半，电话来了，你停了下来接了电话，接完后继续吃饭，这说明你支持并发。你吃饭吃到一半，电话来了...

2017-12-19 14:20:00 129

转载数据平衡（与数据倾斜）

参考https://www.ibm.com/developerworks/cn/data/library/bd-1506-hdfsdatabalance/index.html 转载于...

2017-12-19 14:05:00 481

转载 HDFS数据处理速度比本地数据慢得多

参考https://www.cnblogs.com/sdksdk0/p/5585047.html 【HDFS原理】 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点，一类是NameNod...

2017-12-19 13:58:00 2832

转载 [Bug fixed]UnboundLocalError: local variable 'var_Chinesename' referenced before assignment

[Bug] Traceback (most recent call last): File "<stdin>", line 51, in <module> File "...

2017-12-18 17:48:00 318

转载【SPARK】基础知识（RDD两大类算子常见函数）

*********参考http://blog.youkuaiyun.com/x333vxhl/article/details/55048342************* *********参考https://www.cnblogs.com/sharpxiajun/p/5506822.html******...

2017-12-18 16:26:00 716

转载【PySpark】RDD的map操作小例子

#################test.py###################### #cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py #!/usr/bin/python import sys for line in sys....

2017-12-18 14:19:00 1990

转载【Windows Git】gitbash将本地代码上传到github

1.打开git bash,用cd命令进入存放本地代码的路径 e.g. cd d:mytest (纯英文，不支持中文路径) 2.git init 在当前的项目目录中生成本地的git管理 3.git add . 表示你要提交到github上的文件，如果你要将所有文件都添加上去的话，使用git...

2017-12-18 11:19:00 152

转载【指标】GMV和销售额、SPU、SKU、商品、单品

不要被GMV忽悠了！！！GMV比较水 GMV：Gross Merchandise Volume，商品总交易额（总成交金额，含已付款和未付款等），电商业常用。 GMV=销售额+取消订单金额+拒收订单金额+退货订单金额，看来只要是流水就能计入 ------------------------...

2017-12-14 11:45:00 10258

转载 python模拟MapReduce的感受

技术的海洋，太宽太深，往往学会了这一点，发现还有更多新的东西要学，学不完的赶脚啊！！！此例子简单，但能帮助快速体会Map和Reduce到底在干什么目的是求出每个年份的最大值 [zhangyuxia@hadoop234 ~]$ cat test.dat 1950051507004999...

2017-12-14 11:05:00 167

转载程序=数据结构+算法

【数据结构】【参考】http://blog.youkuaiyun.com/long316/article/details/52595248 Array：经常用，大小固定占内存小，运行效率较高 ArrayList：长度不固定，动态增加，占内存大效率低 List：经常用，容易 IList： IC...

2017-12-14 10:07:00 113

转载时间序列分析

年份至少在20年以上，数据越多越好，数据少导致模型结果更加不准，不具备参考意义【工具】EVIEWS 转载于:https://my.oschina.net/u/3575262/blog/...

2017-12-13 14:48:00 145

转载 BI系统之数据预处理

数据预处理（ETL/清洗、集成）往往占据70%左右的时间精力，非危言耸听，亲历！参考/转载自：http://blog.youkuaiyun.com/zrjdds/article/details/50223091 【缺失值】原因：人为原因（遗漏、）+机器原因（故障、性能差无获取能力、）+业务原因（...

2017-12-13 11:17:00 376

转载 BI系统大框架

BI(Business Intelligence)商业智能系统，大中型互联网公司都有，一般都由多个组共同组建。BI建设的完备程度参差不齐。目的是盘活数据资产，让数据说话助推甚至指导企业/部门优化运转，节约成本/提高效益。 BI=ETL+Data Mining+Data Analysis + ...

2017-12-11 18:11:00 358

转载 Spark计算性能调优经验汇总

【参考https://www.cnblogs.com/jcchoiling/p/6440709.html】写的真不错，很解渴大数据spark性能优化的本质与软件无关，归根到底还是要回归到硬件（CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互)）的优化...

2017-12-08 18:37:00 247

转载 vim常用命令

【替换命令】 r 将当前字符替换为，字符即光标所在字符。 s/old/new/ 用old替换new，替换当前行的第一个匹配 s/old/new/g 用old替换new，替换当前行的所有匹配 %s/old/new/ 用old替换new，替换所有行的第一个匹配 %s/old/new/g ...

2017-12-08 15:21:00 75

转载数据库和数据仓库的关系/HDFS、Hive、MR、Sql、HQL、Mysql

【数据仓库和数据库的联系与区别】数据库是为捕获数据而设计，数据仓库是为分析数据而设计【Hive和Mysql】我理解的是，Hive是通过将HQL语言解释成MR来操作HDFS中的数据，HIve相当于介于HQL和MR的桥梁，运行速度比较慢，适合离线数据处理 Hive是基于分布式数据库H...

2017-12-08 15:06:00 610

转载 hive中表类型和ETL

Hive最重要的部分是sql的group by和join MR就是一个group by的过程；Shuffle是一个介于Map和Reduce之间的过程，从Map到Shuffle到reduce计算出结果前，存储的都是key/value形式的数据【Hive支持数据类型】原子数据类型：数值型...

2017-12-08 14:04:00 1828

转载大数据常见问题：数据倾斜

【数据倾斜】计算数据时数据分散不够，大量数据集中到少量几台甚至1台机器上进行计算，此时计算速度远远低于平均计算速度，导致整体计算速度很慢。此问题出现的关键诱惑因是“数据量非常大，比如千亿级” 数据倾斜原因：Spark和Hive，数据运算时count/distinct/group by/joi...

2017-12-08 11:11:00 216

转载 sql常用函数汇总(基础、高级)

【操作符】= 等于,<>不等于,>,<,>=,<=,between在某个范围内,like搜索某种模式；【其它】数值不加单引号，文本加单引号；and/or; order by 默认升序，降序desc; insert into; update set; d...

2017-12-08 10:04:00 202

转载 SQL性能调优经验

********这个写的挺好http://www.nowamagic.net/librarys/veda/detail/1502/******** 【理解sql关键字执行顺序及优化方案】查询中用到的关键词主要包含六个，并且他们的顺序依次为select--from--where--gro...

2017-12-08 09:52:00 140

转载数据建模流程/步骤

1.确定业务目标 2.数据获取自有数据、爬虫数据 3.数据检验唯一性（去重）、样本完整性（样本分布不能偏离总体分布太远）、取值范围、异常值（极值、错误的数值等） 4.变量选择（数据清洗）【转载自http://www.jianshu.com/p/6a3146808a...

2017-12-06 16:34:00 1643

转载 Spark Core 和MR

什么是Spark Core?它提供Spark最基础与最核心的功能，包括Spark Context + 存储体系 + 计算引擎 + 部署模式 SparkContext：Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application...

2017-12-06 14:40:00 152

转载 Spark机器学习库MLlib

Spark MLlib与Hadoop Mahout，可以对比着学习，以下是MLlib主要支持的机器学习算法【转自赖永炫老师的个人博文】MLlib由一些通用的学习算法和工具组成，包括分类、回归、聚类、协同过滤、降维等，同时还包括底层的优化原语和高层的管道API。具体来说，其主要包括以...

2017-12-06 13:56:00 282

转载各层级统计学知识点

【入门基础】随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析（一元线性、一元非线性）等条形图/线形图/饼图/箱线图相关性和因果性时间序列分析（平...

2017-12-06 10:26:00 446

转载 Shell种类、Shell Script 、Linux命令、Hadoop命令

1.操作系统Shell Shell本身是用户操作Unix/Linux系统的桥梁。Shell是脚本语言，可处理多个linux命令；理解“脚本”，就很容易学了。把bash学会、学透比较重要 ---------框内转自http://blog.youkuaiyun.com/chentiefeng521/...

2017-12-05 10:24:00 110

转载 Spark生态圈/计算框架

1.核心数据结构RDD RDD操作只有两个：转换和动作 2.SPARK生态圈 Spark Streaming Saprk SQL：经常使用，比较熟，很方便 MLib GraphX 3.Spark语言 spark-shell：scala语言...

2017-12-04 18:16:00 164

转载大数据可视化工具汇总

1.图表秀：简单方便易用；可生成比较复杂漂亮的图；交互界面友好，操作门槛很低，懂表和数据即可 2.在线Echarts：http://echarts.baidu.com/echarts2/doc/example.html 稍微修改代码即可，简单快捷；依托于网页前端技术，有计算机基础就...

2017-12-04 16:03:00 139

转载 Code版本控制系统汇总

1.集中式版本控制系统必须联网，网速影响管理效率 CVS：没用过，不说了 SVN：经常使用，不用写命令，下载个客户端TortoiseSVN，配置好有读写权限的路径，在本地创建专门的一个文件夹存放从SVN上download下来的所有资料，右键点鼠标操作即可；必须右键单击文件夹才能...

2017-12-04 14:20:00 255

转载技术学习资源汇总

1.菜鸟教程（www.runoob.com） 2.廖学锋的官方网站 3.MOOC 4.网易云课堂 5.Github 6.开源社区 7.可汗学院公开课 8.优快云 9.http://www.yiibai.com/ ...

2017-12-04 14:11:00 99

空空如也

空空如也