- 博客(47)
- 收藏
- 关注
转载 堡垒机读取中文文件显示乱码解决办法
linux终端输入iconv -f gbk -t utf8 PythonStudy.txt > Python.txt.utf8 然后路径中新生成1个.utf8的文件,打卡它即可正常显示中文 ...
2019-04-18 15:15:00
2486
转载 区块链合集
区块链共识机制分析——论PoW,PoS,DPos和DAG的优缺点 https://www.8btc.com/article/174678 区块链共识机制的演进 https://www.cnblogs.com/studyzy/p/8849818.html 区块链智能合约解决方案 htt...
2018-11-19 12:46:00
358
转载 Execution Error,return code 2 from org.apache.haddop.hive.ql.exec.mr.MapRedTask解决办法
insert overwrite table XX 1.建表后修改过表结构(增删字段等)后,重新加载数据时报return code2错,元数据和数据文件不匹配导致 解决办法:重建一张新表; 2.解决办法:修改表结构时加cascade 3.若排查定位是内存不足,则到资源充足的库新建...
2018-10-22 18:54:00
1084
转载 台式机Chrome打不开网盘,网页无法访问,连接已重置???
问题描述:My台式机Chrome打开https://pan.baidu.com网页显示“无法访问此网站,连接已重置”,确认该连接在My笔记本电脑可正常打开 排查:1.是否被“墙”? www.checkgfw.com显示,没有被“墙” 2.是...
2018-10-16 13:53:00
2119
转载 HADOOP集群搭建实战
参考《史上最详细的hadoop环境搭建》https://blog.youkuaiyun.com/hliq5399/article/details/78193113 参考《单机部署》https://www.cnblogs.com/ee900222/p/hadoop_1.html 参考《超详细单机版搭建h...
2018-10-15 21:29:00
127
转载 Git常用命令
进入客户端的Git Bash: cd d: mkdir mygit_xyz cd mygit_xyz ll pwd ---查看当前路径 git --version ---查看当前版本 git update-git-for-windows ---升级版本(需要进入安装包路径后) ...
2018-10-15 17:34:00
154
转载 常用DOS命令
1.查看电脑配置 开始---运行--dxdiag 2.“运行”窗口快捷键 win+R 转载于:https://my.oschina.net/u/3575262/...
2018-01-09 09:28:00
131
转载 Python字典
参考http://www.jb51.net/article/47990.htm 参考https://www.cnblogs.com/yjd_hycf_space/p/6880026.html(写的挺好) #!/usr/bin/python dict = {'Name': 'Zara', '...
2017-12-27 17:59:00
229
转载 【Pyspark】Map、FlatMap、filter、union等常用
参考https://www.iteblog.com/archives/1395.html#map [Map] # map # sc = spark context, parallelize creates an RDD from the passed object x = sc.paral...
2017-12-26 11:43:00
1734
转载 CPU、内存、磁盘、硬盘
参考https://www.cnblogs.com/hellojesson/p/5793583.html CPU:是计算机的运算核心和控制核心,让电脑的各个部件顺利工作,起到协调和控制作用。 硬盘:存储资料和软件等数据的设备,有容量大,断电数据不丢失的特点。也被人们称之为“数据仓库”。 内存...
2017-12-20 10:14:00
172
转载 HDFS存储原理【萌图易懂】
转载http://blog.youkuaiyun.com/u013160024/article/details/52161198 转载于:https://my.oschina.net/u/357526...
2017-12-20 10:14:00
114
转载 线程、进程、并行、并发
【并行和并发】参考https://www.zhihu.com/question/33515481 你吃饭吃到一半,电话来了,你一直到吃完了以后才去接,这就说明你不支持并发也不支持并行。 你吃饭吃到一半,电话来了,你停了下来接了电话,接完后继续吃饭,这说明你支持并发。 你吃饭吃到一半,电话来了...
2017-12-19 14:20:00
109
转载 数据平衡(与数据倾斜)
参考https://www.ibm.com/developerworks/cn/data/library/bd-1506-hdfsdatabalance/index.html 转载于...
2017-12-19 14:05:00
409
转载 HDFS数据处理速度比本地数据慢得多
参考https://www.cnblogs.com/sdksdk0/p/5585047.html 【HDFS原理】 Hadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodity hardware)上的分布式文件系统。HDFS体系结构中有两类节点,一类是NameNod...
2017-12-19 13:58:00
2748
转载 [Bug fixed]UnboundLocalError: local variable 'var_Chinesename' referenced before assignment
[Bug] Traceback (most recent call last): File "<stdin>", line 51, in <module> File "...
2017-12-18 17:48:00
291
转载 【SPARK】基础知识(RDD两大类算子常见函数)
*********参考http://blog.youkuaiyun.com/x333vxhl/article/details/55048342************* *********参考https://www.cnblogs.com/sharpxiajun/p/5506822.html******...
2017-12-18 16:26:00
675
转载 【PySpark】RDD的map操作小例子
#################test.py###################### #cat /Users/mparsian/spark-1.6.1-bin-hadoop2.6/test.py #!/usr/bin/python import sys for line in sys....
2017-12-18 14:19:00
1965
转载 【Windows Git】gitbash将本地代码上传到github
1.打开git bash,用cd命令进入存放本地代码的路径 e.g. cd d:mytest (纯英文,不支持中文路径) 2.git init 在当前的项目目录中生成本地的git管理 3.git add . 表示你要提交到github上的文件,如果你要将所有文件都添加上去的话,使用git...
2017-12-18 11:19:00
119
转载 【指标】GMV和销售额、SPU、SKU、商品、单品
不要被GMV忽悠了!!!GMV比较水 GMV:Gross Merchandise Volume,商品总交易额(总成交金额,含已付款和未付款等),电商业常用。 GMV=销售额+取消订单金额+拒收订单金额+退货订单金额,看来只要是流水就能计入 ------------------------...
2017-12-14 11:45:00
9290
转载 python模拟MapReduce的感受
技术的海洋,太宽太深,往往学会了这一点,发现还有更多新的东西要学,学不完的赶脚啊!!! 此例子简单,但能帮助快速体会Map和Reduce到底在干什么 目的是求出每个年份的最大值 [zhangyuxia@hadoop234 ~]$ cat test.dat 1950051507004999...
2017-12-14 11:05:00
137
转载 程序=数据结构+算法
【数据结构】 【参考】http://blog.youkuaiyun.com/long316/article/details/52595248 Array:经常用,大小固定占内存小,运行效率较高 ArrayList:长度不固定,动态增加,占内存大效率低 List:经常用,容易 IList: IC...
2017-12-14 10:07:00
96
转载 时间序列分析
年份至少在20年以上,数据越多越好,数据少导致模型结果更加不准,不具备参考意义 【工具】EVIEWS 转载于:https://my.oschina.net/u/3575262/blog/...
2017-12-13 14:48:00
124
转载 BI系统之数据预处理
数据预处理(ETL/清洗、集成)往往占据70%左右的时间精力,非危言耸听,亲历! 参考/转载自:http://blog.youkuaiyun.com/zrjdds/article/details/50223091 【缺失值】 原因:人为原因(遗漏、)+机器原因(故障、性能差无获取能力、)+业务原因(...
2017-12-13 11:17:00
350
转载 BI系统大框架
BI(Business Intelligence)商业智能系统,大中型互联网公司都有,一般都由多个组共同组建。BI建设的完备程度参差不齐。目的是盘活数据资产,让数据说话助推甚至指导企业/部门优化运转,节约成本/提高效益。 BI=ETL+Data Mining+Data Analysis + ...
2017-12-11 18:11:00
326
转载 Spark计算性能调优经验汇总
【参考https://www.cnblogs.com/jcchoiling/p/6440709.html】写的真不错 ,很解渴 大数据spark性能优化的本质与软件无关,归根到底还是要回归到硬件(CPU(计算)、Memory(存储)、IO-Disk/ Network(数据交互))的优化...
2017-12-08 18:37:00
211
转载 vim常用命令
【替换命令】 r 将当前字符替换为,字符即光标所在字符。 s/old/new/ 用old替换new,替换当前行的第一个匹配 s/old/new/g 用old替换new,替换当前行的所有匹配 %s/old/new/ 用old替换new,替换所有行的第一个匹配 %s/old/new/g ...
2017-12-08 15:21:00
60
转载 数据库和数据仓库的关系/HDFS、Hive、MR、Sql、HQL、Mysql
【数据仓库和数据库的联系与区别】 数据库是为捕获数据而设计,数据仓库是为分析数据而设计 【Hive和Mysql】 我理解的是,Hive是通过将HQL语言解释成MR来操作HDFS中的数据,HIve相当于介于HQL和MR的桥梁,运行速度比较慢,适合离线数据处理 Hive是基于分布式数据库H...
2017-12-08 15:06:00
579
转载 hive中表类型和ETL
Hive最重要的部分是sql的group by和join MR就是一个group by的过程;Shuffle是一个介于Map和Reduce之间的过程,从Map到Shuffle到reduce计算出结果前,存储的都是key/value形式的数据 【Hive支持数据类型】 原子数据类型:数值型...
2017-12-08 14:04:00
1728
转载 大数据常见问题:数据倾斜
【数据倾斜】计算数据时数据分散不够,大量数据集中到少量几台甚至1台机器上进行计算,此时计算速度远远低于平均计算速度,导致整体计算速度很慢。此问题出现的关键诱惑因是“数据量非常大,比如千亿级” 数据倾斜原因:Spark和Hive,数据运算时count/distinct/group by/joi...
2017-12-08 11:11:00
178
转载 sql常用函数汇总(基础、高级)
【操作符】= 等于,<>不等于,>,<,>=,<=,between在某个范围内,like搜索某种模式; 【其它】数值不加单引号,文本加单引号;and/or; order by 默认升序,降序desc; insert into; update set; d...
2017-12-08 10:04:00
174
转载 SQL性能调优经验
********这个写的挺好http://www.nowamagic.net/librarys/veda/detail/1502/******** 【理解sql关键字执行顺序及优化方案】 查询中用到的关键词主要包含六个,并且他们的顺序依次为select--from--where--gro...
2017-12-08 09:52:00
110
转载 数据建模流程/步骤
1.确定业务目标 2.数据获取 自有数据、爬虫数据 3.数据检验 唯一性(去重)、样本完整性(样本分布不能偏离总体分布太远)、取值范围、异常值(极值、错误的数值等) 4.变量选择(数据清洗) 【转载自http://www.jianshu.com/p/6a3146808a...
2017-12-06 16:34:00
1587
转载 Spark Core 和MR
什么是Spark Core?它提供Spark最基础与最核心的功能,包括Spark Context + 存储体系 + 计算引擎 + 部署模式 SparkContext:Driver Application的执行与输出都是通过SparkContext来完成的。在正式提交Application...
2017-12-06 14:40:00
125
转载 Spark机器学习库MLlib
Spark MLlib与Hadoop Mahout,可以对比着学习,以下是MLlib主要支持的机器学习算法 【转自赖永炫老师的个人博文】MLlib由一些通用的学习算法和工具组成,包括分类、回归、聚类、协同过滤、降维等,同时还包括底层的优化原语和高层的管道API。具体来说,其主要包括以...
2017-12-06 13:56:00
242
转载 各层级统计学知识点
【入门基础】 随机变量、均值方差标准差、统计图表、概率密度、二项分布、泊松分布、正态分布、大数定律、中心极限定理、样本和抽样分布、参数估计、置信区间、伯努利分布、假设检验和p值、方差分析、回归分析(一元线性、一元非线性)等 条形图/线形图/饼图/箱线图 相关性和因果性 时间序列分析(平...
2017-12-06 10:26:00
421
转载 Shell种类、Shell Script 、Linux命令、Hadoop命令
1.操作系统Shell Shell本身是用户操作Unix/Linux系统的桥梁。Shell是脚本语言,可处理多个linux命令;理解“脚本”,就很容易学了。把bash学会、学透比较重要 ---------框内转自http://blog.youkuaiyun.com/chentiefeng521/...
2017-12-05 10:24:00
91
转载 Spark生态圈/计算框架
1.核心数据结构RDD RDD操作只有两个:转换和动作 2.SPARK生态圈 Spark Streaming Saprk SQL:经常使用,比较熟,很方便 MLib GraphX 3.Spark语言 spark-shell:scala语言...
2017-12-04 18:16:00
139
转载 大数据可视化工具汇总
1.图表秀:简单方便易用;可生成比较复杂漂亮的图;交互界面友好,操作门槛很低,懂表和数据即可 2.在线Echarts:http://echarts.baidu.com/echarts2/doc/example.html 稍微修改代码即可,简单快捷;依托于网页前端技术,有计算机基础就...
2017-12-04 16:03:00
111
转载 Code版本控制系统汇总
1.集中式版本控制系统 必须联网,网速影响管理效率 CVS:没用过,不说了 SVN:经常使用,不用写命令,下载个客户端TortoiseSVN,配置好有读写权限的路径,在本地创建专门的一个文件夹存放从SVN上download下来的所有资料,右键点鼠标操作即可;必须右键单击文件夹才能...
2017-12-04 14:20:00
221
转载 技术学习资源汇总
1.菜鸟教程(www.runoob.com) 2.廖学锋的官方网站 3.MOOC 4.网易云课堂 5.Github 6.开源社区 7.可汗学院公开课 8.优快云 9.http://www.yiibai.com/ ...
2017-12-04 14:11:00
80
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人