- 博客(12)
- 资源 (1)
- 收藏
- 关注
原创 大数据存储系统HDFS和对象存储(OOS/S3)的比较
虽然Apache Hadoop以前都是使用HDFS的,但是当Hadoop的文件系统的需求产生时候也能使用S3。Netflix的利用这个特性把数据存储在S3上而不是HDFS上。笔者曾经工作经历的大数据集群存储都是用HDFS,当前工作接触到对象存储S3,在实践中比较两者的不同之处。
2023-05-14 15:03:01
5881
1
原创 浅谈传统数据仓库在互联网时代的发展方向
数据仓库最早是90年代流行于美国,Bill Inmon最先提出了数据仓库的概念,其专著《建立数据仓库(第一版)》明确指出数据仓库是一个具有如下特征的数据的集合:面向主题的、集成的、非易失的且随时间变化 ,同时是为决策支持服务的。1.2000-2012年 ,数据仓库这个在00年逐渐在国内火起来的,这个时候国内的电信和银行企业积累了一定的数据,希望这些数据能够为经营分析做一些决策支持,因...
2019-08-07 14:06:12
657
原创 geohash精度和误差
具体的计算方法: Latitude的范围是:-90 到 +90 Longitude的范围:-180 到 +180 地球参考球体的周长:40075016.68米,极半径:6356908.8米,赤道半径:6377830,平均半径:6371393 geohash的位数是9位数的时候,误差约为4米;geohash的位数是10位数的时候,误差为0.6米geohash长度...
2019-06-18 11:34:42
9418
2
翻译 评价机器学习模型的三大指标:准确率、精度和召回率
向于使用准确率,是因为熟悉它的定义,而不是因为它是评估模型的最佳工具!精度(查准率)和召回率(查全率)等指标对衡量机器学习的模型性能是非常基本的,特别是在不平衡分布数据集的案例中,在周志华教授的「西瓜书」中就特别详细地介绍了这些概念。GitHub 地址:https://github.com/WillKoehrsen/Data-Analysis/blob/master/recall_prec...
2019-03-07 15:08:04
10137
转载 hive/spark分析函数介绍(转载)
窗口函数应用场景:(1)用于分区排序(2)动态Group By(3)Top N(4)累计计算(5)层次查询 一、分析函数用于等级、百分点、n分片等。函数 说明 RANK() 返回数据项在分组中的排名,排名相等会在名次中留下空位 DENSE_RANK() 返回数据项在分组中的排名,排名相等会在名次中不会留下空位 NTILE() ...
2019-01-16 14:41:32
604
原创 python中列表、字段、元组的遍历
1.列表 lista = ['a','b','c','d','e','f']1.1 for i in a: print(i)1.2 for i in range(len(a)): print(i,a[i])1.3 for i,ele in enumerate(a): print(i,ele)2.字典 di...
2019-01-14 15:11:24
1688
1
原创 判断日期时间字符串是否有效,python实现
工作中经常碰到一个时间字符串是否是有效的问题比如 ‘2018-02-30’ ,'2018-12-01 12:12:60'python 2.7from dateutil import parserdef isvaild_time(str_time): try: if parser.parse(str_time): return 1...
2018-12-18 18:43:31
4266
原创 python中字符串中替换处理和转义
---python 2.7字符串替换函数一般用repalce1.实例:str ='aaa--bbb'要替换其中的---new_str = str.replace('--','')2.实例:str1= "aaa/Gbb"要替换其中的/(斜杠)pyhon中正斜杠为/,反斜杠为\说明:使用转义符号(\)3.实例:str1= "aaa\Gbb"要...
2018-09-12 20:29:26
29563
原创 python导入自定义包说明
在开发python过程中,自己往往会定义一些函数,类,变量,并且将这些对象做成一个XX.py的文件,希望以后的程序会直接使用XX.py文件。通常情况下,我们会将XX.py的文件放在一个目录下,同时再加一个空白__init__.py文件,这样就形成了一个自定义的包。在使用这个包的时候,会有以下几种情况:1.使用的模块或程序文件在同一个目录下,直接import就行了例如:如果想使用xx_data...
2018-04-15 10:06:55
3638
原创 Intellij IDEA 测试scala程序的时候:Exception in thread “main“ java.lang.NoClassDefFoundError: scala/Predef$
Exception in thread "main" java.lang.NoClassDefFoundError: scala/Predef$ at HelloWorld$.main(HelloWorld.scala:4) at HelloWorld.main(HelloWorld.scala)Caused by: java.lang.ClassNotFound...
2018-04-05 10:19:51
15505
4
原创 Intellij IDEA 测试scala程序的时候: "Test is already defined as object Test"
使用Intellij IDEA 编写第一个SCALA程序的时候,会出现报错:object TestScala { def main(args: Array[String]): Unit = { println("Hello,Scala") }}报错:Error:(9, 8) TestScalaObject is already defined as object TestSc...
2018-04-05 09:43:24
4343
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人