- 博客(6)
- 收藏
- 关注
原创 hive锁表操作
当hive表被锁住后,进行drop insert操作时都出挂起等待,sqoop也无法导入数据,此时就需要先对hive表解锁再进行相关操作。1. 查看是否锁表SHOW LOCKS <TABLE_NAME>;SHOW LOCKS <TABLE_NAME> extended;SHOW LOCKS <TABLE_NAME> PARTITION (<...
2019-01-18 09:51:00
1655
1
原创 渠道反作弊之常见行业手段
总结对用户设备物理信息的采集,通过技术手段识别是否异常,或以来后台类似黑名单的资源进行判断。未来较为先进的手段有检测设备的环境信息,例如是否有触摸,设备位置角度是否有变化等,同盾在近半年可能会使用这种方式。 从用户效果数据的角度进行分析,例如用户的留存,时常,收益等;第三方数据在这一方面的应用主要体现在设备的重复安装检测上。 利用算法进行用户分析,通常会综合以上两个方面加之用户当前的行为识...
2019-01-06 11:51:54
27856
4
原创 Hive数据组织方式介绍
Hive和普通DB的异同 Hive将元数据存储在RDBMS中,一般使用的数据库有mysql和derby。默认的情况下hive将元数据保存在内嵌的derby数据库中,但是只能允许一个会话连接,只适合做简单的测试。这种部署当时在实际生产环境中不适用。为了支持多用户会话,需要一个独立的元数据存储数据库,使用mysql可以满足这个需求,并且hive内部对mysql提供了很好的支持。实际...
2019-01-06 11:42:15
731
原创 数据仓库工具之hive介绍
Hive是基于hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。本质是将SQL转换为MapReduce程序。hive的主要用途:用来做离线数据分析,比直接用MapReduce程序开发效率更高。直接使用MapReduce所面临的问题:人员学习成本太高:使用mr直接分析数据的前提是需要开发复杂的mapreduce程序,这对于数据仓库的受众...
2019-01-06 11:39:44
1331
1
原创 了解数据仓库
面临的场景公司要搞数据分析,但是数据存储在不同的数据库中,有的在mysql,有的在oracle甚至有的是第三方数据,需要把这些数据整合在一起进行统一的分析处理。 怎么找到一个合理而且主流的解决方案呢?经过技术调研,我们发现这正是数据仓库的使用场景,建立数据仓库可以很好的解决这一问题。什么是数据仓库?我们通过一个小故事来理解一下吧 在很久很久以前,世界上生活着许多种族,有...
2019-01-06 11:38:36
324
原创 python __init__.py的主要作用
__init__.py的主要作用Python中 package的标识 在__init__.py中定义__all__用来模糊导入 编写Python代码(不建议这么做,实际的逻辑可以在其他py文件中写,__init__.py应该尽量轻)package标识在pycharm中new,有Directory和Python Package两个选项。 分别创建Directory和package,发...
2019-01-06 11:36:19
9958
1
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人