- 博客(13)
- 资源 (1)
- 收藏
- 关注
原创 Python读取指定日期邮件
背景:9月份有部分数据缺失,这部分数据在邮箱里,需要重新拉取,但是每天几百封邮件,总共有6、7万封邮件,使用stat()和retr(which)结合遍历很耗时基于如上背景,初始大致思路为:使用二分法获取到需要恢复数据时间范围内的中间一个值,也就是第几封邮件,然后分两头遍历,读取到所有需要的邮件算法函数:1、获取到邮件的时间,由于可能收到格林威治时间邮件,所以这里做了相应的处
2017-11-08 18:53:54
8132
原创 MonGoDB学习笔记
head:mongodb单个数据库默认最多可以创建24000个名称空间,可以修改nssize参数来增加名称空间的数目限制tips1:尽可能的去使用内嵌数据,而不是引用,因为这样高效的多,而且总是可行。另:所有的引用都会在数据库中产生另一个查询。1、连接mongodb先开一个cmd界面,进入到mongodb的bin目录,执行mongod.exe -f mongo.co
2017-10-30 17:28:47
1054
原创 GitHug环境搭建
1、下载Git工具,并配置Git工具安装目下面的bin目录到环境变量的PATH中,这样我们就可以在cmd下面使用git了。可以使用git --version测试2、githug是在ruby上运行的,所以我们需要下载ruby下载ruby,安装时勾选“Add Ruby executables to your PATH”安装好可以在cmd命令输入ruby --version测试r
2017-10-18 10:29:59
510
原创 hadoop单机版安装
修改hadoop环境Vi ~/profileexportHADOOP_HOME="/opt/gnweb/Hadoop/hadoop-2.2.0"export PATH=$PATH:$HADOOP_HOME/binsource ~/profile 1,修改hadoop-env.sh中修改JAVA_HOME 2,修改core-site.xml配置文件?
2017-10-13 15:48:02
334
原创 Oracle个人归纳
一些简单的归纳,个人当做笔记记录下作为oracle开发,需要了解到oracle的体系结构,表关联,索引等知识,这里做个大致的记录1、oracle物理体系结构oracle由实例和数据库组成,实例包含了一个公共的内存区域和几个不同功能的进程,数据库则是由数据文件,参数文件,控制文件以及日志文件组成。还有一个个人私有的内存空间,叫做PGA,是开辟给每个人的,主要保存一些连接信息,权限校验信息
2017-10-11 10:28:18
347
原创 oracle体系结构-一条sql说明oracle体系结构
最近拜读了梁老师的《收获不止oracle》,作为一个三四年的程序猿,算是第一次比较系统的去了解oracle体系结构这种偏底层的东西,一般都是直接基于应用,用过可能就忘了。这里做个相应的记录,也算是给自己学习的校验。一条sql说下oracle体系结构:select a from b where c=1比如上面这句SQL,一般我们操作数据库,会通过sql plus连接数据库,或者直
2017-09-15 14:02:43
415
原创 数据接入处理(数据源文件乱码)
场景:本公司服务器每天会接入4类文件,通过shell脚本的wget命令去提交url获取数据源文件,从晚上的七点开始,大约到第二天的4点左右结束。数据文件生成之后,后续有流程在六点多进行调度,处理数据文件,进行处理入库等操作。问题:1、数据文件都是有时间标识的,如果有一个时间标识文件没有获取到,后续处理流程会报错2、数据文件格式固定,有时可能获取乱码文件,会导致后续处理流程报错处
2017-09-07 11:47:46
2203
原创 oracle with sql优化
最近工作有个需求,需要通过一个SQL实现。当时的逻辑是with a as(select * from a),b as (select * from b),c as (select * from c)select a.a,sum(case ..) from a join b on a.id=b.id and b.cn>10join c on
2017-09-07 11:28:39
395
原创 oracle&&linux技能点记录
1、强制让oracle走索引/*+INDEX(a CM_COOKIELOGINS_PK)*/ 其中a是表的别名,CM_COOKIELOGINS_PK是索引名称2、oracle分区oracle分区分为范围分区,列表分区以及hash分区,范围分区给定范围即可,列表分区需要列举出所有分区名称,hash分区则是对于不知道如何分区的表,给出分区数量就可以,oracle会自动把表平均分在不同的分区
2017-09-05 18:15:33
399
原创 UnicodeEncodeError: 'latin-1' codec can't encode character
最近在学习python,遇到了mysql中文乱码的问题,这里记录下处理流程。不多说,直接上处理流程:先是:1:python 写的程序, 统一用 utf-8 ,以及重新载入utf-8#!/usr/bin/python#coding=utf-8import sys,osreload(sys)sys.setdefaultencoding('utf8
2017-04-09 22:21:43
918
原创 python爬虫正则表达式之处理换行符以及其他
刚开始学python,记录下问题。代码如下:#coding:utf-8import re,urllib2def getHTML(url): html=urllib2.urlopen(url) html=html.read() return htmlif __name__=='__main__': url='https://www.baidu.com
2017-03-16 20:56:56
7024
1
原创 python爬虫之urllib模块和requests模块学习
今天学习了request模块和urllib模块,了解到这两个模块最大的区别就是在爬取数据的时候连接方式的不同。urllb爬取完数据是直接断开连接的,而requests爬取数据之后可以继续复用socket,并没有断开连接。两种用法的区别,上源码:requests:#coding:utf-8import requestsdef eazy_url_demo(url): res
2017-03-16 20:55:50
721
原创 Hive UDF
长时间没写java了,对于myeclipse都用的不是很6了,现在说下我的简单的hive udf咋写。准备如下:myeclipse+hive相应jar包(两个:一个在hadoop里,叫做:hadoop-common-2.2.0.jar 一个在hive里:叫做:hive-exec-0.13.1.jar)附件:链接: http://pan.baidu.com/s/1c0Juz
2015-12-29 00:07:44
360
CSV文件乱码校验
2017-09-07
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人