
Python
陈伦(colby)
项目经理/数据架构师/资深数据从业者。
熟悉传统数据、互联网数据处理,精通数据仓库方法论、数据迁移、数据处理、数据可视化、数据建模、架构设计、方案设计,曾负责多个数仓项目0到1建设并落地,有PB级数据调优实战经验!
曾获得计算机四级数据库证书、PMP项目管理专业人士证书等。
展开
-
Python操作HDFS封装类,拷贝过去直接用
from hdfs.client import Clientfrom conf.settings import DFS# 关于python操作hdfs的API可以查看官网:# https://hdfscli.readthedocs.io/en/latest/api.html# client = Client(url, root=None, proxy=None, timeout=None, session=None)# client = Client("http://hadoop:500.原创 2020-11-03 16:52:46 · 563 阅读 · 0 评论 -
django模型中auto_now与auto_now_add的区别
auto_nowauto_now无论是你添加还是修改对象,时间为你添加或者修改的时间,一般用作更新时间。auto_now_addauto_now_add为添加时的时间,更新对象时不会有变动,一般用作创建时间。具体案例:class BaseModel(models.Model): '''模型抽象类型''' create_time = models.DateTim...原创 2019-09-08 22:49:33 · 782 阅读 · 0 评论 -
ubuntu 卸载python3.5
1.卸载python3.5sudo apt-get remove python3.52.卸载python3.5以及它的依赖包sudo apt-get remove --auto-remove python3.53.清除python3.5要想清除python3.5的配置文件和数据文件,执行以下命令:sudo apt-get purge python3.5sudo ...原创 2019-09-06 14:18:17 · 4998 阅读 · 0 评论 -
Hive之UDF实现
Java实现UDF函数一、实现字符串到数字的转换package com.easyrong.data.function;import org.apache.hadoop.hive.ql.exec.UDF;public class NumberToChar extends UDF{ public static int byteToInt(byte b) { //...原创 2019-09-06 13:59:16 · 897 阅读 · 0 评论 -
Python装饰器掌握技巧
先给出一个最简单的装饰样例一# coding=utf-8二def login_checking(fun_name):三 def inner():四 print("登录验证...")五 return fun_name()六 return inner()七@login_checking # login_checking(login)八d...原创 2019-08-29 11:11:09 · 153 阅读 · 0 评论 -
Python实现八大排序
1、插入排序描述插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据,算法适用于少量数据的排序,时间复杂度为O(n^2)。是稳定的排序方法。插入算法把要排序的数组分成两部分:第一部分包含了这个数组的所有元素,但将最后一个元素除外(让数组多一个空间才有插入的位置),而第二部分就只包含这一个元素(即待插入元素)。在第一部分排序完成后,再将这个最后元...转载 2019-08-28 17:34:42 · 137 阅读 · 0 评论 -
Python爬虫代理IP结合BeautifulSoup MongoDB
安装包准备:pymongo、BeautifulSoup实现代码#coding=utf-8import requestsimport pymongofrom bs4 import BeautifulSoupfrom conf.config import *from multiprocessing import Poolclient=pymongo.MongoCli...原创 2019-08-28 17:29:26 · 411 阅读 · 0 评论 -
三种常见字符编码简介:ASCII、Unicode和UTF-8
三种常见字符编码简介:ASCII、Unicode和UTF-8什么是字符编码? 计算机只能处理数字,如果要处理文本,就必须先把文本转换为数字才能处理。最早的计算机在设计时采用8个比特(bit)作为一个字节(byte),所以,一个字节能表示的最大的整数就是255(二进制11111111=十进制255),如果要表示更大的整数,就必须用更多的字节。比如两个字节可以表示的最大整数是655...原创 2019-08-28 17:16:50 · 317 阅读 · 0 评论 -
dataX 在Linux的安装部署与测试方案
环境准备 Hadoop2.7.3Hive1.2.1JDK1.8Python2.7 centOS系统默认自带Mysql5.7dataX3.0下载地址:http://datax-opensource.oss-cn-hangzhou.aliyuncs.com/datax.tar.gz 测试脚本准备 Mysql建表脚本与数据脚本 DROP TABLE...原创 2019-08-24 18:46:09 · 4037 阅读 · 0 评论 -
hive之Python UDF函数操作map数据 详解 全是干货
#1、Hive基本操作:查看dw.full_h_usr_base_user的详细信息,可以获取数据文件的存放路径desc formatted dw.full_h_usr_base_user;dfs -ls dfs -ls hdfs://BIGDATA:9000/user/hive/warehouse/dw.db/full_h_usr_base_user;删除外表原创 2017-09-30 10:23:50 · 2862 阅读 · 0 评论 -
Python之Scrapy框架Redis实现分布式爬虫详解
1、创建scrapy工程scrapy startproject youboy2、scrapy工程目录介绍│ main.py #爬虫程序入口cmdline.execute("scrapy crawl youboySpider".split())│ scrapy.cfg └─spider_youboy │ items.py #定义要存储的字段,原创 2017-09-29 14:45:04 · 3833 阅读 · 3 评论 -
老男孩14期14周作业-简单的商城页面布局
html>html lang="en">head> meta charset="UTF-8"> title>农产品商城title>head>body style="margin:0px auto;"> div style="height:40px;background-color:#f1f1f1;"> div style="width: 1500px原创 2017-08-28 10:05:24 · 377 阅读 · 0 评论 -
Python3.5 微信图片-日期命名
#coding=utf-8#Version:python3.5.2#Tools:Pycharm'''本脚本主要功能:将微信手工保存的图片文件名称改成带日期的规范名称'''__author__ = "Colby"import os,sys,time,datetime,redef rm(dir,fileNameSource,fileNameTarget,houzui): '''原创 2017-07-18 18:03:39 · 2418 阅读 · 2 评论 -
Python3.5计算器之复杂表达式运算
一、需求有这么一个表达式:1 - 2 * ((60-30 +(-40.0/5) * (9-2*5/3 + 7 /3*99/4*2998 +10 * 568/14 )) - (-4*3)/ (16-3*2)))通过Python实现,自动判断括号以及加减乘除的运算优先级,得出运算结果同时允许用户自己输入表达式(限+-*/()),正确回显计算结果二、技术Python3正则表达式+函数递归原创 2017-07-12 13:59:40 · 3441 阅读 · 0 评论