
Python
文章平均质量分 69
Rango_lhl
记录一个数据老狗的攒知识之路
展开
-
Spark+Kafka实时监控Oracle数据预警
目标: 监控Oracle某张记录表,有新增数据则获取表数据,并推送到微信企业。流程: Kafka实时监控Oracle指定表,获取该表操作信息(日志),使用Spark Structured Streaming消费Kafka,获取数据后清洗后存入指定目录,Python实时监控该目录,提取文本里面数据并推送到微信。(Oracle一台服务器,Kafka及Spark在另外一台服务器)架构: Oracle+Kafka+Spark Structured Streaming+Pythoncentos7oracle原创 2021-02-03 19:07:15 · 519 阅读 · 0 评论 -
面向对象-基于Python代码例子简谈
最近同事聊起所谓面向对象,这里使用Python实现一个搜索引擎的小功能,来作为对面向对象的理解。相关概念网上很多,这里不再多复述,先从代码走起,再代入概念。代码功能:根目录下有1.txt 2.txt 3.txt 三个文件,实现输入文件名,返回是否有该文件及该文件的文件大小代码要实现的功能很简单,这里引用类的写法是为了作为解释面向对象的例子,简单功能可以无需这样写,如若是工程开发,这样写的好处在于通过面向对象的设计,定义好了各功能接口,模块化开发,实现高内聚低耦合。#SearchEngineBase原创 2021-01-29 19:38:11 · 397 阅读 · 0 评论 -
基于Python开发数据宽表实例
搭建宽表作用,就是为了让业务部门的数据分析人员,在日常工作可以直接提取所需指标,快速做出对应专题的数据分析。在实际工作中,数据量及数据源繁多,如果每个数据分析人员都从计算加工到出报告,除了工作效率巨慢也会导致服务器资源紧张。因此建设数据集市层,包含了该宽表层并在非工作时间做自动生成。本文引用CDNow网站的一份用户购买CD明细数据,梳理业务需求,搭建一套数据宽表。该CD数据包括用户ID,购买日期,购买数量,购买金额四个字段(此项目中用userid,datatime,products,amounts字段原创 2021-01-14 11:31:32 · 627 阅读 · 0 评论 -
K-means最优K值计算(利用SSE)
参考代码def distEclud(vecA, vecB): """ 计算两个向量的欧式距离的平方,并返回 """ return np.sum(np.power(vecA - vecB, 2)) def test_Kmeans_nclusters(data_train): """ 计算不同的k值时,SSE的大小变化 """转载 2018-12-19 16:52:04 · 8762 阅读 · 0 评论 -
Python绘制雷达图(俗称六芒星)
原文链接:https://blog.youkuaiyun.com/Just_youHG/article/details/83904618 背景《Python数据分析与挖掘实战》 案例2–航空公司客户价值分析在该案例中的雷达图缺少相应的代码,查看相关文档之后,实现的代码如下。数据用于作图的数据对象名为data_cluster,数据展示如下:注:其中(ZL,ZR,ZF,ZM,ZC)...转载 2018-12-19 15:59:45 · 5230 阅读 · 0 评论 -
Kaggle泰坦尼克-Python(建模完整流程,小白学习用)
优快云广告多,以后都是在博客园写,这边转载:https://www.cnblogs.com/rango-lhl/p/9686195.html————————————————————————————————————————————————————————参考Kernels里面评论较高的一篇文章,整理作者解决整个问题的过程,梳理该篇是用以了解到整个完整的建模过程,如何思考问题,处理问题,...转载 2018-09-30 11:20:54 · 1590 阅读 · 0 评论 -
Pandas数据分析练手题(十题)
优快云广告多,以后都是在博客园写,这边转载: https://www.cnblogs.com/rango-lhl/p/9729334.html------------------------------------------------------------------------------------------------------------------------------...转载 2018-10-04 23:01:28 · 14763 阅读 · 2 评论 -
使用 NumPy 和 Pandas 进行 Python 式数据清理
原文地址:Pythonic Data Cleaning With NumPy and Pandas原文作者:Malay Agarwal译文出自:掘金翻译计划本文永久链接:github.com/xitu/gold-m…译者:bambooom校对者:luochen1992,Hopsken使用 NumPy 和 Pandas 进行 Python 式数据清理数据科学家花费大量时间清理数据集,将它们清理为可以...翻译 2018-07-09 15:22:38 · 3704 阅读 · 0 评论 -
Python3中文词云制作
本文需要的两个Python类库 jieba:中文分词分词工具 wordcloud:Python下的词云生成工具文章来源为原博文从韩寒新浪博客爬取的309篇博文 Python3爬虫韩寒新浪博客文章 Python + worldcloud + jieba 十分钟学会用任意中文文本生成词云本次并未制定逻辑规则用代码剔除部分高频词汇,后续考虑在生成词云前新增一步词频排序,把超过一定次数的次列入过原创 2018-04-09 15:58:18 · 2144 阅读 · 0 评论 -
Python提取MySQL数据为EXCEL文件后邮件发送
1、代码使用的是Python3.6版本。 2、重点是解决提取为excel时中文乱码及邮件发送附件名称中文乱码问题。# -*- coding: UTF-8 -*-import smtplibimport email.mime.multipartimport email.mime.textimport email.mime.baseimport os.pathimport pymy原创 2017-03-28 15:25:55 · 4853 阅读 · 1 评论 -
cx_Oracle模块安装
个人环境前提:WIN10 64位,Python3.5Python连接Oracle数据库,需要用到cx_Oracle模块,开始安装该模块1、需用由于Oracle客户端太大,因此选择使用即用客户端,下载连接如下: http://www.oracle.com/technetwork/database/features/instant-client/index-097480原创 2016-06-24 11:16:48 · 818 阅读 · 0 评论 -
Python中的axis=0,axis=1
axis=0表述列 axis=1表述行如下面例子:In [52]: arr=np.arange(12).reshape((3,4))In [53]:arrOut[53]:array([[ 0, 1, 2, 3], [ 4, 5, 6, 7], [ 8, 9, 10, 11]])In [54]:np.concatenate([arr,arr],axi原创 2016-01-19 15:37:27 · 29835 阅读 · 5 评论 -
Python输出字符奇数位置
给你一个字符串 a, 输出字符奇数位置的字符串。如a=‘12345’,则输出135。b=[a[i],for i in range(len(a)) if i%2==0]print(''.join(b))if i%2==0(如果i除以2余数为0)函数说明 1、join()函数语法: ‘sep’.join(seq)参数说明 sep:分隔符。可以为空 seq:要连接的元素序列、字符串、元组、字典原创 2016-01-19 17:19:09 · 13967 阅读 · 0 评论 -
Python3爬虫韩寒新浪博客文章
利用Python把韩寒新浪博客每篇文章的链接找出,并把每篇文章下载为html格式文件。# -*- coding: utf-8 -*- import urllib.requesturl=['']*350#建立350个列表用来存储每篇博文的地址链接i=0page=1while page<8: #所有文章有7页,因此循环查找每一页 content=urllib.request.u原创 2016-03-31 15:03:55 · 1954 阅读 · 0 评论