- 博客(30)
- 收藏
- 关注
原创 这个牛逼的大数据工具、你可以会用了
原文链接:人只是一根芦苇,是自然界最脆弱的东西,但他是一根会思想的芦苇大家好, 我是风一,前几天有同事找我这边同步数据、大致需求就是将不同服务器上的不同数据库进行定时的相互同步;这让我一下子就想到老早之前使用过的阿里离线同步工具 DataX;由于有很长一段时间没使用过了、在具体使用的过程中还碰到了一些小麻烦、因此这里做一下资料复习和总结、主要分为以下几个内容:一、DataX 的简介二、DataX 的配置三、DataX 的使用欢迎关注微信公众号、一起交流,学习。DataX的简介:
2021-11-13 21:50:08
2045
原创 Python文本处理—jieba & wordcloud
原文链接:风一带你一起使用Python的文本库制作词云图碎碎念念: 大家好!我是风一;数据分析师在日常工作中有时需要和文本打交道,最常见的就是从评价或评论中提取一些关键字,比如电商的商品评价,短视频的用户评论等,以便对用户的态度能够有所掌握,协助业务方找到问题所在。Python 提供了非常强大的包来解决此类问题,其中最重要的两个包是 jieba 和 wordcloud。这两个包分别用于分词和绘制词云图,这也是在数据分析中文本处理的两个步骤。分词,顾名思义,就是将一句话切分成不同的词。这类涉及分词的三种
2021-09-23 08:41:28
637
原创 数据清洗_缺失值处理
原文链接:风一带你一起学习数据清洗_缺失值处理碎碎念念:大家好!我是风一、有人调侃做数据的、80%的时间都是花在数据清洗上、虽然有时很想反驳一下、但现实确实经常是如此,那么何为数据清洗?需要处理的数据主要又有哪些?那么就让我们开始吧!所谓的清洗,是对数据集通过丢弃、填充、替换、去重等操作,达到去除异常、纠正错误、补足缺失的目的;在数据清洗的过程中、主要需要处理的有缺失值、异常值和重复值,以下篇幅为数据缺失值处理。一、数据缺失的两种情况:一种是行记录的缺失,这种情况又称为数据记录的丢失;另一种是数据列
2021-09-08 17:34:59
3552
原创 生产环境sqlserver数据库高频操作
学习、是一个不停充电、扩充知识面的过程,而定时输出,就是将这些过程转化成自己知识的一个结果。一、基础查询1.1.语句查询执行顺序:开始->FROM子句->WHERE子句->GROUP BY子句->HAVING子句->ORDER BY子句->最终结果--如:SELECT Memberid FROM dbo.base_Dealers WHERE CreateTime>='2020-01-01' GROUP BY Memberid HAVING Memb
2020-12-09 21:20:09
395
原创 数据分析薪资分析
import numpy as npimport pandas as pdimport matplotlib.pyplot as plt# 读取数据df = pd.read_csv(r'D:\python\exercise_data/job.csv')df.head(3) 数据分析 北京·朝阳区·亚运村 中信百信银行 25-40K·15薪 本科 5-10年 银行
2020-12-07 23:57:21
2600
1
转载 转行数据分析之前,希望你能看看这篇『长文+干货』
本文转载小一的学习笔记,因考虑存在找不到原文的因素,故全文编辑了一下,感谢笔者的分享!2020,努力做一个无可替代的人!长文预警,全篇无代码,只讲小一我在数据分析之路上的心得收获前言最近有朋友问了小一一些关于转行和入门的问题,问题大概是这样:“我想学习数据分析,不知道该从哪开始学,小一你可以带我吗?”“零基础,想学习数据分析,有好的经验可以分享吗?”在总结大家问题的时候,我不禁想到了两三年前的自己。那会儿,小一我也刚步入社会没多久,自己会的专业技能全是为后台开发准备的。到了部门之后,因
2020-12-04 15:10:40
381
原创 经典权限系统设计方案
经典权限设计一、权限说明二、权限表设计三、权限应用一、权限说明权限系统是每个系统的最基本系统,经典的权限系统RBAC:基于角色的访问控制(Role-Based Access Control )二、权限表设计用户表:user_info 角色表:role_info 菜单表(权限表):menu_info用户角色表:user_role角色菜单表(权限表):role_menu -- 控制每个角色的各个权限三、权限应用查找用户对应的菜单权限
2020-11-01 22:09:09
393
原创 数仓原型设计
数据仓库原型设计一.何为数据仓库二.数仓名称说明2.1.DS:数据来源2.2.ODS: 原始数据层为什么需要ODS层?2.3.DW: 数据仓库数据仓库主要有以下三个特点:数据仓库的数据要为业务提供快速高效的分析,因此数据仓库只有满足一些要求,才能方便使用:根据数据仓库处理的数据层次不同,数据仓库主要分为基础层、主体层、数据集市这三层:2.4.DM: 数据应用层大数据的分析应用主要分为以下三种形式。2.5.元数据:企业自定义维护的基础数据三、数仓原型设计一.何为数据仓库数据仓库,英文名称为Data War
2020-11-01 22:06:25
822
原创 豆瓣top电影数据爬取至mongoDB数据库
通过scrapy框架将豆瓣top250电影信息数据进行爬取至数据库1.settings.py:爬虫配置信息# -*- coding: utf-8 -*-# Scrapy settings for crawlerprc01 project## For simplicity, this file contains only settings considered important or# commonly used. You can find more settings consulting t
2020-10-19 22:06:32
726
1
原创 糗事百科数据爬取至mongoDB数据库
一.基本爬虫的创建1.1.创建项目(cmd)scrapy startproject 项目名称1.2.创建爬虫(同一项目,爬虫名字唯一)cd 项目名称 # 项目所在路径(show in Explorer)scrapy genspider [爬虫名字] [爬虫的域名]1.3.项目的目录结构items.py:用来存放爬虫爬取下来的数据模型middlewares.py:用来存放各种中间件文件pipelines.py:用来将items的模型存储到本地磁盘settings.py:本爬虫的一些
2020-10-19 21:53:52
271
1
原创 MongoDB基础学习笔记
'''https://www.runoob.com/python3/python-mongodb.html Python MongoDB 菜鸟教程MongoDB适合存储一些关系简单、数据量又很大的数据,比如我们的平台上虚拟机的监控信息,包括内存、IO、CPU、网络等数据,每隔几秒就采集一次数据,每周、每月,量很大,而且旧的监控数据也不会保留太长时间,就使用的mongodb来存储这些数据1.Mongodb/Mysql数据库模型: 非关系型/关系型;存储方式: 虚拟内存+持久化/不同的引擎有
2020-09-02 06:56:00
202
原创 利用python进行数据分析—第一章笔记
# http://github.com/wesm/pydata-book 数据文件和相关材料'''本书关注的是利用Python操作、处理、清洗和操作数据的基本要点。当搭建高并发多线程应用,尤其是多CPU绑定线程时,使用Python则会为一项挑战,原因在于Python拥有全局解释器锁,这是一种防止解释器同时执行多个Python指令的机制。'''# 1.Numpy (http://numpy.org)'''Python数值计算的基石,它提供多种数据结构,算法以及大部分涉及Python数值计算
2020-09-02 06:55:02
146
原创 tomcat相关的安装配置
@[TOC](tomcat相关的安装配置)# 1.设置前的准备1.1.环境说明操作系统环境:Windows7(此处以Windows7系统作为案例系统,)JDK版本:JDK8(jdk-8u211-windows-x64.exe)Tomcat版本:Tomcat8(apache-tomcat-8.5.40-windows-x64.zip)...
2020-06-12 16:11:23
434
原创 scrapy框架基础学习之囧事百科
基础:一、安装scrapy框架pip install scrapypip --default-timeout=2000 install -U scrapy来下载scrapy让它的延迟检测时间变长。windows下,还需要安装 pip install pypiwin32二、创建项目和爬虫(同一项目,爬虫名字唯一)创建项目: scrapy startproject 项目名称创建传统爬虫...
2020-06-06 15:31:19
312
转载 聚簇索引(Clustered Index)和非聚簇索引 (Non- Clustered Index)(转)
聚簇索引(Clustered Index)和非聚簇索引 (Non- Clustered Index)
2020-04-17 12:35:16
174
原创 excel的合并merge
# -*-coding:utf-8 -*-# xlrd openpyxl'''excel导入数据库(多个基本相同列头的excel进行合并) 参考: https://www.jianshu.com/p/d1eed925509b Pandas库read_excel()参数详解 https://www.pypandas.cn/ pandas中文尽可能...
2020-03-10 23:04:15
2797
原创 爬虫小练习
import requestsimport reimport pymssqlimport timeimport db # 将创建的包导入(数据库连接)# 获取图片列表def getImagesList(page): url = 'https://www.doutula.com/photo/list/?page={}'.format(page) html = requ...
2020-03-10 22:59:33
240
转载 Python连接SQLServer数据库
'''1. 本文主要是Python操作SQLServer示例,包括执行查询及更新操作(写入中文)。2. 需要注意的是:读取数据的时候需要decode('utf-8'),写数据的时候需要encode('utf-8'),这样就可以避免烦人的中文乱码或报错问题。3. Python操作SQLServer需要使用pymssql模块,使用pip install pymssql安装即可。此外代码中使用...
2020-03-10 22:49:46
686
原创 matplotlib基础学习笔记
matplotlib是基于Python语言的开源项目,旨在为Python提供一个数据绘图包,实现专业的绘图功能,数据可视化。在这里插入代码片
2020-02-28 22:28:01
165
原创 Pandas基础学习笔记
Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而创建的。Pandas 纳入了大量库和一些标准的数据模型,提供了高效地操作大型数据集所需的工具。pandas提供了大量能使我们快速便捷地处理数据的函数和方法import pandas as pdimport numpy as npdf = pd.DataFra...
2020-02-24 23:36:47
143
原创 Numpy基础学习笔记
什么是Numpy?Numpy是Python中科学计算的基础包。它是一个Python库,提供多维数组对象,各种派生对象(如掩码数组和矩阵),以及用于数组快速操作的各种例程,包括数学,逻辑,形状操作,排序,选择,I / O离散傅立叶变换,基本线性代数,基本统计运算,随机模拟等等。import numpy as np# 操作数据s = np.array([1, 2, 3]) # 创建序列...
2020-02-24 20:10:05
163
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人