
基础
文章平均质量分 70
高雅_GaoYa
一个励志成为优秀分析师的孩纸
展开
-
天猫八大策略人群&京东十大靶向人群简介
人群划分是用户运营的一个基础概念,典型的场景是把需要运营的人群分成不同的层级,例如小镇青年、都市辣妈等,包括天猫、京东及抖音在内的平台,以用户精细化运营为理念,借助平台自身的大数据和技术优势,根据用户特征聚类,形成各类大同小异的人群划分标准。文章将会给出各类人群的相关介绍,以供参考学习。......原创 2022-05-30 18:00:53 · 26815 阅读 · 3 评论 -
python数据清洗学习笔记--数据预处理
python数据清洗学习笔记–数据预处理重复值处理• 数据清洗一般先从重复值和缺失值开始处理• 重复值一般采取删除法来处理• 但有些重复值不能删除,例如订单明细数据或交易明细数据等df[df.duplicated()]np.sum(df.duplicated()) df.drop_duplicates() df.drop_duplicates(subset=['appname','...原创 2020-04-04 22:41:11 · 1204 阅读 · 0 评论 -
python数据清洗学习笔记--数据统计
python数据清洗学习笔记–数据统计文章目录python数据清洗学习笔记--数据统计1、数据分组运算2、聚合函数的使用3、分组对象与apply函数4、透视图与交叉表数据透视表交叉表用于计算分组频率1、数据分组运算分组计算根据某个或者某几个字段对数据集进行分组,然后运用特定 的函数,得到结果• 使用groupby方法进行分组计算,得到分组对象GroupBy• 语法为df.groupby(...原创 2020-04-04 15:51:45 · 382 阅读 · 0 评论 -
python数据清洗学习笔记--数据转换
python数据清洗学习笔记–数据转换目录python数据清洗学习笔记--数据转换1、日期格式数据处理2、字符串数据处理3、高阶函数数据处理1、日期格式数据处理• Pandas中使用to_datetime()方法将文本格式转换为日期格式• dataframe数据类型如果为datetime64,可以使用dt方法取出年月日等• 对于时间差数据,可以使用timedelta函数将其转换为指定时间...原创 2020-04-04 11:01:56 · 269 阅读 · 0 评论 -
python数据清洗学习笔记--数据表处理
python数据清洗学习笔记–数据表处理数据常用筛选方法• 在数据中,选择需要的行或者列• 基础索引方式,就是直接引用• ioc[行索引名称或者条件,列索引名称或者标签]• iloc[行索引位置,列索引位置]注意, 区分loc和ilocbasic[['户主姓名','农户生产经营类型']] basic.loc[0:2,['户主姓名', '户主身份证号']] orde...原创 2020-04-03 16:22:19 · 580 阅读 · 0 评论 -
python数组中,关于行和列的参数解释
关于行和列的参数解释axis=0是跨行, axis=1是跨列• axis=0: 0值表示沿着行的方向或行标签、索引值向下执行• axis=1: 1值表示沿着列的方向或列标签值执行对应方法可以看到当axis=0时,遍历的是每行,或者说保持列标签不变,对行进行操作同样的当axis=1时,遍历的是每列,所以当我们求每列的均值时, 应该是遍历每行加总求均值...原创 2020-04-03 10:34:08 · 3215 阅读 · 0 评论 -
python数据清洗学习笔记--文件读写
python数据清洗–文件读写目录python数据清洗--文件读写csv文件读写:excel文件读写:数据库文件的读写:创建连接数据保存:前期准备:#导入os模块import os#获得当前路径地址os.getcwd() # 更改文件路劲os.chdir('F:\python\数据清洗\代码和数据')#设置最大显示列数pd.set_option('display....原创 2020-04-02 23:00:05 · 662 阅读 · 0 评论 -
Python数据清洗学习笔记--常用工具
Python数据清洗–常用工具概述:目前在Python中, numpy和pandas是最主流的工具Numpy中的向量化运算使得数据处理变得高效Pandas提供了大量数据清洗的高效方法在Python中,尽可能多的使用numpy和pandas中的函数,提高数据清洗的效率NumPy:NumPy常用的数据结构Numpy中常用的数据结构是ndarray格式使用a...原创 2020-04-02 22:23:07 · 475 阅读 · 0 评论 -
Python数据清洗学习笔记--概述
Python数据清洗学习记录–概述数据清洗实质上是将实际业务问题中,脏数据清洗干净,转换为’干净的数据’,所谓的脏,指数据可能存在以下几种问题(主要问题):数据缺失 (Incomplete)是属性值为空的情况。如 Occupancy = “ ”数据噪声 (Noisy)是数据值不合常理的情况。如 Salary = “-100”数据不一致 (Inconsistent)是数据前后存在...原创 2020-04-02 22:05:23 · 503 阅读 · 0 评论 -
ndarray数组的创建方法
ndarray数组的创建方法(1)从Python中的列表、元组等类型创建ndarray数组x = np.array(list/tuple)x = np.array(list/tuple,dtype=np.float32)当np.array()不指定dtype时,NumPy将根据数据情况关联一个dtype类型(2)使用NumPy中函数创建ndarray数组,如:arange, ones,...原创 2020-03-28 21:09:10 · 4411 阅读 · 0 评论 -
Numpy数组对象ndarray
Numpy数组对象ndarrayN维数组对象:ndarrayPython已有列表类型,为什么需要一个数组对象(类型)?•数组对象可以去掉元素间运算所需的循环,使一维向量更像单个数据•设置专门的数组对象,经过优化,可以提升这类应用的运算速度观察:科学计算中,一个维度所有数据的类型往往相同•数组对象采用相同的数据类型,有助于节省运算和存储空间ndarray是一个多维数组对象,由两部分构...原创 2020-03-28 20:26:46 · 972 阅读 · 0 评论 -
SQL:如何给sql查询结果加上序号
给SQL查询结果加序号用SQL查询出结果后,想要在结果的每行前面加上序号怎么办?这儿提供三种办法:(例子中:student为表名stuid为student表中的字段)1、窗口函数:row_number()-- 给查询后的结果加上序号-- 方法一:row_number()select row_number() over(order by a.stuid) `no` ,...原创 2020-03-26 16:41:08 · 22737 阅读 · 1 评论 -
Hive函数相关知识简介
Hive函数相关知识简介文章目录Hive函数相关知识简介1、 系统自带的函数2 、自定义函数3、 自定义UDF函数开发案例1、 系统自带的函数1)查看系统自带的函数hive> show functions;2)显示自带的函数的用法hive> desc function upper;3)详细显示自带的函数的用法hive> desc function extend...原创 2020-03-22 11:38:44 · 276 阅读 · 0 评论 -
实现Windows文件复制到vm虚拟机
实现Windows文件复制到vm虚拟机听说可以直接把Windows里的文件拖到虚拟机里??纳尼??(⊙o⊙)?居然有这么骚的操作,那我一定得试试:先打开虚拟机,切换到我的目标文件夹,然后找到想要复制得文件,鼠标左键点住我就往虚拟机界面那么一拖~~~~~~呃。。。然而并没有成功。。。当时得界面忘了截图了,大概就是弹出了一个小窗口上面写着:文件传输:ZMODEM。。。但是进度条空白,一直...原创 2020-03-21 19:49:43 · 9735 阅读 · 2 评论 -
关于hive的严格模式
关于hive的严格模式文章目录关于hive的严格模式带有分区的表查询带有order by的查询限制笛卡儿积的查询定义:防止用户执行那些可能产生意想不到的不好的效果的查询。即某些查询在严格模式下无法执行。通过设置hive.mapred.mode = strict ,可以禁止三种类型的查询:set hive.mapred.mode=strict; 带有分区的表查询带有order by的...原创 2020-03-20 22:45:35 · 330 阅读 · 0 评论 -
Linux的常用命令
Linux的常用命令2020年3月12日切换身份:su;su - ;例如:su - root帮助命令:man进入man命令后的常用按键和用途:注:小键盘home键和end键为fn+方向左/右键常用系统工作命令:echo:用于在终端输出字符串或变量提取后的值date:显示及设置系统的时间或日期date命令中的参数以及作用:例如:date "+%Y-%m-%d %H:...原创 2020-03-18 12:28:56 · 353 阅读 · 0 评论 -
Hadoop基础知识介绍
认知hadoop2020年3月17日Hadoop是Apache旗下的一套开源软件平台Hadoop提供的功能:利用服务器集群,根据用户的自定义业务逻辑,对海量 数据进行分布式处理Hadoop的核心组件:HDFS(分布式存储)、MapReduce(分布式计算)、Yarn(资源调度引擎)HDFS:为海量数据提供存储块级别的分布式文件存储系统1)NameNode(nn)存储文件的元数据2)...原创 2020-03-17 23:59:14 · 379 阅读 · 0 评论 -
jupyter更换主题(win)
jupyter更换主题(win)jupyter默认主题背景是白色,久看也许就比较伤眼了(个人偏爱黑色背景,可能是黑色更炫(zhuang)酷(B)?????)那么怎么更换jupyter主题呢?首先默认打开的jupyter是这样的:现在开始换背景吧:先打开cmd窗口,安装主题:pip install --upgrade jupyterthemespip install --upgrade j...原创 2020-03-17 17:57:14 · 4492 阅读 · 0 评论 -
如何通过浏览器访问Hadoop文件系统
如何通过浏览器访问Hadoop文件系统打开浏览器,再浏览器网址处输入:(谷歌浏览器吧,IE好像不行)192.168.x.xxx:50070 进入前面为自己的虚拟机IP地址,例如我的虚拟机IP地址为192.168.5.100,那么我便输入192.168.5.100:50070 如图)点击右侧Utilities 点击Browse the file system即可进入目录:...原创 2020-03-15 23:00:11 · 7963 阅读 · 0 评论 -
用jupyter打开其他盘的文件
jupyter只能打开C盘的文件怎么办初学者在使用jupyter的过程中一定会遇见这样的问题:“呀!我的jupyter打开里面怎么只能看见C盘的文件啊,怎么办怎么办??” 手动狗头(因为我就遇见过,还一直傻傻的把要用的文件放在桌面上,因为不会进其他盘O(∩_∩)O…)不说废话了,现在看看怎么让jupyter打开D盘(E、F、G盘)的文件:首先,不出意外的话安通常打开jupyter的方式,...原创 2020-03-14 17:42:47 · 15921 阅读 · 15 评论 -
MySQL基于python的一个工具:mycli
mycli的安装和登录首先需要python的环境,在拥有python后可利用mycli连接数据库安装mycli:pip install -U mycil如果下载慢可以试试豆瓣镜像: https://pypi.douban.com/simplepip install -U mycli -i https://pypi.douban.com/simple安装成功后使用命令mycli -...原创 2020-03-04 13:29:26 · 821 阅读 · 0 评论 -
MySQL服务的登录与退出
MySQL服务的登录与退出方式一:通过MySQL自带的客户端(只限于root用户)方式二:通过windows自带的客户端 mysql -h主机名 -P端口号 -u用户名 -p(本机可省略-h -P)①打开cmd,输入mysql -uroot -p 回车输入密码mysql -uroot -p②打开cmd,输入mysql -uroot -p0817(p后面直接跟密码,我的密码是0817...原创 2020-03-04 13:11:13 · 312 阅读 · 0 评论 -
WIN系统下启动和关闭MySQL
启动/关闭MySQL服务:①用管理员身份打开cmd使用WIN+S键进入搜索窗口。在搜索栏输入cmd,然后在匹配结果里面找打“命令提示符”,打开其子选项,选中打开“以管理员身份运行”!②net stop mysql80关闭MySQL服务net stop mysql80③net start mysql80打开MySQL服务net start mysql80另一个方式:计算机...原创 2020-03-04 13:06:33 · 520 阅读 · 0 评论 -
MySQL基础知识总结(三):单表查询
单表查询插入数据insert into table_name(field1,field2,....fieldn);插入记录的一部分insert into 表名(字段1,字段3,字段5)values(对应字段1,对应字段3,对应字段5);插入多条记录格式:insert into table_name(field1,field2,...fieldn)values(value1,val...原创 2020-03-03 18:50:58 · 356 阅读 · 0 评论 -
MySQL基础知识总结(二):表的基本操作
表的基本操作创建表和删除表创建表create table Name( );删除表 drop table Name;列属性Null / Not Null空属性default默认值primary key主键添加主键:一、创建表的时候1、直接字段之后跟primay key:2、在所有字段之后用primary key创建(可以是复合键)二、创建表后追加Alter t...原创 2020-03-03 18:32:02 · 165 阅读 · 0 评论 -
MySQL基础知识总结(一):数据库的基本操作
数据库基本操作查询和选择数据库标题查询现有数据库 show databases选择数据库 use Name;新建数据库 create database Name;Name:数据库名字数据库命名规则:字母、数字、下划线、@、#、$符号组成首字母不能是数字和$不允许有空格和其他字符新建数据库指明编码新建 create database Name char...原创 2020-03-03 18:14:51 · 286 阅读 · 0 评论 -
原码、反码、补码介绍
计算机中原码、补码、反码简介一. 机器数和真值在学习原码, 反码和补码之前, 需要先了解机器数和真值的概念. 1、机器数一个数在计算机中的二进制表示形式, 叫做这个数的机器数。机器数是带符号的,在计算机用一个数的最高位存放符号, 正数为0, 负数为1. 比如,十进制中的数 +3 ,计算机字长为8位,转换成二进制就是00000011。如果是 -3 ,就是 10000011 。 那么...转载 2020-02-25 23:25:11 · 218 阅读 · 0 评论