- 博客(53)
- 资源 (1)
- 收藏
- 关注
原创 Python中的数据类型
原文链接:http://www.datastudy.cc/to/86 Python中总共有六种数据类型,分别如下: 数字(Numbers) 字符串(String) 列表(List) 元组(Tuple) 集合(Sets) 字典(Dictionaries) 数字的种类: 整数型(int) 浮点型(float) 布尔型(bool)...
2016-11-04 09:48:46
243
原创 MySQL 使用 MRG_MyISAM 存储引擎来实现分表
原文链接:http://www.datastudy.cc/to/83 MRG_MyISAM存储引擎为MySQL的其中一个存储引擎,使用下面语句察看MYSQL数据库是否支持该存储引擎。 MERGE存储引擎,也被认识为MRG_MyISAM引擎,是一个相同的可以被当作一个来用的MyISAM表的集合。“相同”意味着所有表同样的列和索引信息。你不能合并列被以不同顺序列于其中的表,没...
2016-11-03 09:53:29
275
原创 MySQL中的数值函数
原文链接:http://www.datastudy.cc/to/78 本文我们来介绍MySQL中常用的数值符号和函数。 + 加号: mysql> SELECT 3+5; -> 8 - 减号: mysql> SELECT 3-5; -> -2 - 一元减号。更换参数符号。...
2016-11-02 09:14:30
269
原创 Python如何将百分号的字符转成数字
原文链接:http://www.datastudy.cc/to/65 很多时候,我们拿到的报表数据,里面的小数都是带百分号的字符串,不能进行直接的计算,需要对其进行转换,然后再输出。 解决方法: from pandas import DataFrame; df = DataFrame({'p_str': ['10.33%','23....
2016-10-31 12:14:24
2465
原创 一张图让你详细理解Group By的分组聚合过程
原文链接:http://www.datastudy.cc/to/59 Group By分组聚合是我们在使用过程中使用最多的SQL之一(另外一个使用最多的估计就是JOIN了吧),为了让大家详细了解Group By的计算执行过程,我们下面使用一张图来详细讲解一下。 我们的数据就是左表,有name和score两列,我们要求每个name下,score的最大值,技术术语是:...
2016-10-29 12:07:21
1921
原创 如何高效地学习数据结构——Python篇
原文链接:http://www.datastudy.cc/to/44 我们来看看如何高效地学习一门语言的数据结构,今天我们先看Python篇。 所谓数据结构,是指相互之间存在一种或多种特定关系的数据类型的集合。 Python在数据分析领域中,最常用的数据结构,莫过于DataFrame了,今天我们就介绍...
2016-10-27 10:24:51
183
原创 开机时间排名——一个正态分布的应用的案例
原文链接:http://www.datastudy.cc/to/39觉得很有用,但是用不上。 这个肯定是很多人对《统计学》这一门课程的直观感觉,如果这货一点用处都没有,那是不可能的,大学的老师又不傻,没用的课程不会做为基础课程开设。但是你说它有用在哪里,又没有办法举例出来,所以就用不上了。 坦白来讲,我不想开设一门所谓的《傻瓜都能学懂统计学》的类似课程,因为...
2016-10-26 10:25:43
289
原创 开机时间排名——一个正态分布的应用的案例
原文链接:http://www.datastudy.cc/to/37 觉得很有用,但是用不上。 这个肯定是很多人对《统计学》这一门课程的直观感觉,如果这货一点用处都没有,那是不可能的,大学的老师又不傻,没用的课程不会做为基础课程开设。但是你说它有用在哪里,又没有办法举例出来,所以就用不上了。 坦白来讲,我不想开设一门所谓的《傻瓜
2016-10-26 10:20:43
13690
原创 Python pandas 数据框的str列内置的方法详解
原文链接:http://www.datastudy.cc/to/33 在使用pandas框架的DataFrame的过程中,如果需要处理一些字符串的特性,例如判断某列是否包含一些关键字,某列的字符长度是否小于3等等这种需求,如果掌握str列内置的方法,处理起来会方便很多。 下面我们来详细了解一下,Series类的str自带的方法有哪些。 1...
2016-10-25 10:37:24
1200
原创 如何对数据按某列进行分层处理
原文链接:http://www.datastudy.cc/to/19 很多时候,我们拿到的数据,都是汇总的一份数据,例如我们示例中的数据,已经把所有仓库的数据都汇总起来了。 但是我们在统计建模的时候,如果想要把他们拆分开来进行处理,那么如何进行分层处理呢?其实非常简单,我们使用split函数即可。 split(x, f, drop = FALSE, ...)...
2016-10-24 11:46:59
400
原创 陈老师撕B志玲姐姐的热门微博数据分析
昨晚陈老师不知因何事忽然在微博上骂女神志玲姐姐,引起来网友们的热闹围观,导致前几天风风火火的汪峰的前妻吸毒的事件,顿时落下帷幕,汪峰老师好不容易上了一次头条,就这么被硬生生的扯下来了。
2016-07-29 19:20:26
1384
原创 在R中,如何计算Row Number呢?或者说是partition rank呢?
有的同学在处理自己的业务逻辑的时候,需要用到Row Number的方法,那么,什么是Row Number呢? 例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?
2016-07-18 10:40:22
2607
原创 在MySQL中,如何实现Row Number OVER Partiton或者是Rank OVER Partiton呢?
有的同学在处理自己的业务逻辑的时候,需要用到Row Number OVER Partition的方法,那么,什么是Row Number OVER Partition呢? 例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?
2016-07-18 10:29:34
1180
原创 在Pandas中,如何根据Group By 结果计算 Row Number
例如我们有下面的数据,第一列是用户的ID,第二列是用户的购买日期,现在如果我们需要判断用户是否重复购买,并且,每一次的购买,下一次的购买时间间隔是多少呢?
2016-07-11 15:35:23
10329
转载 用Python读红楼梦之——二、词云美化
咱们书接上回,讲到我们使用Python把红楼梦中的核心词汇给绘画出来了,但是,红楼梦这么唯美的书,给我们乌漆麻黑的搞了一张词云,宝宝们肯定接受不了。
2016-07-08 13:23:37
1516
转载 用Python读红楼梦之——一、词云绘制
Python在数据分析中越来越受欢迎,已经达到了统计学家对R的喜爱程度,Python的拥护者们当然不会落后于R,开发了一个个好玩的数据分析工具,下面我们来看看如何使用Python,来读红楼梦,本文是《用Python读红楼梦》系列文章的第一篇,绘制小说中的词云。
2016-07-08 13:22:06
2667
转载 Shell比较两个日期的大小
在Shell中我们可以利用date命令比较两个日期的大小,方法是先把日期转换成时间戳格式,再进行比较。date 的+%s可以将日期转换成时间戳格式,看下面的例子:#!/bin/bash date1="2008-4-09 12:00:00"date2="2008-4-10 15:00:00" t1=`date -d "$date1" +%s`t2=`date
2013-06-07 11:00:44
19280
转载 [Java]读取文件方法大全
1、按字节读取文件内容2、按字符读取文件内容3、按行读取文件内容4、随机读取文件内容 public class ReadFromFile { /** * 以字节为单位读取文件,常用于读二进制文件,如图片、声音、影像等文件。 */ public static void readFileByBytes(String fileN
2013-05-23 09:19:23
695
原创 wget 使用技巧
wget 是一个命令行的下载工具。对于我们这些 Linux 用户来说,几乎每天都在使用它。下面为大家介绍几个有用的 wget 小技巧,可以让你更加高效而灵活的使用 wget。$ wget -r -np -nd http://example.com/packages/这条命令可以下载 http://example.com 网站上 packages 目录中的所有文件。其中,-np 的作
2013-05-13 19:51:39
912
原创 linux压缩和解压缩命令大全
.tar 解包:tar zxvf FileName.tar 打包:tar czvf FileName.tar DirName --------------------------------------------- .gz 解压1:gunzip FileName.gz 解压2:gzip -d FileName.gz 压缩:gzip FileName
2013-05-13 15:59:02
716
原创 shell脚本获取一个固定日期的前n天,后n天,前n个月,后n个月的语法
stat_date_YYYY_MM_DD=$(date +%Y-%m-%d -d "1 days ago")stat_date_week_ago=$(date +%Y-%m-%d -d " ${stat_date_YYYY_MM_DD} 7 days ago")stat_date_month_ago=$(date +%Y-%m-%d -d " ${stat_date_YYYY_MM_DD}
2013-04-19 08:41:23
5036
原创 MySQL中间变量的用法
SET @countries=(SELECT GROUP_CONCAT(DISTINCT countrys) FROM gui_web_region_info);INSERT INTO gui_web_action_info SELECT '2013-04-16', package_name, country, 'gui_i000', using_count FROM gui_web_tota
2013-04-18 11:00:26
1940
原创 通过Mysql语句得到mysql安装路径
通过Mysql语句得到mysql安装路径:select @@basedir as basePath from dual
2013-02-26 13:56:58
1614
转载 如何解决:Android中 Error generating final archive: Debug Certificate expired on 10/09/18 16:30 的错误
问题概述:在导入一个app后提示如下错误:“Error generating final archive: Debug Certificate expired on 10/09/18 16:30” 原因分析:android要求所有的程序必须有签名,否则就不会安装该程序。在我们开发过程中,adt使用debug keystore,在 preference->an
2013-02-23 22:59:08
847
原创 表结构设计之拉链表
一、概念 拉链表是针对数据仓库设计中表存储数据的方式而定义的,顾名思义,所谓拉链,就是记录历史。记录一个事物从开始,一直到当前状态的所有变化的信息。 在历史表中对客户的一生的记录可能就这样几条记录,避免了按每一天记录客户状态造成的海量存储的问题:(NAME)人名 (START-DATE)开始日期 (END-DT)结束日期 (STAT)状态client
2013-02-06 15:50:49
16286
2
原创 MySQL游标循环示例
如果用in语句,感觉很慢,跑了好久都没有结果,用存储过程删除可以把握进度,这个是MySQL游标循环的示例代码,避免以后经常找,记录上来。CREATE DEFINER=`root`@`%` PROCEDURE `bi`.`clean_data`() READS SQL DATABEGIN declare v_imei varchar(128); declare
2012-12-04 16:08:57
1588
原创 k均值聚类(K-means)
1、摘要 在前面的文章中,介绍了三种常见的分类算法。分类作为一种监督学习方法,要求必须事先明确知道各个类别的信息,并且断言所有待分类项都有一个类别与之对应。但是很多时候上述条件得不到满足,尤其是在处理海量数据的时候,如果通过预处理使得数据满足分类算法的要求,则代价非常大,这时候可以考虑使用聚类算法。聚类属于无监督学习,相比于分类,聚类不依赖预定义的类和类标号的训练实例。本文首先介
2012-11-28 14:21:17
5285
原创 Shell脚本循环和运算的Demo
在数据分析的过程中,经常用到shell脚本去获取数据,而循环和运算都是代码常用的工具,记录一下,免得每次都Google一下,加上Google经常被限制访问,实在不习惯用百度,所以在博客里面记录一下。#!/bin/shb=1;s=5000000;bb=${b}for i in $(seq 50)do let bb=b+s*i; echo $
2012-11-26 12:01:16
1771
原创 Hadoop单机安装配置过程
Hadoop单机安装配置过程: 1、首先安装JDK,必须是sun公司的jdk,最好1.6版本以上。最后java–version查看成功与否。注意配置/etc/profile文件,在其后面加上下面几句:exportJAVA_HOME=/usr/local/jdk1.6.0_17exportPATH=$JAVA_HOME/bin:$JAVA_HOME/jre:$PAT
2012-11-24 14:51:44
1425
原创 在Java中使用CRC32
之前在MySQL数据库中,可以使用CRC32直接对字符串进行编码,生成一个long长整形的唯一性ID(虽然科学证明不绝对唯一,但是还是可用的),所以每次都通过数据库调用数据库的crc32函数进行字符串编码。现在发现Java中也有现成的函数可以调用,详细代码如下:CRC32 crc32 = new CRC32();crc32.update("abc".getBytes());System.o
2012-11-22 10:08:44
41551
原创 数据挖掘的标准流程
CRISP-DM (cross-industry standard process for data mining), 即为"跨行业数据挖掘过程标准". 此KDD过程模型于1999年欧盟机构联合起草. 通过近几年的发展,CRISP-DM 模型在各种KDD过程模型中占据领先位置,采用量达到近60%.(数据引自Cios and Kurgan于2005年合著的论文trands in data minin
2012-11-15 11:19:23
16224
1
原创 LINUX下SCP命令
设有两机,均为局域网,两机可相互通信无问题,中间无防火墙。两机IP分别为:A:192.168.1.1 B:192.168.1.2假设A,B机的SSH都允许root登录设要把 A上的 /root/abc.zip 传到 B机并放到/abc目录,可以在A机上用命令:scp /root/abc.zip root@192.168.1.2:/abc/提示输入B机的root密码,输入
2012-11-14 16:16:42
828
原创 Mahout中相似度计算方法介绍
在现实中广泛使用的推荐系统一般都是基于协同过滤算法的,这类算法通常都需要计算用户与用户或者项目与项目之间的相似度,对于数据量以及数据类型不同的数据源,需要不同的相似度计算方法来提高推荐性能,在mahout提供了大量用于计算相似度的组件,这些组件分别实现了不同的相似度计算方法。下图用于实现相似度计算的组件之间的关系:图1、项目相似度计算组件图2、用户相似度计算组件
2012-11-14 10:24:35
1030
原创 MySQL统计函数记录——数值函数
可使用常见的算术操作符。注意就 -、 +和 *而言, 若两个参数均为正数,则其计算结果的精确度为 BIGINT (64比特),若其中一个参数为无符号整数, 而其它参数也是整数, 则结果为无符号整数。请参见12.8节,“Cast函数和操作符”。+加号:mysql> SELECT 3+5; -> 8-减号:mysql> SELECT 3-5;
2012-11-13 10:59:59
7326
原创 MySQL统计函数记录——Join连接详解
MySQL JOIN语法概述SQL(MySQL)JOIN用于根据两个或多个表中的字段之间的关系,从这些表中得到数据。JOIN通常与ON关键字搭配使用,基本语法如下:... FROM table1 INNER|LEFT|RIGHT JOIN table2 ON conditionatable1通常称为左表,table2称为右表。ON关键字用于设定匹配条件,用于限定在结果集合中想要
2012-11-12 12:21:47
4152
原创 MySQL统计函数记录——按条件计数
问题描述为使讨论简单易懂,我将问题稍作简化,去掉诸多的背景。从前有一个皇帝,他有50个妃子,这些妃子很没有天理的给他生了100,000个儿子,于是,皇帝很苦恼,海量的儿子很难管理,而且,他想知道每个妃子给他生了多少个儿子,从而论功行赏,这很难办。于是,皇帝请了一个程序员帮他编了一个程序,用数据库来存储所有的儿子的信息,这样就可以用程序来统计和管理啦。数据库的结构如下:id
2012-11-12 10:32:10
3602
原创 MySQL统计函数记录——GROUP_CONCAT()函数
语法: GROUP_CONCAT([DISTINCT] expr [,expr ...][ORDER BY {unsigned_integer | col_name | expr}[ASC | DESC] [,col_name ...]][SEPARATOR str_val]) 下面演示一下这个函数,先建立一个学生选课表student_courses,并填充一些测试数据。SQL
2012-11-12 10:19:41
5239
原创 MySQL统计函数记录——时间段统计
按年汇总,统计:select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by date_format(col, '%Y');按月汇总,统计: select sum(mymoney) as totalmoney, count(*) as sheets from mytable group by da
2012-11-12 10:10:05
19765
原创 R入门25招
第一招:下载和安装R问题:要把R安装到自己的电脑上。解决方案:Windows和OS X用户可以从CRAN(Comprehensive R Archive Network)上下载R。Linux和Unix用户则可以用各自的包管理工具安装R软件包。Windows在浏览器中打开http://www.r-project.org/。点击“CRAN”。然后会看到按国家排序的镜像站
2012-10-20 17:30:26
8277
原创 Linux环境下安装R
在Ubuntu中,是用apt-get下载和安装R。需要用sudo命令获得必要的权限:代码 $ sudo apt-get install r-base在Red Hat和Fedora则是用yum:代码 $ sudo yum install R.i386Windows系统还提供了更加方便的图形化包管理器。除了基础包,
2012-10-17 21:35:32
4754
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人