
数据挖掘
erinapple
这个作者很懒,什么都没留下…
展开
-
数据可视化——散点图,折线图
散点图import matplotlib;from pandas import read_csv;import matplotlib.pyplot as plt;data = read_csv('F://baiduNetdisk//pytorch//5//5.1//data.csv')font = { 'family' : 'SimHei'}matplotlib.rc('f...原创 2018-02-18 20:34:10 · 2019 阅读 · 0 评论 -
柱状图
bar(left, height, width, color)barh(bottom, width, height, color)barh是将图像横着画left:x轴的位置序列,一般采用arrange函数产生一个序列height:y轴的数值序列,也就是柱形图的高度,一般就是我们需要展示的数据width:柱形图的宽度color:颜色# -*- coding: utf-8 -*-import num...原创 2018-02-19 15:41:48 · 322 阅读 · 0 评论 -
FM, deepFM综述
https://tracholar.github.io/machine-learning/2017/03/10/factorization-machine.html原创 2018-03-14 21:10:40 · 319 阅读 · 0 评论 -
画图
# -*- coding: utf-8 -*-import numpy;import matplotlib;from pandas import read_csv;from matplotlib import pyplot as plt;font = { 'family' : 'SimHei'};matplotlib.rc('font', **font);data = ...原创 2018-02-20 15:59:46 · 269 阅读 · 0 评论 -
柱形图
# -*- coding: utf-8 -*-import numpy;import matplotlib;from pandas import read_csv;from matplotlib import pyplot as plt;font = { 'family' : 'SimHei'};matplotlib.rc('font', **font);data = ...原创 2018-02-20 16:01:47 · 226 阅读 · 0 评论 -
查找,替换,以及合并拼接字符串
#查找某个字符串string = "I am KEN"string.find("am")string.find("boy")#忽略大小写的搜索import retext = 'UPPER PYTHON, lower python, Mixed Python're.findall('python', text, flags=re.IGNORECASE)#搜索和替换text = ...原创 2018-02-20 16:21:53 · 406 阅读 · 0 评论 -
数据规整化:合并、清理、过滤
合并数据集:.merge()、.concat()等方法,类似于SQL或其他关系型数据库的连接操作。concathttps://blog.youkuaiyun.com/ly_ysys629/article/details/73849543原创 2018-03-28 16:40:57 · 357 阅读 · 0 评论 -
短文本分类总结
一:分词1、常用中文分词工具:jieba、SnowNLP(MIT)、pynlpir、thulac, 其中jieba比较常用2、去除停用词这个主要需要导入并构建停用词表,然后删除分词结果中停用词表中的词。简单说就是删除一些语气词了,这些词语并不能有效的代表句子的特征。3、特征提取中文分词和去除停用词后,需要对分词结果进行文本特征提取,常用的传统方法有:TFIDF,信息增益法,词频法,X^2统计法,互...原创 2018-06-01 15:17:04 · 5308 阅读 · 0 评论 -
Hive 导入的中文数据出现乱码问题
1, hive支持的utf8,所以需要将文件的格式转换为对应的utf8。2,Hive中文乱码问题的解决办法,网上有很多帖子,然而很多都是基于Linux终端显示字符的修改,其实上对于一些条件下的HIVE中文乱码问题是无法解决的,如从CSV文件导入到HIVE中出现的中文乱码问题。 大家都知道,HIVE原生的字符编码是采用UTF-8方式的,这是支持中文的。然而在从Oracle导出CSV文件...翻译 2018-07-25 18:20:21 · 20366 阅读 · 1 评论 -
hive jiqiao
1.在Hive中可以使用正则表达式set hive.support.quoted.identifiers=None; select a.pin, `(pin)?+.+` from Table122.输出表数据时,显示列名set hive.cli.print.header=true;3.排序优化order by全局排序,一个reduce实现,不能并行故效率偏低;sort by部分...转载 2018-11-05 11:04:15 · 453 阅读 · 0 评论 -
日期转换
日期转换是指将字符型的日期格式的数据,转换成日期型数据的过程日期转换函数:data = to_datatime(dataString, format);from pandas import read_csv;from pandas import to_datetime;df = read_csv('F://baiduNetdisk//pytorch//4//4.16//data.csv', ...原创 2018-02-18 20:03:16 · 324 阅读 · 1 评论 -
python 数据分组
cut(series, bins, right = True, labels = NULL)Series:需要分组的数据bin:分组的划分数组right:分组的时候,右边是否闭合labels:分组的自定义标签,可以不定义import pandas;from pandas import read_csv;df = read_csv('F://baiduNetdisk//pytorch//4//...原创 2018-02-18 19:49:48 · 2954 阅读 · 0 评论 -
文本文件的导入
from pandas import read_table;df = read_table('F://baiduNetdisk//pytorch//4//4.1//2.txt')dfdf = read_table('F://baiduNetdisk//pytorch//4//4.1//2.txt', names = ['age','name'],sep=',') 使用函数read_ta...原创 2018-02-17 16:10:24 · 301 阅读 · 0 评论 -
导入excel 文件
使用read_excel 函数导入excel 文件read_excel函数的用法read_excel(filename, sheetname, header)filename文件路径sheetname sheet名字names列名,默认文件第一行为列名原创 2018-02-17 16:20:54 · 185 阅读 · 0 评论 -
python 数据导出
导出文本文件to_csv函数的语法to_csv(filepath, sep = ',',index=TRUE, header = TURE )filepath导出的文件路径sep分隔符,默认为逗号(",‘’)index是否导出行序号header是否导出列名from pandas import DataFrame;df = DataFrame({ 'age': [21, 22, 23],...原创 2018-02-17 16:28:51 · 3204 阅读 · 0 评论 -
python 去除重复行
from pandas import read_csv;df = read_csv('D://PA//4.3//data.csv')newDF = df.drop_duplicates();原创 2018-02-17 18:35:41 · 20211 阅读 · 0 评论 -
缺失值处理,空格值处理
dropna():去除数据结构中值为空的数据strip():去除字符型数据左右的空格# -*- coding: utf-8 -*-"""Created on Sat Feb 17 11:52:49 2018@author: erin"""#http://www.tbk.ren/article/19.htmlfrom pandas import read_csv;df = read...原创 2018-02-17 18:51:49 · 483 阅读 · 0 评论 -
字段抽取——python
from pandas import read_csv;df = read_csv('F://baiduNetdisk//pytorch//4//4.6//data.csv');df['tel'] = df['tel'].astype(str); #astype函数用于array中数值类型转换#运营商bands = df['tel'].str.slice(0, 3); ...原创 2018-02-17 19:22:46 · 631 阅读 · 0 评论 -
python 字段拆分
按照固定的字符,拆分已有的字符串split(sep, n, expand = False):sep:用于分割的字符串n:分割为多少列expand:是否展开为数据框,默认值为False(expand为True,返回DataFrame.False,Series)from pandas import read_csv;df = read_csv('F://baiduNetdisk//pytorch/...原创 2018-02-17 19:53:03 · 4490 阅读 · 1 评论 -
python 获取需要的部分
import pandas;from pandas import read_csv;df = read_csv('F://baiduNetdisk//pytorch//4//4.8//data.csv', sep="|");df[df.comments>10000];df[df.comments.between(1000, 10000)]df[pandas.isnull(df...原创 2018-02-17 22:08:06 · 215 阅读 · 0 评论 -
数据合并
记录合并函数(返回dataFrame):concat([dataFrame1,dataFrame2])import pandas;from pandas import read_csv;df1 = read_csv("D://PA//4.10//data1.csv", sep="|");df2 = read_csv("D://PA//4.10//data2.csv", sep="|");...原创 2018-02-17 22:32:26 · 207 阅读 · 0 评论 -
字段合并
+ (连接的是字符型数据,如果不是,转换成字符型from pandas import read_csv;df = read_csv( 'F://baiduNetdisk//pytorch//4//4.11//data.csv', sep=' ', names=['area', 'b', 'c']);df = df.astype(str)t...原创 2018-02-17 22:54:00 · 264 阅读 · 0 评论 -
hive 中引号问题
写一段hql语句,其中一列引用shell脚本中的变量current_date=`date +%Y-%m-%d` #获得当前日期,如2015-03-18开始用双引号。select '"'$current_date'"'...返回结果对应列返回奇怪的数字,如1994。后改用单引号,select '$current_date'...正常返回2015-03-18...原创 2018-11-05 15:10:24 · 9312 阅读 · 0 评论