
Python数据分析
波西塔塔Y
算法和数据结构就是编程的一个重要部分,你若失掉了算法和数据结构,你就把一切都失掉了。
展开
-
使用WordCloud生成词云
最近在学习Python,看过基础教程后,总想练手,正好老师的博客在叫同学们用Python做数据分析,在阅读了一些算法之后,也想通过自己的能力,实现经典算法,所以这里就作为自己学习Python以及数据分析的记录。安装好anaconda之后,就可以开始啦! 使用WordCloud生成词云[^参考文章] [^参考文章]:https://www.jianshu.com/p/e4b24a734ccc...原创 2018-02-24 13:50:26 · 1364 阅读 · 0 评论 -
pandas过滤
dataframe过滤其中一列的值,如果这列值包含一些特殊值,则把他们过滤出来 bool = df.str.contains('Mr\.') #这里可以写正则表达式filter_data = df[bool]#举例bool=sale['VISITRESULT'].str.contains('已合作|已签单|签单成功|签合同|成交|已签合同|签了合同|签合同')suc_sale=sal...原创 2019-06-05 14:13:27 · 388 阅读 · 0 评论 -
sklearn学习笔记,各类算法实现,原理介绍
'''+++++++++++++++++++++++++++++++++++++数据处理部分,缺失值处理+数据归一化/标准化,数据列id标为名称+++++++++++++++++++++++++++++++++++++'''import pandas as pdimport numpy as npcolumn_name = ['Sample code number','Clump T...原创 2018-04-13 17:21:42 · 1491 阅读 · 0 评论 -
循环遍历将数据变为float
data=[]label=[]with open('data/body.txt') as f2: for line in f2: lines=line.strip().split(' ') data.append([float(tk) for tk in lines[:-1]]) #float(tk) for tk in 循环遍历将数据班委float...原创 2018-04-19 11:18:50 · 957 阅读 · 0 评论 -
pandas学习笔记
from pandas import Series,DataFrameimport pandas as pd'''series 是类似一维数组的对象数组和索引组成可以看成是一个定长的有序字典索引不会变,进行计算时会匹配索引'''obj=Series([4,7,-5,3])obj 0 4 1 7 2 -5 3 3 ...原创 2018-04-18 16:01:27 · 411 阅读 · 0 评论 -
numpy学习笔记
'''#numpy的快速入门'''import numpy as npdata1= [6,7.3,8,0,1]arr1 = np.array(data1)data2 =[[1,2,3,4],[5,6,7,8]]arr2 = np.array(data2)arr3 = np.zeros_like(data2)arr4 = np.ones_like(data2)prin...原创 2018-04-18 09:35:35 · 201 阅读 · 0 评论 -
KNN算法学习笔记
#-*-coding:utf-8-*-from numpy import *import operatordef createDataSet(): group = array([[1.0,1.1],[1.0,1.0],[0,0],[0,0.1]]) labels = ['A','A','B','B'] return group ,labels#KNN分类器de...原创 2018-04-11 20:06:00 · 251 阅读 · 0 评论 -
GB
'''++++++++++++++随机森林, 上世纪八十年代Breiman等人发明分类树的算法(Breiman et al. 1984),通过反复二分数据进行分类或回归,计算量大大降低。2001年Breiman把分类树组合成随机森林(Breiman 2001a),即在变量(列)的使用和数据(行)的使用上进行随机化,生成很多分类树,再汇总分类树的结果。随机森林在运算量没有显著提高的...原创 2018-04-16 22:21:41 · 537 阅读 · 0 评论 -
ALS
from pyspark import SparkContext import pyspark.mllib.recommendation as rd#导入Spark上下文 sc = SparkContext("local","movie1") #初始化Spark上下文,指定master为local,即本地运行,应用名称为movielens rawData = sc.textFil...转载 2018-03-13 10:03:25 · 293 阅读 · 0 评论 -
python制作不同形状的中文词云
"""Masked wordcloud================Using a mask you can generate wordclouds in arbitrary shapes."""from PIL import Imageimport numpy as npimport matplotlib.pyplot as pltfrom wordcloud import...原创 2018-02-25 22:57:33 · 3291 阅读 · 9 评论 -
python中文词云制作
python中文分词,加了jieba分词的包,还有词云输出的字体,我从博客上复制了一段带有评论信息的数据。衔接上一篇英文词云。 文章参考王叔义老师的教程。from wordcloud import WordCloudimport jiebaimport matplotlib.pyplot as pltf=file('fzw.txt')mytext=f.read()print(...原创 2018-02-25 11:17:28 · 771 阅读 · 0 评论 -
用python实现成绩录入
f=file('score.txt')lines=f.readlines()print(lines)f.close()result=[]results=[] #定义空列表for line in lines: data=line.split() sum=0 for score in data[1:]: sum=sum+int(score) ...原创 2018-02-25 10:20:07 · 11680 阅读 · 2 评论 -
中文词云制作
分析销售反馈记录文本涉及到文本分析的一些步骤,反倒之前的博客,发现当时自己是真的不写注释,只敲代码,现在自己都看不懂写的啥,于是踩过的坑又要踩一遍首先是加载这几个包from wordcloud import WordCloudimport jiebaimport matplotlib.pyplot as plt将你想要分析的文本写进txt中,StopWords停用词库,我这边做文本过...原创 2019-06-01 18:49:51 · 3392 阅读 · 0 评论