
Python/爬虫/可视化/数分
Python/爬虫/数据分析
苏格拉没底——
一沙一世界
展开
-
matplotlib设置文本注解text_应用ggplot样式_汉字编码
data = [23, 85, 72, 43, 52]labels = list('abcde')plt.style.use('ggplot')plt.rcParams['font.sans-serif'] = ['simhei'] #指定默认字体plt.rcParams['axes.unicode_minus'] = False #解决保存图像是负号'-'显示为方块的问题plt.bar(range(len(data)),data)plt.xticks(range(len(data.原创 2021-02-09 16:49:38 · 193 阅读 · 0 评论 -
Graph——微博转发关系图
数据获取路径:https://github.com/pyecharts/pyecharts-gallery/blob/master/Graph/weibo.jsonimport jsonfrom pyecharts import options as optsfrom pyecharts.charts import Graphwith open("weibo.json", "r", encoding="utf-8") as f: j = json.load(f) nodes.原创 2020-11-16 22:16:33 · 2065 阅读 · 2 评论 -
Matplotlib简单练习(需要改正 Bug)
存在问题:没有设置figure,图形很挤,很乱,x轴其实可以挑着显示几个,全部显示就会装不下。1.简单实现from matplotlib import pyplot as pltx=range(3)y=[4,5,6]plt.plot(x,y)plt.show()2.用with open() as f: 读取并且提取出需要的数据然后画图import csvfilename = 'data/crimeRatesByState2005.csv'flag=0d..原创 2020-12-14 10:45:56 · 294 阅读 · 1 评论 -
Pie——饼图比例显示
from pyecharts.charts import Pieimport pandas as pdfrom pyecharts import options as opts# pd.read_csv() 将csv文件 以 二维的形式读入 且 第一行 默认 不算入vote = pd.read_csv("vote_result.csv")print(vote) # 二维形式输出print(vote.values)print(vote.values.tolist());c = (.原创 2020-11-14 18:09:23 · 877 阅读 · 0 评论 -
2018年北京AQI全年走势图
# 引入相关的库from pyecharts.charts import Lineimport pyecharts.options as optsimport pandas as pdfrom pyecharts.globals import ThemeType# 导入数据df = pd.read_csv('data/beijing_AQI_2018.csv')attr = df['Date'].tolist()v1 = df['AQI'].tolist()# 函数具体实现内容( .原创 2020-12-15 22:12:42 · 1226 阅读 · 0 评论 -
Tree——树图
from pyecharts import options as optsfrom pyecharts.charts import Treedata = [ { "children": [ {"name": "日本"}, { "children": [{"children": [{"name": "I"}], "name": "北京"}, {"name": "上海"}], .原创 2020-11-14 20:00:12 · 435 阅读 · 0 评论 -
ThemeRiver——主体河流图
主题(事件)随事件变化情况退化版:import pyecharts.options as optsfrom pyecharts.charts import ThemeRiverx_data = ["Chinese", "Math", "English", "Chemistry", "PE", "Art"]y_data = [ ["2015/11/08", 10, "Chinese"], ["2015/11/09", 10, "Chinese"], ["2015/11原创 2020-11-16 22:07:47 · 2646 阅读 · 2 评论 -
matplotlib速查表
速查表原创 2021-02-10 17:15:13 · 136 阅读 · 0 评论 -
折线图——Line
连续型时间数据可视化pyechars 1.X#引入作图所需要的包from pyecharts.charts import Lineimport pyecharts.options as opts#输入阶梯数据data_x = ['1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009']data_y = [0..原创 2020-11-10 11:07:28 · 329 阅读 · 0 评论 -
ggplot散点图
import ggplot as gpimport pandas as pdimport numpy as npcrime = pd.read_csv("crimeRatesByState2005.csv")print(gp.ggplot(gp.aes(x='murder',y='burglary'),data=crime)+gp.geom_point( ) )# 去掉离群点后crime2 = crime[ crime.state!="United States" ]crime2 ..原创 2020-11-14 21:09:58 · 451 阅读 · 0 评论 -
星巴克分布城市Top10柱状图
plt.style.use('ggplot')plt.rcParams['font.sans-serif'] = ['simhei']plt.rcParams['axes.unicode_minus'] = Falseplt.figure(figsize=(20,10))plt.bar(city_count.index,city_count.values)plt.xlabel('City')plt.ylabel('Count')plt.title('星巴克分布城市Top10柱状图')p.原创 2021-02-10 15:32:30 · 623 阅读 · 0 评论 -
Pyecharts__1.x 版本 __Bar 简单实现
整体from pyecharts.charts import Bar #从 pyecharts 的 charts 库中导入 条形图from pyecharts import options as optsbar = ( Bar() # 实例化一个 Bar 类 的对象 并 设置其基本配置 #配置类型有 x轴,y轴,系列参数(如label标签),全局参数(如标题,xy轴的配置,图例) .add_xaxis() .add_yaxis() .set_seri.原创 2020-12-13 15:29:27 · 306 阅读 · 0 评论 -
可视化数据获取
1.数据的获取 http://datasets.flowingdata.com/对应的文件名字 http://datasets.flowingdata.com/hot-dog-contest-winners.csv2.gallary.pyecharts.org pyechart 库原创 2020-11-10 12:20:23 · 541 阅读 · 0 评论 -
csv文件 只取需要的列
import pandas as pdimport csvfilename = "hot-dog-contest-winners.csv"msg = pd.read_csv(filename)# print(msg.values)# print(msg)datax = []datay = []with open(filename) as f: reader = csv.reader(f) for datarow in reader: if re...原创 2020-11-14 18:24:16 · 676 阅读 · 0 评论 -
plt
plot(x, y) # plot x and y using default line style and color plot(x, y, 'bo') # plot x and y using blue circle markers plot(y) # plot y using x as index array 0..N-1 plot(y, 'r+') # ditto, but with red plusses ...原创 2020-12-26 17:59:20 · 137 阅读 · 1 评论 -
Pie——环形图
from pyecharts.charts import Pieimport pandas as pdfrom pyecharts import options as opts# pd.read_csv() 将csv文件 以 二维的形式读入 且 第一行 默认 不算入vote = pd.read_csv("vote_result.csv")print(vote) # 二维形式输出print(vote.values)print(vote.values.tolist());c = (.原创 2020-11-14 18:36:59 · 381 阅读 · 0 评论 -
堆叠柱形图——Bar stack
离散型时间数据可视化若数据存在子分类,且子分类相加有意义的话,可以使用它from pyecharts.charts import Barfrom pyecharts import options as optsimport csv# 读入文件 并且 从文件中 读取数据filename = "hot-dog-places.csv"datax = []datay = []with open(filename) as f: reader = csv.reader(f) .原创 2020-11-10 12:02:18 · 2875 阅读 · 1 评论 -
Pie——饼图
import pandas as pdtmp = pd.read_csv(**.csv)print(tmp) 二维print(tmp.values) 列表套列表行 为 单位print(tmp.values.tolist())列表套列表 一行from pyecharts.charts import Pieimport pandas as pdfrom pyecharts import options as opts# pd.read_csv() 将csv文件 以 ...原创 2020-11-14 18:07:54 · 283 阅读 · 0 评论 -
柱形图——Bar
from pyecharts.charts import Barfrom pyecharts import options as optsimport csv#离散型时间数据可视化filename = "hot-dog-contest-winners.csv"datax = []datay = []with open(filename) as f: reader = csv.reader(f) for datarow in reader: .原创 2020-11-10 12:31:00 · 392 阅读 · 0 评论 -
plt.subplot()简单使用
plt.style.use('ggplot')plt.figure(figsize=(20,10))plt.axis('off')plt.subplot(2,2,1)plt.subplot(2,2,4)#plt.subplot(221)#plt.subplot(224)plt.style.use('ggplot')plt.figure(figsize=(20,10))plt.axis('off')for idx in range(4): plt.subplot(..原创 2021-02-10 21:32:38 · 1614 阅读 · 0 评论 -
堆叠图
堆叠图的实现基础是 Bar 只是多了几个 add_yaxis()需要堆叠的时候需要加参数 stack=' ' 字符串名字相同就会堆叠到一块bar = ( Bar() .add_xaxis([1,2,3,4]) .add_yaxis('A',[5,6,7,8],stack="stack1") .add_yaxis('B',[9,10,11,12],stack="stack1") .add_yaxis('C',[13,14,15,16],stack="...原创 2020-12-13 15:44:57 · 2558 阅读 · 3 评论 -
WordCloud——词云
文本数据可视化import pyecharts.options as optsfrom pyecharts.charts import WordCloud data = [ ("数学", "48896"), ("英语", "81374"), ("物理", "81374"), ("化学", "76495"), ("生物", "76495"),]( WordCloud() .add(series_name="热点分析", dat.原创 2020-11-16 21:50:33 · 574 阅读 · 1 评论 -
散点矩阵
import pandas as pdimport matplotlib.pyplot as pltimport seaborn as snscrime = pd.read_csv("crimeRatesByState2005.csv")crime2 = crime[crime.state != "United States"]crime2 = crime2[crime2.state != "District of Columbia"]crime2 = crime2.drop(['state'.原创 2020-11-14 21:30:00 · 499 阅读 · 0 评论 -
1980~2010年美国热狗大胃王比赛成绩柱形图__两种简单实现方式
1.首先读取文件,观察数据发现只需要第一列和第三列filename = 'data/hot-dog-contest-winners.csv'df = pd.read_csv(filename)df.head()2.提取所需要的数据 并 用 pyecharts 作图pd.read_csv() 实现import pandas as pdfrom pyecharts.charts import Barimport pyecharts.options as optsfilena原创 2020-12-14 12:23:06 · 3737 阅读 · 1 评论 -
阶梯图——Step
连续型时间数据可视化pyecharts 1.X 版本#引入作图所需要的包from pyecharts.charts import Lineimport pyecharts.options as opts#输入阶梯数据data_x = ['1995', '1996', '1997', '1998', '1999', '2000', '2001', '2002', '2003', '2004', '2005', '2006', '2007', '2008', '2009']data_y =.原创 2020-11-10 11:02:59 · 850 阅读 · 0 评论 -
Bubble——气泡图
import matplotlib.pyplot as pltimport pandas as pdimport numpy as npcrime = pd.read_csv("crimeRatesByState2005.csv")print(list(crime.murder))crime2 = crime[ crime.state != "United States"]crime2 = crime2[ crime.state != "District of Columbia"]p.原创 2020-11-14 22:04:50 · 447 阅读 · 0 评论 -
Spider__1__get/post
httpbin.org整体思路:# -*- codeing = utf-8 -*-# @Time : 11/30/2020 07:47 PM# @Author : Gyp# @File : spiderfrom bs4 import BeautifulSoupimport reimport urllib.request,urllib.errorimport sqlite3import xlwtdef main(): # 1 爬取网页 # 2 解析数据..原创 2020-12-02 20:59:22 · 144 阅读 · 1 评论 -
Spider__2__BeautifulSoup(2)__select()
# css 选择器# t_list = bs.select('title')# t_list = bs.select('a') # Tag# t_list = bs.select('.mnav') # class# t_list = bs.select("#u1") # id# t_list = bs.select("a[class='cur-img']") #根据 a标签 的class 属性的取值来找对应的标签# t_list = bs.select("head>meta.原创 2020-12-03 19:32:59 · 191 阅读 · 0 评论 -
re 简单模拟获取豆瓣的一条电影信息的记录
豆瓣 li 里面 每一个 div class='item' 的项# -*- codeing = utf-8 -*-# @Time : 12/05/2020 07:58 PM# @Author : Gyp# @File : retestimport re# 获取 详情链接findLink = re.compile(r'<a href="(.*?)">')# 获取 图片findImgsrc = re.compile(r'<img.*src="(.*?)".*/>'原创 2020-12-05 20:51:58 · 543 阅读 · 2 评论 -
Spider__2__BeautifulSoup(1)
BeautifulSoup 将 读取到的 html 进行解析,在内存中以树的形式存储,便于操作常用的操作有t_list = bs.find_all("a") 找到所有的a标签并返回成列表形式bs.title 返回一个标签以及其内部的所有东西bs.title.string 返回一个标签的内容bs.title.attrs 返回一个标签的属性bs.head.contents 将head里面的内容以 列表形式 返回# ...原创 2020-12-02 21:07:04 · 179 阅读 · 0 评论 -
Spider__2__BeautifulSoup(2)__find_all
import re# bs4 BeautifulSoup 可以解析 xml文件,jason文件,html文件from bs4 import BeautifulSoup#打开文件 并 放入内存file = open("./baidu.html","rb")html = file.read().decode("utf-8")# 以 字节形式 打开并读取了 html 则 html的类型是 bytes 字节形式# print("html: ",type(html))# 在内存中 建立了 .原创 2020-12-03 18:52:08 · 191 阅读 · 0 评论 -
re 正则表达式
python 中 常用的 调用 正则表达式 来 进行 字符串的 模式匹配的方法:re 库 ( search 只找 第一次 出现的 找到即返回 findall 找所有并且将结果 以列表的形式返回)re.findall(pattern,string) re.search(pattern,string) re.sub(pattern,to,string) pat =re.compile(pattern) pat.search(string...原创 2020-12-03 20:49:22 · 3462 阅读 · 0 评论 -
Spider__整体架构__
# -*- codeing = utf-8 -*-# @Time : 11/30/2020 07:47 PM# @Author : Gyp# @File : spiderfrom bs4 import BeautifulSoupimport reimport urllib.request,urllib.errorimport sqlite3import xlwtdef main(): # 1 爬取网页 # 2 解析数据 # 3 保存数据 爬取网页 解析数.原创 2020-12-03 20:54:26 · 372 阅读 · 3 评论 -
Spider__askUrl__访问一个页面
获取一个指定网页内的所有内容# -*- codeing = utf-8 -*-# @Time : 11/24/2020 12:11 PM# @Author : Gyp# @File : testfrom bs4 import BeautifulSoupimport urllib.request,urllib.errorimport xlwtimport sqlite3# -----------------------------------------------------..原创 2020-12-03 20:55:12 · 1526 阅读 · 0 评论 -
python基础
源自:百度 AI Studio 课程目录 Python数据结构 Python面向对象 Python JSON Python 异常处理 常见Linux命令 Python数据结构数字、字符串、列表、元祖、字典数字Python Number 数据类型用于存储数值。Python Number 数据类型用于存储数值,包括整型、长整型、浮点型、复数。(1)Python math 模块:Python 中数学运算常用的函数基本都在 math 模块翻译 2021-03-25 10:44:54 · 290 阅读 · 0 评论 -
pandas读取json数据的两种方法
1.import pandas as pdimport numpy as npfrom pandas import DataFrame,Seriesimport jsonwith open(r'C:\Users\92448\Desktop\jupyter\material\源码、数据、表格\数据\eueo2012.json') as f: obj = f.read() result = json.loads(obj) df = DataFrame(result).原创 2021-01-24 22:38:22 · 1943 阅读 · 0 评论 -
python连接mysql数据库
1.连接import pymysql#创建一个连接对象conn = pymysql.connect( host = 'localhost', user = 'root', passwd = '123456', db = 'mydb', )2.建表# 创建光标对象 通过光标对象进行操作cursor = conn.cursor()create = """ CREATE TABLE ch4ex9 ( .原创 2021-01-24 22:33:38 · 216 阅读 · 0 评论