Data Analysis
Up_梅子酒
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
jupyter lab环境配置
【代码】jupyter lab环境配置。原创 2023-08-05 09:54:02 · 1606 阅读 · 0 评论 -
pip日常环境配置
pip 虚拟环境、代理、conda虚拟环境原创 2023-07-31 23:35:59 · 609 阅读 · 0 评论 -
SQL连接方式
原创 2022-03-01 00:42:50 · 183 阅读 · 0 评论 -
合适的图片选择
https://www.perceptualedge.com/blog/?p=2080转载 2021-06-17 12:50:12 · 208 阅读 · 0 评论 -
按MonthorWeek排序数据框架
!pip install sort-dataframeby-monthorweek!pip install sorted-months-weekdayshttps://www.cnpython.com/pypi/sort-dataframeby-monthorweek按MonthorWeek排序数据框架原创 2021-06-13 22:10:52 · 183 阅读 · 0 评论 -
chardet字符编码检测
原创 2021-06-04 15:35:24 · 168 阅读 · 0 评论 -
pandas 中get_dummies() 与factorize()的区别
pandas 中get_dummies() 与factorize()的区别当一个特征中存在较多的类别时,使用get_dummies() 会导致DataFrame中的columns 列数激增factorize() 可以对特征中的类别创建一些数字,来表示分类变量或者枚举型变量(enumerated type)。具体来说:factorize() 只产生一个特征变量,这个特征中对类别使用数字进行区分。适用于出现较多独立变量的情况参考e.p....原创 2021-03-31 23:25:32 · 266 阅读 · 0 评论 -
Airbnb data analysis
import numpy as npimport pandas as pdimport matplotlib.pyplot as pltimport matplotlib.image as mpimg%matplotlib inlineimport seaborn as snsfrom pprint import pprintRead Dataairbnb = pd.read_csv('./new-york-city-airbnb-open-data/AB_NYC_2019.csv')原创 2021-03-30 22:58:37 · 564 阅读 · 0 评论 -
conda 无法更新/ 创建新环境 报错
解决方法:conda clean -i原创 2021-03-19 23:32:51 · 664 阅读 · 0 评论 -
【相关性检验】
两个变量之间的相关性检验1、皮尔森相关系数:它们之间的协方差cov(X,Y)除以它们各自标准差的乘积(σX, σY)。要判断两个变量之间是否存在相关性:可以采用画散点图的方式,进行直观性的分析。使用python进行person检验import pandas as pdimport numpy as npimport missingnodf = pd.read_csv('./titanic/train.csv')df.head() P原创 2021-03-16 22:17:06 · 2514 阅读 · 0 评论 -
用Python进行全面的数据探索
用Python进行全面的数据探索import pandas as pdimport numpy as npfrom matplotlib import pyplot as pltfrom scipy.stats import normfrom sklearn.preprocessing import StandardScalerfrom scipy import statsimport missingno as mnoimport seaborn as snsimport warnings原创 2021-03-08 22:46:24 · 983 阅读 · 0 评论 -
conda 导出安装包列表
conda 导出安装包列表conda list -e > condalist.txt导入conda install --yes --file condalist.txt原创 2021-03-06 16:27:44 · 5729 阅读 · 0 评论 -
MAC地址匹配
用于计算MAC地址匹配数量import pandas as pdimport numpy as npimport reimport ospath = 'D:\Personal\Downloads'df1 = pd.read_csv(os.path.join(path,'1.csv'),skiprows = 7 ,encoding='gbk')df2 = pd.read_csv(os.path.join(path,'2.csv'),header = None)df2.rename(colu原创 2021-03-04 14:43:37 · 627 阅读 · 1 评论 -
偏度和峰度
偏度和峰度偏度(skewness)数据分布的的不对称性称为偏态。偏态是指数据分布的偏斜方向和程度。偏度,通常分为右偏(正偏)和左偏(负偏)两种。它们是以对称分布为标准相比较而言的。在对称分布的情况下,平均数、中位数和众数是合而为一的。在偏态分布的情况下,平均数、中位数与众数是分离的。如果众数在左边,平均数在右边,即数据的极端值在右边,数据分布曲线向右延伸,则称为右向偏态。右向偏态,众数的数值较小,平均数的数值较大,平均数与众数之差为正值,因此右向偏态又称为正向偏态。如果众数在右边,平均数在左边,原创 2021-03-03 20:29:52 · 13073 阅读 · 1 评论 -
missingno库--用于数据分析中处理缺失数据可视化
missingnmissingn --github# 安装pip install missingno快速开始pip install quiltquilt install ResidentMario/missingno_data学习地址:https://www.cnblogs.com/yongestcat/p/11458057.html原创 2021-03-02 23:50:48 · 419 阅读 · 0 评论 -
共享单车--数据分析
共享单车EDA与模型选择import pandas as pd import numpy as npfrom matplotlib import pyplot as pltimport seaborn as snsfrom datetime import datetimeimport osimport warningswarnings.filterwarnings(action = 'ignore')Kaggle-competition-bike-sharing-demandEDA原创 2021-03-01 23:03:59 · 2263 阅读 · 0 评论 -
Git clone 使用代理
由于国内使用git clone 下载速度太慢,考虑使用代理取消代理git config --global --unset http.proxy git config --global --unset https.proxy根据代理开的端口设置,我的为10808设置代理git config --global http.proxy socks5://127.0.0.1:10808git config --global https.proxy socks5://127.0.0.1:10808gi原创 2021-02-28 14:57:22 · 954 阅读 · 0 评论 -
正则表达式常用工具
记录在正则表达式中运用到的网站正则表达式简介 正则表达式在线测试提供在线测试,及一些常用的正则表达式语法样例。原创 2021-02-01 14:33:21 · 480 阅读 · 0 评论 -
jupyter notebook 输出中文PDF的简便方法哦
一个简单的 Jupyter notebook 输出中文PDF文件的方法直接浏览器虚拟打印 ,其实看着还是不错的!原创 2018-12-04 10:31:07 · 2158 阅读 · 0 评论 -
用API爬取天气预报数据
import requestsimport numpyimport reimport time# 加载pymongoimport pymongoclient = pymongo.MongoClient('localhost',27017)book_weather = client['weather']sheet_weather = book_weather['sheet_weat...原创 2019-05-27 11:13:07 · 1100 阅读 · 0 评论 -
Altair的使用学习
Altair的使用学习# !pip install vega# !pip install vega_datasetsimport altair as altalt.renderers.enable('notebook')RendererRegistry.enable('notebook')# load a simple dataset as a pandas DataFrame...原创 2019-08-27 13:57:02 · 2199 阅读 · 1 评论 -
数据挖掘学习-Apriori算法
# data from http://grouplens.org/datasets/movielens/# import os# data_folder = os.path.join(os.path.expanduser("~"), "Data", "ml-100k")# ratings_filename = os.path.join(data_folder, "u.data")fro...原创 2019-08-30 14:11:32 · 958 阅读 · 0 评论 -
data cleansing and normalizing
Data CleansingCleaning Rows with NaNsimport pandas as pddf = pd.read_csv('NaNDataset.csv')df.isnull().sum()A 0B 2C 0dtype: int64print(df) A B C0 1 2.0 31 4 ...原创 2019-09-02 20:39:18 · 283 阅读 · 0 评论 -
解决----/boot/grub2/grub.cfg 找不到,请检查 --- 问题
#/boot/grub/grub.conf 缺失: yum install -y grubgrub-mkconfig -o /boot/grub/grub.conf #/boot/grub2/grub.cfg 缺失: yum install -y grub2grub2-mkconfig -o /boot/grub2/grub.cfg原创 2020-07-23 23:35:55 · 14618 阅读 · 1 评论 -
【kaggle】快速阅读数据集的一种方法
IntroductionThis is a quick way to look at the different Datasets…import numpy as np # linear algebraimport pandas as pd # data processing, CSV file I/O (e.g. pd.read_csv)# First, look at everything.from subprocess import check_output # 接受上一条命原创 2020-07-25 00:55:52 · 450 阅读 · 0 评论 -
安装EasyOCR
需要安装的包 : torch ,torchvision,easyocrtorch,torchvision 对应版本表python 包下载地址推荐torchvision包下载地址pip install torchvision-0.8.2+cpu-cp38-cp38-win_amd64.whlpip install torch-1.7.1-cp38-cp38-win_amd64.whlpip install easyocr-1.2.1-py3-none-any.whl...原创 2021-01-15 09:37:13 · 2056 阅读 · 1 评论 -
pandas学习
pd.to_datetimec_itcont['TRANSACTION_DT'].head()0 72420201 72420202 73120203 81020204 8072020Name: TRANSACTION_DT, dtype: int64c_itcont['TRANSACTION_DT'] = c_itcont['TRANSACTION_DT'].astype('str')c_itcont['TRANSACTION_DT'] = pd.to_原创 2021-01-11 23:35:19 · 111 阅读 · 0 评论 -
2020-11-30
Tipsfrom tabulate import tabulate原创 2020-11-30 23:10:16 · 416 阅读 · 0 评论 -
Python Data Science Handbook study
01.05 shell commandreferencesosx:~ $ echo "hello world" # echo is like Python's print functionhello worldosx:~ $ pwd # pwd = print working directory/home/jake # this is the "path" tha原创 2020-11-24 21:30:36 · 194 阅读 · 0 评论 -
pandas--loc vs iloc
import pandas as pdimport numpy as np使用matplotlib 画图# To plot pretty figures directly within Jupyter%matplotlib inlineimport matplotlib as mplmpl.rc('axes', labelsize=14)mpl.rc('xtick', labelsize=12)mpl.rc('ytick', labelsize=12).loc selects data原创 2020-11-16 23:04:07 · 171 阅读 · 0 评论 -
pandas.get_dummies
pandas.get_dummiespandas 提供的生成独热编码的方法pandas.get_dummies(data, prefix=None, prefix_sep=’_’, dummy_na=False, columns=None, sparse=False, drop_first=False, dtype=None)[source]pandas.get_dummiesimport pandas as pddf = pd.DataFrame([ ['green'原创 2020-11-04 21:31:43 · 102 阅读 · 0 评论 -
Python Tips
查看Python版本# cmd python --version查看Python 安装的所有的包pip list*查看Python安装的某个包的版本pip show scipy原创 2020-09-10 22:37:56 · 105 阅读 · 0 评论 -
pd 列显示百分比(精确到两位小数) and df.to_csv 中文显示乱码
pd 列显示百分比(精确到两位小数)```pythondf_total['win10比例'] = (df_total['win10数量'] / df_total['计算机总数']).apply(lambda x: '%.2f%%' % (x*100))df.to_csv 中文显示乱码# df_total.to_csv('11.csv',encoding='utf_8')df_total.to_csv('11.csv',encoding='utf_8_sig')...原创 2020-08-26 16:26:06 · 708 阅读 · 0 评论 -
pd.loc vs pd.iloc
pd.loc vs pd.iloc 参考# importing pandas and numpyimport pandas as pdimport numpy as np# crete a sample dataframedata = pd.DataFrame({ 'age' : [ 10, 22, 13, 21, 12, 11, 17], 'section' : [ 'A', 'B', 'C', 'B', 'B', 'A', 'A'], 'city' :原创 2020-08-23 21:30:20 · 535 阅读 · 0 评论 -
Anaconda 更新到最新版
Anaconda 更新到最新版打开需要更新环境的Anaconda promptconda update conda conda update anaconda原创 2020-08-12 22:11:18 · 765 阅读 · 0 评论
分享