
python
文章平均质量分 95
疯子书生z
这个作者很懒,什么都没留下…
展开
-
数据分析---arXiv论文代码统计
论文代码统计目录论文代码统计3.1 说明3.2 数据处理步骤3.3 正则表达式3.3.1 普通字符:大写和小写字母、所有数字、所有标点符号和一些其他符号3.3.2 特殊字符:有特殊含义的字符3.3.3 限定符3.4 具体代码实现以及讲解3.1 说明主题:论文代码统计,统计所有论文出现代码的相关统计;内容:使用正则表达式统计代码连接、页数和图表数据;3.2 数据处理步骤在原始arxiv数据集中作者经常会在论文的comments或abstract字段中给出具体的代码链接,所以我们需要从这些字段里原创 2021-01-16 15:42:19 · 1284 阅读 · 0 评论 -
数据分析---arXiv论文数据统计
这里写目录标题1.论文数据统计1.1 任务说明1.2 数据集介绍1.3 arxiv论文类别介绍1.4 具体代码实现以及讲解1.4.1 导入package并读取原始数据1.4.2 数据预处理1.4.3 数据分析及可视化1.论文数据统计1.1 任务说明主题:论文数量统计,即统计2019年全年计算机各个方向论文数量;内容:使用 Pandas 读取数据并进行统计;1.2 数据集介绍数据集来源:数据集链接;数据集的格式如下:id:arXiv ID,可用于访问论文;submitter:论原创 2021-01-10 09:19:32 · 2844 阅读 · 0 评论 -
matplotlib 绘图技巧(一)
目录1、认识matplotlib2.最简单的绘图例子1、认识matplotlibMatplotlib是一个Python 2D绘图库,能够以多种硬拷贝格式和跨平台的交互式环境生成出版物质量的图形,用来绘制各种静态,动态,交互式的图表。Matplotlib可用于Python脚本,Python和IPython Shell、Jupyter notebook,Web应用程序服务器和各种图形用户界面工具包等。Matplotlib,它已经成为python中公认的数据可视化工具,我们所熟知的pandas和seabo原创 2020-12-14 16:02:59 · 1264 阅读 · 0 评论 -
pip 一次性更新所有包
import pkg_resourcesfrom subprocess import callpackages = [dist.project_name for dist in pkg_resources.working_set]call("pip3 install " + "-i https://pypi.tuna.tsinghua.edu.cn/simple" + " --upgrade " + ' '.join(packages), shell=True)原创 2020-12-09 09:32:24 · 985 阅读 · 0 评论 -
Numpy基础教程(四)---数学函数与逻辑函数
目录1. 数学函数1.1 向量化和广播1.2 数学函数1.2.1 算数运算1.3三角函数1.4 指数和对数1.5加法函数、乘法函数1.5.1 numpy.sum1.5.2 numpy.cumsum1.5.3 numpy.prod 乘积1.5.4 numpy.cumprod 累乘1.5.5 numpy.diff 差值1.6 四舍五入1.6.1numpy.around 舍入1.6.2 numpy.ceil 上限与numpy.floor 下限1.7杂项1.7.1numpy.clip 裁剪1.7.2numpy.ab原创 2020-12-04 16:34:29 · 515 阅读 · 0 评论 -
Numpy基础教程(三)---数组操作
目录数组操作1.更改形状2. 数组转置3. 更改维度4.数组组合5.数组拆分6.数组平铺7.添加和删除元素数组操作1.更改形状在对数组进行操作时,为了满足格式和计算的要求通常会改变其形状。numpy.ndarray.shape表示数组的维度,返回一个元组,这个元组的长度就是维度的数目,即 ndim 属性(秩)。通过修改 shape 属性来改变数组的形状。import numpy as npx = np.array([1, 2, 9, 4, 5, 6, 7, 8])print(x.sh原创 2020-12-04 15:58:52 · 283 阅读 · 0 评论 -
Numpy基础教程(二)----索引、切片及迭代
目录1.副本与视图2.索引与切片2.1整数索引2.2 切片索引2.3 dots 索引2.4 整数数组索引2.5 布尔索引3. 数组迭代1.副本与视图在介绍索引和切片之前,先介绍以下副本与视图。在 Numpy 中,尤其是在做数组运算或数组操作时,返回结果不是数组的 副本 就是 视图。在 Numpy 中,所有赋值运算不会为数组和数组中的任何元素创建副本。numpy.ndarray.copy() 函数创建一个副本。 对副本数据进行修改,不会影响到原始数据,它们物理内存不在同一位置。import nu原创 2020-11-28 15:34:37 · 202 阅读 · 0 评论 -
Numpy基础教程(一)-----数组属性及创建
目录1.Numpy简介1.1Scipy简介1.2Matplotlib 简介1.3 相关链接1.4 numpy 安装2. NumPy Ndarray 对象2.1 参数说明2.2 常量2.2.1 numpy.nan2.2.2 numpy.inf3. 数据类型3.1 常见数据类型3.2 数据类型对象 (dtype)4.时间日期和时间增量4.1 datetime64 基础4.2datetime64 和 timedelta64 运算4.3 datetime64 的应用5. 数组属性及创建数组5.1 NumPy 数组属原创 2020-11-26 19:25:24 · 879 阅读 · 0 评论 -
pandas ----数据分类(category)
目录1.category的创建及其性质1.1. 分类变量的创建1.2. 分类变量的结构1.3. 类别的修改2.分类变量的排序2.1. 序的建立3.分类变量的比较操作3.1. 与标量或等长序列的比较3.2. 与另一分类变量的比较1.category的创建及其性质这是对pandas分类数据类型的介绍,包括与R的简短比较factor。category是与统计中分类变量相对应的 pandas数据类型...原创 2020-05-08 11:20:10 · 3382 阅读 · 0 评论 -
pandas ------ 文本类型数据处理
目录1. string类型的性质1.1. string与object的区别2. string类型的转换2.拆分与拼接2.1. str.split方法2.2. str.cat方法3.替换3.1. str.replace的常见用法3.2. 子组与函数替换4.子串匹配与提取4.1. str.extract方法4.2. str.extractall方法4.3. str.contains和str.match...原创 2020-05-06 17:28:02 · 1052 阅读 · 0 评论 -
pandas -----缺失数据处理
目录一、缺失观测及其类型1.1. 了解缺失信息1.2. 三种缺失符号1.3. Nullable类型与NA符号1.4. NA的特性1.5. convert_dtypes方法二、缺失数据的运算与分组2.1. 加号与乘号规则2.2. groupby方法中的缺失值三、填充与剔除3.1. fillna方法3.2. dropna方法四、插值(interpolation)4.1. 线性插值4.2. 高级插值方法...原创 2020-05-04 15:04:35 · 1279 阅读 · 0 评论 -
pandas -----合并全集(append、aassign、combine、upadte、concate、merge、join)
目录1.导入数据2.append与assign2.1 append方法2.2. assign方法3.combine与update3.1. comine方法1.导入数据import numpy as npimport pandas as pddf = pd.read_csv('data/table.csv')df.head()SchoolClassIDGenderAd...原创 2020-04-30 17:36:18 · 621 阅读 · 0 评论 -
jupyter lab出现的问题 ------快捷键无法运行,菜单无法点击
最近一直在使用jupyter lab写一些代码和练习,突然有一天,快捷键就不好使了,也运行不了代码。我网上查了一下,基本都是jupyter lab安装和卸载的。所以没办法我就卸载了一下正常的卸载是 pip uninstall 模块(包)所以我就卸载一下重装。发现pip install jupyterlab运行之后,显示已经安装。我就知道,没那么容易卸载干净。于是又搜了一下安装了pip-a...原创 2020-04-29 11:20:42 · 5537 阅读 · 1 评论 -
机器学习 ---- 条件随机场
目录1.什么是条件随机场2.马尔科夫过程3.隐马尔科夫算法4.条件随机场(以线性链条件随机场为例)4.1定义4.2基本问题4.3概率计算问题4.4 前向-后向算法5. BFGS 算法6.预测问题1.什么是条件随机场条件随机场是一种无向图模型,且相对于深度网络有非常多的优势,因此现在很多研究者结合条件随机场(CRF)与深度网络获得更鲁棒和可解释的模型。在介绍条件随机场之前,首先简单说明马尔科夫...原创 2020-04-28 10:43:50 · 645 阅读 · 0 评论 -
爬虫---------selenium抓取腾讯新闻
目录1.导入相关模块2.打开chromedriver3.设置滚动条4.滚动条下滑到定位的元素5.解析页面6.遍历标签输出结果7.输出结果抓取腾讯新闻思路:selenium模拟浏览器操作BeautlfulSoup解析存储数据1.导入相关模块from selenium import webdriverfrom bs4 import BeautifulSoupimport panda...原创 2020-04-27 11:04:28 · 824 阅读 · 0 评论 -
pandas -----变形(透视表、melt、stack、unstack),哑变量与因子变化
目录导入数据1. 透视表1. 1 pivot1.2. pivot_table1.3 crosstab(交叉表)2.其他变形方法2.1. melt2.2. 压缩与展开3.哑变量与因子化3.1. Dummy Variable(哑变量)3.2. factorize方法5.练习导入数据import numpy as npimport pandas as pddf = pd.read_csv('da...原创 2020-04-26 17:26:43 · 1542 阅读 · 1 评论 -
爬虫 ----------session和cookie
目录1.前置:动态网页和静态网页1.1 静态网页1.2 动态网页1.3 http1.02. session和cookies2.1 session2.2 cookies3.实战案例:模拟登录1631.前置:动态网页和静态网页1.1 静态网页静态网页就是我们上一篇写的那种 html 页面,后缀为 .html 的这种文件,直接部署到或者是放到某个 web 容器上,就可以在浏览器通过链接直接访问到...原创 2020-04-25 15:04:55 · 445 阅读 · 0 评论 -
爬虫 -------Seleium
这里写目录标题1. selenium1.1 导入模块1. seleniumselenium是什么:一个自动化测试工具(大家都是这么说的)selenium应用场景:用代码的方式去模拟浏览器操作过程(如:打开浏览器、在输入框里输入文字、回车等),在爬虫方面很有必要准备工作:安装selenium(pip install selenium)安装chromedriver(一个驱动程序,用以...原创 2020-04-25 15:01:03 · 271 阅读 · 0 评论 -
数据挖掘 ---- Pandas之分组
目录导入模块及数据1. SAC过程1.1 内涵1.2. apply过程2. groupby函数2.1. 分组函数的基本内容:2.2. groupby对象的特点3.聚合、过滤和变换3.1. 聚合(Aggregation)3.2.2. 过滤(Filteration)3. 变换(Transformation)4.apply函数4.1. apply函数的灵活性4.2. 用apply同时统计多个指标5.练...原创 2020-04-24 16:40:55 · 619 阅读 · 0 评论 -
机器学习 ---- 朴素贝叶斯
目录1 相关概念1.1 生成模型1.2 判别模型2 先验概率、条件概率2.1条件概率2.2先验概率2.3 后验概率3 贝叶斯决策理论4 贝叶斯公式4.1 极大似然估计4.2 朴素贝叶斯分类器5 极值问题情况下的每个类的分类概率6 下溢问题如何解决7 零概率问题如何解决?8 sklearn参数详解9 优缺点10 参考文献1 相关概念导入相关模块以及数据集from sklearn.n...原创 2020-04-23 09:58:09 · 487 阅读 · 0 评论 -
数据挖掘---- pandas之索引
目录1.单级索引1. 1 loc方法、iloc方法、[ ]操作符1.1.1 loc方法(注意:所有在loc中使用的切片全部包含右端点!)1.1.2 iloc方法(注意与loc不同,切片右端点不包含)1.2 布尔索引1.2.1 布尔符号:'&','|','~':分别代表和and,或or,取反not1.2.2 isin方法1.2.3 快速标量索引1.2.4 区间索引1.2.4.1利用inte...原创 2020-04-21 17:56:36 · 680 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (三)附淘宝比价定向爬虫
目录1.正则表达式 re1.1 正则表达式语法1.3 正则表达式re库的使用1.4 re库的主要功能函数:1.6 re库的另一种等价用法(编译)1.7 re 库的贪婪匹配和最小匹配2. 实例-淘宝商品比价定向爬虫1.正则表达式 re典型的搜索和替换操作要求您提供与预期的搜索结果匹配的确切文本。虽然这种技术对于对静态文本执行简单搜索和替换任务可能已经足够了,但它缺乏灵活性,若采用这种方法搜索动态...原创 2020-04-20 17:24:49 · 834 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (二)附爬取丁香园用户名以及回复内容
目录1.Xpath简介1.1使用流程:1.2Xpath常用的路径表达式1.3 使用lxml解析2 实战:爬取丁香园-用户名和回复内容2.1 获取url的html2.2 lxml解析html2.3 利用Xpath表达式获取user和content(完成xpath的语句)2.4 保存爬取的内容1.Xpath简介XPath即为XML路径语言(XML Path Language),它是一种用来确定XM...原创 2020-04-20 16:36:31 · 602 阅读 · 0 评论 -
爬虫 -----beautifulsoup、Xpath、re (一)附全国大学排名抓取
目录1.BeautifulSoup简介1.1 BeautifulSoup使用流程1.2 BeautifulSoup 库的基本元素1.3 基于bs4库的HTML内容遍历方法1.4基于bs4库的HTML内容的查找方法2. 实战:中国大学排名定向爬取2.1 从网络上获取大学排名网页内容2.2 提取网页内容中信息到合适的数据结构(二维数组)2.3 利用数据结构展示并输出结果1.BeautifulSou...原创 2020-04-20 16:17:33 · 816 阅读 · 1 评论 -
python-------assign的使用方法
assign的用途是增加新的一列df1['B']=list('abc')df1AB11a22b33cdf1.assign(C=pd.Series(list('def')))ABC11ae22bf33cNaN没有指定Series的index默认是从0开始的。使用assign添...原创 2020-04-20 10:38:27 · 14369 阅读 · 1 评论 -
数据挖掘 -------pandas基础(文件读写、数据结构、常用基本函数)
目录1.简介2. 文件读写2.1读取2.2 写入2.3 pandas数据结构2.3.1 Series2.3.2DataFrame3.常用基本函数3.1. head和tail3.2 unique和nunique3.3 count和value_counts3.4 describe和info3.5 idxmax和nlargest3.6 clip和replace3.7 apply函数4.排序4.1索引排序...原创 2020-04-19 17:34:13 · 1040 阅读 · 0 评论 -
数据分析挖掘(一)---python基础
数据分析挖掘(一)目录数据分析挖掘(一)1.简介2.python基础2.1python规范2.2一切皆为对象2.3 函数和方法的调用2.4 变量和参数传递2.5 动态引用,强类型2.6 属性和方法2.7 鸭子方法2.8 二元运算符和比较运算符2.9 可变对象和不可变对象2.10 标量类型2.11 数值类型2.12 字符串2.13字节与Unicode2.14时间和日期1.简介对于这个系列,是针...原创 2020-03-25 14:31:10 · 210 阅读 · 0 评论