- 博客(52)
- 资源 (9)
- 收藏
- 关注

原创 正则表达式引擎以及贪婪、懒惰、独占模式、前/后向肯定/否定断言
1、正则表达式引擎正则引擎主要可以分为基本不同的两大类:一种是DFA(确定型有穷自动机),另一种是NFA(不确定型有穷自动机)。简单来讲,DFA 对应的是文本主导的匹配,NFA 对应的是正则表达式主导的匹配。DFA从匹配文本入手,从左到右,每个字符不会匹配两次,它的时间复杂度是多项式的,所以通常情况下,它的速度更快,但支持的特性很少,不支持捕获组、各种引用等等。NFA则是从正则表达式入手,不断读入字符,尝试是否匹配当前正则,不匹配则吐出字符重新尝试,通常它的速度比较慢,最优时..
2020-07-30 19:31:08
690

原创 xlrd、xlwt 模块读写excel,封装为功能函数,实现二维列表数据与表格数据随意转换
1、导入xlrd,封装读excel的函数,将表格数据读取为二维列表元素。import xlrddef read_excel( files, sheet, row): """ 该函数用于读取excel文件,按行保存为二维列表。 :param files: 工作簿名 :param sheet: 工作表名 :param row: 从第几行开始读取数据,0表示第1行,1表示第2行 :return: 返回读取的二维列表 """
2020-05-15 18:45:59
637

原创 自然语言处理之 snownlp,分词、词性标注、情感分析、文本分类、提取关键词、文本相似度
情感分析的基本流程通常包括:自定义爬虫抓取文本信息; 使用Jieba工具进行中文分词、词性标注; 定义情感词典提取每行文本的情感词; 通过情感词构建情感矩阵,并计算情感分数; 结果评估,包括将情感分数置于0.5到-0.5之间,并可视化显示。SnowNLPSnowNLP是一个常用的Python文本分析库,是受到TextBlob启发而发明的。由于当前自然语言处理库基本都是针对英文的,而中文没有空格分割特征词,Python做中文文本挖掘较难,后续开发了一些针对中文处理的库,例如SnowNLP、J
2020-05-12 03:10:49
22969
3

原创 jieba词频统计、关键词提取、词云图制作
1、jieba分词及词频统计import jiebaimport pandas as pdcontent = open('./测试.txt',encoding='utf-8').read()#分词words = jieba.cut(content)word_list = list(word for word in words)#使用pandas统计并降序排列df = pd....
2020-03-27 19:58:56
6627

原创 python 中 xlsxwriter 模块的使用
1.xlsxwriter 优点1.1、功能比较强相对而言,这是除Excel自身之外功能最强的工具了。比如我就用到了它提供的:字体设置、前景色背景色、border设置、视图缩放(zoom)、单元格合并、autofilter、freeze panes、公式、data validation、单元格注释、行高和列宽设置等等。1.2、支持大文件写入如果数据量非常大,可以启用cons...
2019-10-28 11:50:40
11847
2

原创 python 中 openpyxl 相关使用
1. 安装pip install openpyxl2. 打开文件① 创建from openpyxl import Workbook # 实例化wb = Workbook()# 激活 worksheetws = wb.active② 打开已有from openpyxl import load_workbookwb2 = load_workbook(...
2019-10-28 10:17:47
366

原创 豆瓣源、清华源下载python包
#豆瓣源下载python包pip install xxxx -i http://pypi.douban.com/simple --trusted-host pypi.douban.com#清华源下载python包pip install xxxx -i https://pypi.tuna.tsinghua.edu.cn/simple...
2019-09-09 17:51:38
1476

原创 python爬虫动态HTML处理(Selenium + PhantomJS 快速入门)
HTML介绍、Selenium 简介 、PhantomJS 简介、示例演示:百度 (Selenium + PhantomJS 快速入门)...........Selenium相关操作.........
2019-07-09 19:48:50
1941
原创 python脚本实现windows电脑内存监控&内存清理(类似rammap清空工作集功能)
python脚本实现windows电脑内存监控&内存清理(类似rammap清空工作集功能)
2025-02-08 16:30:18
183
原创 OKR 设计技巧
OKR介绍OKR(Objectives and Key Results):即目标与关键成果法,是一套明确和跟踪目标及其完成情况的管理工具和方法。OKR 可以在一定时期内定义策略和目标,并提供评估这些目标是否达到的量化方法。通过在整个团队中传播和推广 OKR,可以为他们制定统一、清晰且可衡量的路线图。...
2021-07-29 10:23:54
371
原创 Anaconda3部分命令操作 conda
1、创建新环境conda create -n new_env或者conda create -n new_env -c conda-forge2、进入该环境activate new_env3、退出该环境deactivate new_env4、查看安装的环境conda info --envs或conda env list5、删除某个环境conda env remove -n new_env6、安装包conda install package_nam..
2021-07-29 10:12:06
411
原创 python selenium 超时加载url 的解决办法
遇到的问题是:selenium 设置页面超时之后,捕获异常也无法继续get(url) 打开新的url页面。Chrome Options类可用的和最常用的参数列表:start-maximized:最大化模式打开headless:无头模式(后台运行)disable-extensions:扩展Chrome浏览器上现有的扩展disable-popup-blocking:放入弹窗make-default-browser:设置Chrome为替代浏览器disable-infobars:防.
2020-07-15 04:06:56
2099
转载 (JS)常用正则表达式大全、方便速查
最新匹配2018-10-10格式的日期:^[1-9]\d{3}-([1-9]|1[0-2])-([1-9]|[1-2]\d|3[01])$ 验证文件扩展名:^.*?\.(html|css|jpg)$密码验证类6-16位字符,区分大小写(不能是9位以下的纯数字,不含空格):^(?!\d{6,8}$)(?! )(?=.*[a-z])(?=.*[0-9])[a-zA-Z0-9_]{6,16}$ 6-16位字符,区分大小写(不能是9位以下的纯数字,不含空格),必须包含大写字母:^(?!\d{6,8}$
2020-05-27 16:14:44
417
原创 访问Github太慢 ?试试修改本地host文件
1、修改本地电脑系统 hosts 文件C:\Windows\System32\drivers\etc,直接在最后加入以下代码:192.30.253.112 github.com192.30.253.113 github.com151.101.184.133 assets-cdn.github.com151.101.185.194 github.global.ssl.fastly.net...
2020-05-06 04:42:15
16350
5
原创 异常值处理、3sigma准则
import pandas as pd# 正态分布# 3sigma准则 ---> # mean() - 3* std() ---下限# mean() + 3* std() ---上限# 自实现3sigma 原则def three_sigma(ser): """ 自实现3sigma 原则 :param ser: 数据 :return...
2019-09-02 18:35:34
19291
3
原创 缺失值处理:删除法、填充法、拟合插值法
import pandas as pdimport numpy as np# 加载数据data = pd.read_excel("./qs.xlsx")print("data:\n",data)# 检测 是否存在缺失值?---bool_df ---经常与sum连用# print(pd.isnull(data))# print(pd.notnull(data))# ...
2019-09-02 17:49:13
3228
原创 python机器学习_监督学习算法之KNN分类算法
KNN的英文全称叫K-Nearest Neighbor,中文名称为K最近邻算法,它是由Cover和Hart在1968年提出来的。相似性的度量:相似性一般用空间内两个点的距离来度量。距离越大,表示两个越不相似。KNN算法原理:1. 计算已知类别数据集中的点与当前点之间的距离; 2. 按照距离递增次序排序; 3. 选择与当前距离最小的k个点; 4. 确定前k个点所在类别...
2019-08-02 20:51:50
1309
原创 pandas数据预处理_合并_清洗_标准化数据_转换数据
目录1. 堆叠合并数据1.1 横向表堆叠(axis=1,concat做行对齐)1.2 纵向堆叠(axis=0,concat做列对齐)1.3 主键合并数据2.清洗数据2.1 检测与处理重复值3 、标准化数据3.1离差标准化公式:3.2标准差标准化数据:3.3小数定标标准化公式及对比:4.转换数据4.1 哑变量处理类别数据5.任务6.相关代码参考...
2019-07-31 16:49:01
3543
1
原创 python机器学习_K-Means聚类算法
目录1.机器学习分类2. k-means算法3.相关代码参考1.机器学习分类监督学习:监督学习是从标记的训练数据来推断一个功能的机器学习任务。在监督学习中,每个实例都是由一个输入对象(通常为矢量)和一个期望的输出值(也称为监督信号)组成。监督学习算法是分析该训练数据,并产生一个推断的功能,其可以用于映射出新的实例。无监督学习:无监督学习就是按照他们的性质把他们自动地分成很多...
2019-07-31 10:01:41
1209
2
原创 Pandas统计分析基础_数据处理(DataFrame常用操作)
Pandas统计分析基础:1.文本文件读取与存储。2.Excel文件读取与储存。3.DataFrame常用操作。4.描述分析DataFrame数据
2019-07-25 22:03:59
9624
1
原创 matplotlib数据可视化之绘制散点图、折线图、直方图、柱状图、饼图、箱线图
1.绘制散点图:scatter。2.绘制折线图:plot 。3.绘制直方图:hist。4.绘制柱状图:bar。5.绘制饼图:pie。6.绘制箱线图:boxplot
2019-07-24 19:47:51
4331
1
原创 Numpy数组排序、数组去重和重复、数组的统计分析
1.数组排序:(sort、argsort、lexsort)。2.数组去重和重复:(unique、tile、repeat)3.数组的统计分析:(sum、 max、 min、 mean 、std、 var 、argmax 、argmin、 cumsum 、cumprod)
2019-07-23 21:43:28
2981
原创 Numpy矩阵运算与矩阵属性、数组通用函数、数组的广播机制、数组的存储与读取
1.矩阵运算与矩阵属性:(mat、matmul、dot、multiply、.T转置矩阵、.H共轭转置矩阵、.I逆矩阵、.A视图)2.数组的通用函数:(数组的加+减- 乘* 除/ 冥运算**,比较运算、逻辑运算)3.数组的广播机制:4.数组的存储与读取:(save、savez、load、savetxt、loadtxt、genfromtxt(推荐使用))
2019-07-23 21:05:39
392
原创 Numpy创建数组、数组索引、数组拼接与数组拆分、矩阵生成
1.Numpy----创建数组对象、生成各种数组的相关实例(array、arange、linspace、logspace、ones 、zeros 、eye 、diag、random.random 、random.rand、random.randn、random.randint、random_integers)、重新设置数组的 shape 属性及数组中的数据类型、相关实例(shape、reshape、ravel 、flatten)2.Numpy----数组索引、数组拼接与数组拆分、矩阵生成。
2019-07-22 20:52:50
1089
原创 python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py
python爬虫时直接覆盖原来的配置-------setting.py、middlewares.py
2019-07-16 15:20:52
468
原创 python爬虫之Requests 模块------get请求与post请求
通过爬取百度产品、爬取新浪新闻、批量爬取百度贴吧、爬取有道词典等实例学习requests库中的get请求和post请求。
2019-07-08 20:19:29
2008
1
原创 基于scrapy-----selenium-----PhantomJS爬虫腾讯招聘
实例介绍基于scrapy与selenium与PhantomJS爬虫腾讯招聘的步骤。
2019-07-04 19:52:20
362
1
python爬虫修改版.pdf
2019-07-09
mongodb配置及数据库管理软件.zip
2019-07-05
chromedriver和phantomjs.zip
2019-07-05
安装scrapy依赖文件(Microsoft visual c++ 14.0和NDP46-KB3045560-Web).zip
2019-07-05
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人