- 博客(93)
- 收藏
- 关注
原创 selenium启动IE浏览器报错解决方式
1-下载对应版本的IEDriverServer.exe程序,放入"C:\Program Files\Internet Explore"文件夹下2-修改ie浏览器中Internet选项,如下图
2021-08-12 11:22:31
792
原创 python清空文件夹
import osimport shutildef RemoveDir(filepath):‘’’如果文件夹不存在就创建,如果文件存在就清空!'''if not os.path.exists(filepath): os.mkdir(filepath)else: shutil.rmtree(filepath) os.mkdir(filepath)
2021-07-31 15:20:50
1061
原创 selenium中隐式等待和显性等待区别
隐形等待是设置了一个最长等待时间,如果在规定时间内网页加载完成,则执行下一步,否则一直等到时间截止,然后执行下一步。注意这里有一个弊端,那就是程序会一直等待整个页面加载完成,也就是一般情况下你看到浏览器标签栏那个小圈不再转,才会执行下一步,但有时候页面想要的元素早就在加载完成了,但是因为个别js之类的东西特别慢,我仍得等到页面全部完成才能执行下一步,我想等我要的元素出来之后就下一步怎么办?有办法,这就要看selenium提供的另一种等待方式——显性等待wait了显性等待WebDriverWait,配合
2021-07-30 16:22:03
1250
原创 将文件夹下所有excel写入同一个excel多个sheet
import xlrd,xlwtimport os,shutilfrom xutils.copy import copydef get_all_excel(path): # 获取当前路径下所有excel # 返回al1_excel 是excel路径,all_name 是所有excel名字 folder = os.walk(path) folder = list(folder) al1_name = [i.split('.')[0] for i in folde
2021-05-11 16:52:52
1153
3
原创 修改当前路径下所有excel进行重命名
import osimport xlrddef to_rename_excel(dir): list_excel=[]#获取文件夹下所有excel for root_din, sub_dir, files in os.walk(dir): for file in files: if file.endswith('.xlsx')or file.endswith('.xls'): # 判面当前路径下只要是,x1s和,xlsx结尾的
2021-05-11 16:30:09
185
原创 python时间块处理(季度第一天,季度最后一天,本月第一天,本月最后一天,本年第一天,本年最后一天,随机给日期获取想要结果)
"""通过datetime和dateutil进行常用日期的获取如:今年,去年,明年当前季度本月,上月,去年同期,今年一月今天,昨天,明天,本周、本月、本季度、本年第一天,本周、本月、本季度、本年最后一天""" import datetime # 获取常用特定日期(如去年/季度/当月/本周/首日/) # =======================================# 关于年(今年,去年,明年)# ==============================.
2021-05-11 16:09:21
2934
1
原创 实用pandas合并多个excel的多个sheet为一个文件
import pandas as pdimport ospath = r'C:\files' #指定文件夹路径wj_List = list(os.walk(path))[0][2] #所有子文件名xls_file = pd.ExcelFile(path+'\\'+wj_List[0])sheet_names = xls_file.sheet_names #获取excel文件的所有sheet名writer = pd.ExcelWriter(path+'\\'+'re
2021-05-08 15:30:34
896
原创 python 统计数据出现的频率
words_cnt = {}with open(‘test.txt’, ) as f:lines = f.readlines()for line in lines:line = line.replace(’,’, ’ ‘).lower() # 逗号都用英文状态的words = line.strip().split(’ ') # 括号里面的单引号里有空格for word in words:words_cnt[word] = words_cnt.get(word, 0) + 1words_l
2021-03-24 09:48:08
905
原创 GBDT和XGB和Adaboost面试汇总
文章目录1. xgboost相比传统gbdt有何不同?2. xgboost为什么快?3. xgboost如何支持并行?4. 随机森林是怎样改变决策树容易过拟合的问题的?5. RF与GBDT之间的区别与联系?6. XGBoost怎么给特征评分?7. 怎么理解决策树、xgboost能处理缺失值?而有的模型(svm)对缺失值比较敏感?8. 为什么XGBoost要用泰勒展开,优势在哪里?9. XGBoost如何寻找最优特征?是又放回还是无放回的呢?10. 请问GBDT和XGBoost的区别是什么
2020-12-30 16:19:06
219
原创 Spark 性能相关参数配置详解-任务调度篇
随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长,所以在这里分篇组织,如果要看最新完整的网页版内容,可以戳这里:http://spark-config.readthedocs.org/,主要是便于更新内容schedule调度相关调度相关的参数设置,大多数内容都很直白,其实无须过多的额外解释,不过基于这些参数的常用性(大概会是你针对自己的集群第一步就
2020-11-23 16:54:34
568
原创 docker build 指定dockerfile
docker build 指定dockerfileDockerfile文件使用docker build命令会根据Dockerfile文件及上下文构建新Docker镜像。构建上下文是指Dockerfile所在的本地路径或一个URL(Git仓库地址)。构建上下文环境会被递归处理,所以,构建所指定的路径还包括了子目录,而URL还包括了其中指定的子模块。构建镜像将当前目录做为构建上下文时,可以像下面这样使用docker build命令构建镜像:$ docker build .Sending buil
2020-11-17 14:34:09
3067
原创 16种常用的数据分析方法汇总
经常会有朋友问到一个朋友,数据分析常用的分析方法有哪些,我需要学习哪个等等之类的问题,今天数据分析精选给大家整理了十六种常用的数据分析方法,供大家参考学习。一、描述统计描述性统计是指运用制表和分类,图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。1、缺失值填充:常用方法:剔除法、均值法、最小邻居法、比率回归法、决策树法。2、正态性检验:很多统计方法都要求数值服从或近似服从正态分布,所以之前需要进行正态性检验。常用方法:非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。二
2020-09-23 10:52:33
3280
原创 java调用python文件
from sys import argvdef run(a,b): print(a+b) return a+brun(argv[1],argv[2])java调用文件时,三个参数,1–文件名.py,2–a参数,3–b参数
2020-09-01 09:37:53
150
原创 xgboost算法API(回归,分类)
安装xgboost之后,使用import引入即可使用其中、xgboost模块的XGBClassifier类是解决分类问题、XGBRegressor类是解决回归问题。xgboost.XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silent=True,objective=‘binary:logistic’,booster=‘gbtree’,n_jobs=1,nthread=None,gamma=0,min_child_we.
2020-09-01 09:34:46
1587
原创 python 打包带传参的 .exe 文件一些经验教训
最近一直在做一个python 工具,当所有的程序代码都完成后,只剩下最后一步,打包成.exe文件。一开始并不是很重视这块内容,毕竟代码部分已经完成,打包还不简单么?但是随着工作的进行,问题层出不穷,一环套一环,我才发现此事必有蹊跷。下面我将总结我遇到的几个问题并逐一写下我是如何解决的。1. 版本问题 2.库函数的调用 3. 传递参数问题一. 版本问题首先我们要保证一个事情,python环境一定要一致,我采用的spyder的python环境是3.6而windows下是2.7,这样,编包的时候会出现很多奇奇
2020-08-20 17:12:58
730
原创 pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 3, saw 2解决办法
在使用pandas读取csv文件时报以上错误,解决办法,如下:pd.read_csv(filename,error_bad_lines=False)跳过错误行加上error_bad_lines=False就可以完美解决了。。。
2020-08-20 13:58:44
11084
原创 XGboost代码实战
#! /usr/bin/python import numpy as np import xgboost as xgb # label need to be 0 to num_class -1 # if col 33 is '?' let it be 1 else 0, col 34 substract 1 data = np.loadtxt('./dermatology.data', delimiter=',',conve...
2020-08-20 10:38:42
247
原创 调用python脚本接口编写
# coding=utf-8import jsonimport timefrom utils.concurrent_utils import extract_many, model_manyfrom utils.base_util import uncompress_ocr_result, get_text_linesfrom utils.dynamic_anchor_log import ta_logfrom utils.process_util import process_text_li
2020-08-03 17:08:15
402
原创 简单的python脚本变http接口
<strong># flask demofrom flask import Flask, request app = Flask(__name__) # http://127.0.0.1:8080@app.route('/')def index(): return 'Hello World' # http://127.0.0.1:8080?p1=aaa@app.route('/test1', methods=['POST', 'GET'])def test1()
2020-08-03 17:06:16
733
1
原创 xlrd读取excel文件SDK
import xlrdfrom xlrd import xldate_as_tupleimport datetime'''xlrd中单元格的数据类型数字一律按浮点型输出,日期输出成一串小数,布尔型输出0或1,所以我们必须在程序中做判断处理转换成我们想要的数据类型0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error'''class ExcelData(): # 初始化方法 def __init__(self, data_
2020-07-31 17:23:21
201
原创 jupyter notebook的安装及使用,快捷键
打开在pycharm的终端处安装jupyterpip install jupyter打开jupyter方式 终端输入jupyter notebook启动后没有文件,则尝试降低安装jupyter版本pip install jupyter notebook==5.7.4jupyter的快捷键使用Jupyter Notebook 有两种键盘输入模式。编辑模式,允许你往单元中键入代码或文本;这时的单元框线是绿色的。命令模式,键盘输入运行程序命令;这时的单元框线是灰色。命令模式 (按键 E
2020-07-03 09:50:37
262
原创 python中报错 json.decoder.JSONDecodeError: Expecting value:的解决
在学习python语言中用json库解析网络数据时,我遇到了两个编译错误:json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes:和json.decoder.JSONDecodeError: Expecting value:。费了一些时间才找到原因,在此记录总结,希望能对学习python的同学有所帮助。我运行的程序初始如下:import jsondata='''{'name'
2020-06-30 11:13:16
48963
原创 pandas的基本使用
一、生成数据表1、首先导入pandas库,一般都会用到numpy库,所以我们先导入备用:import numpy as npimport pandas as pd2、导入CSV或者xlsx文件:df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1)) df =pd.DataFrame(pd.read_excel(‘name.xlsx’))或者import pandas as pd from collectionsimport name
2020-06-23 10:17:13
317
原创 12306验证码
# !user/bin/env python3# -*-coding: utf-8 -*-__author__ = '闻名'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by impo
2020-05-26 13:57:28
425
原创 处理excel写入的问题
file = open(r'国产注册.txt','r', encoding='ISO-8859-1')data = file.read()content = eval(data)print(len(content))import xlwtwookbook = xlwt.Workbook(encoding='utf-8')wooksheet = wookbook.add_sheet('sheet')title = ['注册证编号', '注册人名称', '注册人住所 ', '生产地址 ', .
2020-05-18 16:24:08
225
原创 医脉通数据爬取 http://disease.medlive.cn
import requestsimport timefrom lxml import etreeimport reimport xlwtimport randomimport xlrdfrom multiprocessing import Processclass Yimaitong(): def __init__(self): # 请求的url self.url = 'http://disease.medlive.cn/wiki/list/1.
2020-05-18 16:08:09
1086
原创 爬取豆瓣读书排行
import requests # 获取网页数据from bs4 import BeautifulSoup # 解析网页数据import time # 设置爬虫等待时间import xlwt# 获取豆瓣网址并解析数据def get_douban_books(url, num): headers = { 'user-agent': 'Mozilla/5.0...
2020-03-20 16:21:46
616
原创 爬取百度贴吧所有数据
# !/user/bin/python3# -*- coding:utf-8 -*-import requestsfrom lxml import etreeclass Tiebasprite(): def __init__(self, tieba_name): self.tieba_name = tieba_name self.post_url ...
2020-03-20 10:08:07
1315
原创 爬取百度图片
# !/user/bin/python3# -*- coding:utf-8 -*-import requestsimport refrom urllib import requestdef get_picture_list(keyword, biggest_pages): all_picture_list = [] for page in range(bigges...
2020-03-20 09:00:46
196
原创 请求头列表
USER_AGENT_LIST=[ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTM...
2020-03-20 08:56:28
434
原创 爬虫-获取百度图片壁纸保存至本地
# !/user/bin/python3# -*- coding:utf-8 -*-import requestsimport osimport re # 使用正则表达式def getManyPages(keyword, pages): params=[] # 分页请求地址拼接 每页显示60个图片 for i in range(0, 30*pages+30,...
2020-03-17 20:49:27
395
原创 使用xlwings操作excel大全--最新
xlwings 操作exceldef open(filename=None,visible=False, readonly=False,password=None,write_password=None):#filename 文件路径,打开,没有文件名则创建#visible 打开是否可见#readonly 是否打开只读#password 文件读取密码#write_passwo...
2020-02-28 17:02:07
10767
原创 python pdf 转换成txt,csv,doc 及doc转换为pdf初级
pdf,搜索相关路径下pdf文档,把pdf文档移动到指定的路径下,再对该路径下的pdf文档进行转换缺点:无法转换带有图片的pdf文档,转换后的文档格式问题安装相应的库1)pip install pdfminer3k 是pdfminer的Python 3端口2)安装docx库pip install python_docx使用了os.walk对特定路径下的pdf文档进行查找,并对该文...
2020-02-14 12:45:33
614
转载 Python--Excel操作模块xlwings
xlwings说到Python操作Excel,有好多模块都可以支持这个工作。比如最底层的win32模块不仅可以操作Excel,还可以操作其他一众windows的软件。其他的比较熟悉的有xlrd,xlwt和xlutils这三个。分别负责Excel文件的读、写、读写转换工作。虽然一般情况下的Excel操作都可以通过这三个模块来完成,但是还是有很多不便的地方。比如单元格格式的写入和读取很麻烦,通过x...
2020-02-13 20:38:29
1340
转载 Python菜鸟之路: 封装通用excel操作
1.python用于excel操作的就是xlrd,xlwt两个模块,分别是负责读/写2.封装一个excel操作的类,支持读/写操作,定义数据格式,方便读/写# -*- coding: utf-8 -*-'this is xls util'import xlrdimport xlwtclass xlsUtil: def read(self, path): ''...
2020-02-12 08:26:07
967
原创 RPC远程过程调用简介
1. 什么是RPC远程过程调用(英语:Remote Procedure Call,缩写为 RPC,也叫远程程序调用)是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序,而程序员无需额外地为这个交互作用编程。如果涉及的软件采用面向对象编程,那么远程过程调用亦可称作远程调用或远程方法调用。2. 背景与用途在单台计算机中,我们可以通过程序调用来传递控制和数据;或者说通...
2019-08-22 19:57:37
1409
原创 redis高可用,持久化存储,哨兵机制,watch监视
1 Redis事务基本事务指令Redis提供了一定的事务支持,可以保证一组操作原子执行不被打断,但是如果执行中出现错误,事务不能回滚,Redis未提供回滚支持。multi 开启事务exec 执行事务127.0.0.1:6379> multiOK127.0.0.1:6379> set a 100QUEUED127.0.0.1:6379> set b 200Q...
2019-08-20 17:56:22
334
原创 分布式ID
方案选择UUIDUUID是通用唯一识别码(Universally Unique Identifier)的缩写,开放软件基金会(OSF)规范定义了包括网卡MAC地址、时间戳、名字空间(Namespace)、随机或伪随机数、时序等元素。利用这些元素来生成UUID。UUID是由128位二进制组成,一般转换成十六进制,然后用String表示。550e8400-e29b-41d4-a716-4...
2019-08-19 19:38:46
685
原创 复制集和分布式,MYSQL的分库分表和读写分离对事务影响的问题
数据库理论1. 复制集与分布式复制集(Replication)数据库中数据相同,起到备份作用高可用 High Available HA分布式(Distribution)数据库中数据不同,共同组成完整的数据集合通常每个节点被称为一个分片(shard)高吞吐 High Throughput复制集与分布式可以单独使用,也可以组合使用(即每个分片都组建一个复制集)关于主...
2019-08-19 18:55:51
1029
原创 关于数据库搜索引擎的总结
MySQL数据库引擎数据库存储引擎是数据库底层软件组织,数据库管理系统(DBMS)使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能,使用不同的存储引擎,还可以 获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。MySQL的核心就是存储引擎。SHOW ENGINES # 命令来查看MySQL提供的引擎SHOW VAR...
2019-08-19 12:50:05
666
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人