python小白努力中-优快云博客

原创 selenium启动IE浏览器报错解决方式

1-下载对应版本的IEDriverServer.exe程序，放入"C:\Program Files\Internet Explore"文件夹下2-修改ie浏览器中Internet选项，如下图

2021-08-12 11:22:31 976

原创 python清空文件夹

import osimport shutildef RemoveDir(filepath):‘’’如果文件夹不存在就创建，如果文件存在就清空！'''if not os.path.exists(filepath): os.mkdir(filepath)else: shutil.rmtree(filepath) os.mkdir(filepath)

2021-07-31 15:20:50 1104

隐形等待是设置了一个最长等待时间，如果在规定时间内网页加载完成，则执行下一步，否则一直等到时间截止，然后执行下一步。注意这里有一个弊端，那就是程序会一直等待整个页面加载完成，也就是一般情况下你看到浏览器标签栏那个小圈不再转，才会执行下一步，但有时候页面想要的元素早就在加载完成了，但是因为个别js之类的东西特别慢，我仍得等到页面全部完成才能执行下一步，我想等我要的元素出来之后就下一步怎么办？有办法，这就要看selenium提供的另一种等待方式——显性等待wait了显性等待WebDriverWait，配合

2021-07-30 16:22:03 1402

原创将文件夹下所有excel写入同一个excel多个sheet

import xlrd,xlwtimport os,shutilfrom xutils.copy import copydef get_all_excel(path): # 获取当前路径下所有excel # 返回al1_excel 是excel路径，all_name 是所有excel名字 folder = os.walk(path) folder = list(folder) al1_name = [i.split('.')[0] for i in folde

2021-05-11 16:52:52 1246 3

原创修改当前路径下所有excel进行重命名

import osimport xlrddef to_rename_excel(dir): list_excel=[]#获取文件夹下所有excel for root_din, sub_dir, files in os.walk(dir): for file in files: if file.endswith('.xlsx')or file.endswith('.xls'): # 判面当前路径下只要是,x1s和,xlsx结尾的

2021-05-11 16:30:09 221

原创 python时间块处理（季度第一天，季度最后一天，本月第一天，本月最后一天，本年第一天，本年最后一天，随机给日期获取想要结果）

"""通过datetime和dateutil进行常用日期的获取如：今年，去年，明年当前季度本月，上月，去年同期，今年一月今天，昨天，明天，本周、本月、本季度、本年第一天，本周、本月、本季度、本年最后一天""" import datetime # 获取常用特定日期（如去年/季度/当月/本周/首日/） # =======================================# 关于年（今年，去年，明年）# ==============================.

2021-05-11 16:09:21 3121 1

原创实用pandas合并多个excel的多个sheet为一个文件

import pandas as pdimport ospath = r'C:\files' #指定文件夹路径wj_List = list(os.walk(path))[0][2] #所有子文件名xls_file = pd.ExcelFile(path+'\\'+wj_List[0])sheet_names = xls_file.sheet_names #获取excel文件的所有sheet名writer = pd.ExcelWriter(path+'\\'+'re

2021-05-08 15:30:34 969

原创 python 统计数据出现的频率

words_cnt = {}with open(‘test.txt’, ) as f:lines = f.readlines()for line in lines:line = line.replace(’,’, ’ ‘).lower() # 逗号都用英文状态的words = line.strip().split(’ ') # 括号里面的单引号里有空格for word in words:words_cnt[word] = words_cnt.get(word, 0) + 1words_l

2021-03-24 09:48:08 967

原创 GBDT和XGB和Adaboost面试汇总

文章目录1. xgboost相比传统gbdt有何不同？2. xgboost为什么快？3. xgboost如何支持并行？4. 随机森林是怎样改变决策树容易过拟合的问题的？5. RF与GBDT之间的区别与联系？6. XGBoost怎么给特征评分？7. 怎么理解决策树、xgboost能处理缺失值？而有的模型(svm)对缺失值比较敏感？8. 为什么XGBoost要用泰勒展开，优势在哪里？9. XGBoost如何寻找最优特征？是又放回还是无放回的呢？10. 请问GBDT和XGBoost的区别是什么

2020-12-30 16:19:06 253

原创 Spark 性能相关参数配置详解－任务调度篇

随着Spark的逐渐成熟完善, 越来越多的可配置参数被添加到Spark中来, 本文试图通过阐述这其中部分参数的工作原理和配置思路, 和大家一起探讨一下如何根据实际场合对Spark进行配置优化。由于篇幅较长，所以在这里分篇组织，如果要看最新完整的网页版内容，可以戳这里：http://spark-config.readthedocs.org/，主要是便于更新内容schedule调度相关调度相关的参数设置，大多数内容都很直白，其实无须过多的额外解释，不过基于这些参数的常用性（大概会是你针对自己的集群第一步就

2020-11-23 16:54:34 665

原创 docker build 指定dockerfile

docker build 指定dockerfileDockerfile文件使用docker build命令会根据Dockerfile文件及上下文构建新Docker镜像。构建上下文是指Dockerfile所在的本地路径或一个URL（Git仓库地址）。构建上下文环境会被递归处理，所以，构建所指定的路径还包括了子目录，而URL还包括了其中指定的子模块。构建镜像将当前目录做为构建上下文时，可以像下面这样使用docker build命令构建镜像：$ docker build .Sending buil

2020-11-17 14:34:09 3303

原创 16种常用的数据分析方法汇总

经常会有朋友问到一个朋友，数据分析常用的分析方法有哪些，我需要学习哪个等等之类的问题，今天数据分析精选给大家整理了十六种常用的数据分析方法，供大家参考学习。一、描述统计描述性统计是指运用制表和分类，图形以及计筠概括性数据来描述数据的集中趋势、离散趋势、偏度、峰度。1、缺失值填充：常用方法：剔除法、均值法、最小邻居法、比率回归法、决策树法。2、正态性检验：很多统计方法都要求数值服从或近似服从正态分布，所以之前需要进行正态性检验。常用方法：非参数检验的K-量检验、P-P图、Q-Q图、W检验、动差法。二

2020-09-23 10:52:33 3428

原创 java调用python文件

from sys import argvdef run(a,b): print(a+b) return a+brun(argv[1],argv[2])java调用文件时，三个参数，1–文件名.py,2–a参数，3–b参数

2020-09-01 09:37:53 189

原创 xgboost算法API（回归，分类）

安装xgboost之后，使用import引入即可使用其中、xgboost模块的XGBClassifier类是解决分类问题、XGBRegressor类是解决回归问题。xgboost.XGBClassifier(max_depth=3,learning_rate=0.1,n_estimators=100,silent=True,objective=‘binary:logistic’,booster=‘gbtree’,n_jobs=1,nthread=None,gamma=0,min_child_we.

2020-09-01 09:34:46 1658

原创 python 打包带传参的 .exe 文件一些经验教训

最近一直在做一个python 工具，当所有的程序代码都完成后，只剩下最后一步，打包成.exe文件。一开始并不是很重视这块内容，毕竟代码部分已经完成，打包还不简单么？但是随着工作的进行，问题层出不穷，一环套一环，我才发现此事必有蹊跷。下面我将总结我遇到的几个问题并逐一写下我是如何解决的。1. 版本问题 2.库函数的调用 3. 传递参数问题一. 版本问题首先我们要保证一个事情，python环境一定要一致，我采用的spyder的python环境是3.6而windows下是2.7，这样，编包的时候会出现很多奇奇

2020-08-20 17:12:58 760

原创 pandas.errors.ParserError: Error tokenizing data. C error: Expected 1 fields in line 3, saw 2解决办法

在使用pandas读取csv文件时报以上错误，解决办法，如下：pd.read_csv(filename,error_bad_lines=False)跳过错误行加上error_bad_lines=False就可以完美解决了。。。

2020-08-20 13:58:44 11173

原创 XGboost代码实战

#! /usr/bin/python import numpy as np import xgboost as xgb # label need to be 0 to num_class -1 # if col 33 is '?' let it be 1 else 0, col 34 substract 1 data = np.loadtxt('./dermatology.data', delimiter=',',conve...

2020-08-20 10:38:42 299

原创调用python脚本接口编写

# coding=utf-8import jsonimport timefrom utils.concurrent_utils import extract_many, model_manyfrom utils.base_util import uncompress_ocr_result, get_text_linesfrom utils.dynamic_anchor_log import ta_logfrom utils.process_util import process_text_li

2020-08-03 17:08:15 428

原创简单的python脚本变http接口

<strong># flask demofrom flask import Flask, request app = Flask(__name__) # http://127.0.0.1:8080@app.route('/')def index(): return 'Hello World' # http://127.0.0.1:8080?p1=aaa@app.route('/test1', methods=['POST', 'GET'])def test1()

2020-08-03 17:06:16 790 1

原创 xlrd读取excel文件SDK

import xlrdfrom xlrd import xldate_as_tupleimport datetime'''xlrd中单元格的数据类型数字一律按浮点型输出，日期输出成一串小数，布尔型输出0或1，所以我们必须在程序中做判断处理转换成我们想要的数据类型0 empty,1 string, 2 number, 3 date, 4 boolean, 5 error'''class ExcelData(): # 初始化方法 def __init__(self, data_

2020-07-31 17:23:21 223

原创 jupyter notebook的安装及使用,快捷键

打开在pycharm的终端处安装jupyterpip install jupyter打开jupyter方式终端输入jupyter notebook启动后没有文件，则尝试降低安装jupyter版本pip install jupyter notebook==5.7.4jupyter的快捷键使用Jupyter Notebook 有两种键盘输入模式。编辑模式，允许你往单元中键入代码或文本；这时的单元框线是绿色的。命令模式，键盘输入运行程序命令；这时的单元框线是灰色。命令模式 (按键 E

2020-07-03 09:50:37 298

原创 python中报错 json.decoder.JSONDecodeError: Expecting value:的解决

在学习python语言中用json库解析网络数据时，我遇到了两个编译错误：json.decoder.JSONDecodeError: Expecting property name enclosed in double quotes:和json.decoder.JSONDecodeError: Expecting value:。费了一些时间才找到原因，在此记录总结，希望能对学习python的同学有所帮助。我运行的程序初始如下：import jsondata='''{'name'

2020-06-30 11:13:16 49631

原创 pandas的基本使用

一、生成数据表1、首先导入pandas库，一般都会用到numpy库，所以我们先导入备用：import numpy as npimport pandas as pd2、导入CSV或者xlsx文件：df = pd.DataFrame(pd.read_csv(‘name.csv’,header=1)) df =pd.DataFrame(pd.read_excel(‘name.xlsx’))或者import pandas as pd from collectionsimport name

2020-06-23 10:17:13 353

原创 12306验证码

# ！user/bin/env python3# -*-coding: utf-8 -*-__author__ = '闻名'from selenium import webdriverfrom selenium.webdriver.support.ui import WebDriverWaitfrom selenium.webdriver.support import expected_conditions as ECfrom selenium.webdriver.common.by impo

2020-05-26 13:57:28 450

原创处理excel写入的问题

file = open(r'国产注册.txt','r', encoding='ISO-8859-1')data = file.read()content = eval(data)print(len(content))import xlwtwookbook = xlwt.Workbook(encoding='utf-8')wooksheet = wookbook.add_sheet('sheet')title = ['注册证编号', '注册人名称', '注册人住所 ', '生产地址 ', .

2020-05-18 16:24:08 262

原创医脉通数据爬取 http://disease.medlive.cn

import requestsimport timefrom lxml import etreeimport reimport xlwtimport randomimport xlrdfrom multiprocessing import Processclass Yimaitong(): def __init__(self): # 请求的url self.url = 'http://disease.medlive.cn/wiki/list/1.

2020-05-18 16:08:09 1249

原创爬取豆瓣读书排行

import requests # 获取网页数据from bs4 import BeautifulSoup # 解析网页数据import time # 设置爬虫等待时间import xlwt# 获取豆瓣网址并解析数据def get_douban_books(url, num): headers = { 'user-agent': 'Mozilla/5.0...

2020-03-20 16:21:46 665

原创爬取百度贴吧所有数据

# ！/user/bin/python3# -*- coding:utf-8 -*-import requestsfrom lxml import etreeclass Tiebasprite(): def __init__(self, tieba_name): self.tieba_name = tieba_name self.post_url ...

2020-03-20 10:08:07 1425

原创爬取百度图片

# ！/user/bin/python3# -*- coding:utf-8 -*-import requestsimport refrom urllib import requestdef get_picture_list(keyword, biggest_pages): all_picture_list = [] for page in range(bigges...

2020-03-20 09:00:46 225

原创请求头列表

USER_AGENT_LIST=[ "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML, like Gecko) Chrome/22.0.1207.1 Safari/537.1", "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTM...

2020-03-20 08:56:28 513

原创爬虫-获取百度图片壁纸保存至本地

# ！/user/bin/python3# -*- coding:utf-8 -*-import requestsimport osimport re # 使用正则表达式def getManyPages(keyword, pages): params=[] # 分页请求地址拼接每页显示60个图片 for i in range(0, 30*pages+30,...

2020-03-17 20:49:27 429

原创使用xlwings操作excel大全--最新

xlwings 操作exceldef open(filename=None,visible=False, readonly=False,password=None,write_password=None):#filename 文件路径，打开,没有文件名则创建#visible 打开是否可见#readonly 是否打开只读#password 文件读取密码#write_passwo...

2020-02-28 17:02:07 10975

原创 python pdf 转换成txt,csv，doc 及doc转换为pdf初级

pdf，搜索相关路径下pdf文档，把pdf文档移动到指定的路径下，再对该路径下的pdf文档进行转换缺点：无法转换带有图片的pdf文档，转换后的文档格式问题安装相应的库1）pip install pdfminer3k 是pdfminer的Python 3端口2）安装docx库pip install python_docx使用了os.walk对特定路径下的pdf文档进行查找，并对该文...

2020-02-14 12:45:33 663

转载 Python--Excel操作模块xlwings

xlwings说到Python操作Excel，有好多模块都可以支持这个工作。比如最底层的win32模块不仅可以操作Excel，还可以操作其他一众windows的软件。其他的比较熟悉的有xlrd，xlwt和xlutils这三个。分别负责Excel文件的读、写、读写转换工作。虽然一般情况下的Excel操作都可以通过这三个模块来完成，但是还是有很多不便的地方。比如单元格格式的写入和读取很麻烦，通过x...

2020-02-13 20:38:29 1399

转载 Python菜鸟之路: 封装通用excel操作

1.python用于excel操作的就是xlrd,xlwt两个模块,分别是负责读/写2.封装一个excel操作的类,支持读/写操作,定义数据格式,方便读/写# -*- coding: utf-8 -*-'this is xls util'import xlrdimport xlwtclass xlsUtil: def read(self, path): ''...

2020-02-12 08:26:07 997

原创 RPC远程过程调用简介

1. 什么是RPC远程过程调用（英语：Remote Procedure Call，缩写为 RPC，也叫远程程序调用）是一个计算机通信协议。该协议允许运行于一台计算机的程序调用另一台计算机的子程序，而程序员无需额外地为这个交互作用编程。如果涉及的软件采用面向对象编程，那么远程过程调用亦可称作远程调用或远程方法调用。2. 背景与用途在单台计算机中，我们可以通过程序调用来传递控制和数据；或者说通...

2019-08-22 19:57:37 1456

原创 redis高可用，持久化存储，哨兵机制，watch监视

1 Redis事务基本事务指令Redis提供了一定的事务支持，可以保证一组操作原子执行不被打断，但是如果执行中出现错误，事务不能回滚，Redis未提供回滚支持。multi 开启事务exec 执行事务127.0.0.1:6379> multiOK127.0.0.1:6379> set a 100QUEUED127.0.0.1:6379> set b 200Q...

2019-08-20 17:56:22 358

原创分布式ID

方案选择UUIDUUID是通用唯一识别码（Universally Unique Identifier)的缩写，开放软件基金会(OSF)规范定义了包括网卡MAC地址、时间戳、名字空间（Namespace）、随机或伪随机数、时序等元素。利用这些元素来生成UUID。UUID是由128位二进制组成，一般转换成十六进制，然后用String表示。550e8400-e29b-41d4-a716-4...

2019-08-19 19:38:46 711

原创复制集和分布式，MYSQL的分库分表和读写分离对事务影响的问题

数据库理论1. 复制集与分布式复制集（Replication）数据库中数据相同，起到备份作用高可用 High Available HA分布式（Distribution）数据库中数据不同，共同组成完整的数据集合通常每个节点被称为一个分片（shard)高吞吐 High Throughput复制集与分布式可以单独使用，也可以组合使用（即每个分片都组建一个复制集）关于主...

2019-08-19 18:55:51 1054

原创关于数据库搜索引擎的总结

MySQL数据库引擎数据库存储引擎是数据库底层软件组织，数据库管理系统（DBMS）使用数据引擎进行创建、查询、更新和删除数据。不同的存储引擎提供不同的存储机制、索引技巧、锁定水平等功能，使用不同的存储引擎，还可以获得特定的功能。现在许多不同的数据库管理系统都支持多种不同的数据引擎。MySQL的核心就是存储引擎。SHOW ENGINES # 命令来查看MySQL提供的引擎SHOW VAR...

2019-08-19 12:50:05 685

空空如也

空空如也