
Python
文章平均质量分 51
啊啊平
这个作者很懒,什么都没留下…
展开
-
服务器搭建本地局域网下载文件(sz下载大文件总是出问题)
sz 大文件的时候传到一半中断不传输1)进入到文件目录(该目录将成为根目录)2) 执行python -m SimpleHTTPServer,获取端口号,一般port是8000。如果想更改端口号,直接在后面加端口号就可以。比如想更改为8888,则起服务命令为python -m SimpleHTTPServer 8888如果是Python3,那么该步骤换为 python -m http.server 80003) 在浏览器中输入ip:port ,ip要用服务器的IP而不是python返回的IP:PORT原创 2020-06-23 11:26:58 · 1371 阅读 · 0 评论 -
python打断外层for循环
for i in range(10): print("i = {0}".format(i)) for j in range(10): print("j = {0}".format(j)) if i > 3 and j > 5: break else: continue break...原创 2020-01-21 10:05:38 · 1205 阅读 · 0 评论 -
python实现Bert文本分类
.# coding=utf-8# Copyright 2018 The Google AI Language Team Authors.## Licensed under the Apache License, Version 2.0 (the "License");# you may not use this file except in compliance with the L...原创 2019-11-15 11:54:00 · 5157 阅读 · 1 评论 -
python-用Tensorflow构建卷积神经网络图像分类
环境:python3.6版本 + TensorFlow 1.6版本import osfrom PIL import Imageimport numpy as npimport tensorflow as tfdata_dir = r'E://data/data' # 数据文件夹train = True # 训练还是测试model_path = "model/image_...原创 2019-10-29 20:42:05 · 5852 阅读 · 1 评论 -
获取网页某个元素坐标的方法
用python的selenium写爬虫通过绝对坐标点击,坐标的获取方法(谷歌浏览器):网页F12打开源代码,在console窗口输入document.querySelectorAll('css选择器')[0].getBoundingClientRect().left + document.documentElement.scrollLeftdocument.querySelectorAl...原创 2019-10-24 15:07:46 · 16575 阅读 · 1 评论 -
Python3爬虫实现批量获取国家区号
话不多说直接上代码。。#coding: utf-8import reimport urllibfrom urllib import requestfrom urllib.parse import quoteimport pandas as pdimport stringimport timeydylCountry = pd.read_csv(r'F://data_temp...原创 2019-02-17 18:36:08 · 4480 阅读 · 0 评论 -
Python3实现计算文本相似度(查重机制)
使用Python3中jieba包进行分词,整理为指定格式,gensim库将要对比的文档通过doc2bow转化为稀疏向量,再通过models中的tf-idf将语料库进行处理,特征值和稀疏矩阵相似度建立索引,最后的到相似度结果。以下是代码实现:# -*- coding: utf-8 -*-"""@author: zjpPython3.6.6"""import jiebafrom...原创 2018-08-31 10:47:27 · 35351 阅读 · 0 评论 -
Python3实现WiFi密码暴力破解
注:可行性不高,和那些暴力破解WiFi的软件差不多,可能等个几个钟都没破解完,纯属娱乐(万一运气好呢哈哈)需要安装的扩展包 pywifi,依赖包:comtypes以下是源代码:import time import pywififrom pywifi import const from asyncio.tasks import sleepclass PoJie(): ...原创 2019-02-18 15:46:36 · 14282 阅读 · 6 评论 -
Python实现GBDT(参数介绍;调用;调参)
GBDT(Gradient Boosting Decision Tree),每一次建立树模型是在之前建立模型损失函数的梯度下降方向,即利用了损失函数的负梯度在当前模型的值作为回归问题提升树算法的残差近似值,去拟合一个回归树。GBDT应用有回归和分类:GBDT分类每一颗树拟合当前整个模型的损失函数的负梯度,构建新的树加到当前模型中形成新模型,下一棵树拟合新模型的损失函数的负梯度;GBDT回归每一颗树...原创 2019-02-28 14:23:57 · 10339 阅读 · 0 评论 -
Python3进行中文文章分词实现词云图与TOP词频统计
工具:Python 3一下是代码,实现对docx文件的中文文章分词以及作词云图、TOP词频统计import docximport jiebafrom scipy.misc import imreadimport numpy as npimport matplotlibimport matplotlib.pyplot as pltfrom matplotlib import f...原创 2019-02-20 09:54:15 · 9368 阅读 · 8 评论 -
Python实现自动化报表
说是用Python实现自动化报表读,其实关键点也就是Python的读写excel常用的包及功能常用的包:xlwt(对Excel只能进行只写操作);xrrd(对Excel只能进行只读操作)# -*- coding : utf-8 -*- import xlwt # 写xlsimport xlrd # 读xlsfrom xlutils.copy import copyfile_...原创 2019-01-20 00:16:41 · 9168 阅读 · 0 评论 -
Python-线性回归模型预测绝地求生玩家排名
比赛官网:Kaggle绝地求生数据集比赛描述:在PUBG游戏(绝地求生)中,每场比赛最多有100名玩家,玩家可以在团队上根据有多少其他团队在被淘汰时还活着而在游戏结束时排名。在游戏中,玩家可以获得不同的弹药,恢复被击倒但未被击杀的队友,驾驶车辆,游泳,跑步,射击等等。官网给的数据集包含大量匿名的PUBG游戏统计数据,数据格式为每行包含一个玩家的赛后统计数据。数据来自所有类型的比赛:单排,双...原创 2019-03-25 21:55:41 · 7442 阅读 · 2 评论 -
GBDT 和 Random Forest 热度为什么一直那么高?
这是一个非常好,也非常值得思考的问题。换一个方式来问这个问题:为什么基于 tree-ensemble 的机器学习方法,在实际的 kaggle 比赛中效果非常好?=通常,解释一个机器学习模型的表现是一件很复杂事情,而这篇文章尽可能用最直观的方式来解释这一问题。我主要从三个方面来回答这个问题:理论模型 (站在 vc-dimension 的角度);实际数据;系统的实现 (主要基于 x...原创 2019-01-17 17:34:38 · 3973 阅读 · 0 评论 -
Python之判断list是否为空
爬虫爬取的结果一般储存为list,有时候需要判断爬虫爬取到的结果是否为空,以进行下一步操作,以下是Python判断list是否为空的方法:1.通过len()list_test = []if len(list_test): print('list_test 为非空list') # 存在值即为Trueelse: print('list_test 为空list') # ...原创 2018-12-31 10:26:05 · 20497 阅读 · 0 评论 -
Python字符串格式化函数之format函数
自python2.6开始,新增了一种格式化字符串的函数str.format(),此函数可以快速处理各种字符串。通过{}和:来代替%。请看下面的示例,基本上总结了format函数在python的中所有用法:# 通过位置'{0},{1}'.format('aa', 2.2) # {}内的序号为format()参数对应的序号,# a,20'{},{}'.format('aa', 2.2...原创 2018-11-14 17:52:55 · 7344 阅读 · 0 评论 -
Python爬虫三种核心方法之三:Beautifulsoup
Beautifulsoup原创 2018-12-14 16:27:14 · 7643 阅读 · 0 评论 -
Python爬虫三种核心方法之二:正则
正则原创 2018-12-14 16:26:12 · 7430 阅读 · 0 评论 -
Python实现Xgboost模型
1.下载xgboost包文件:https://www.lfd.uci.edu/~gohlke/pythonlibs/#xgboost2.安装xgboost包:命令管理器输入 pip installG:\GoogleDownload\xgboost-0.82-cp36-cp36m-win_amd64.whl3.xgboost优点:优点:(1)正则化:XGBoost在代价函数里加入了正则...原创 2019-02-26 14:11:19 · 11414 阅读 · 1 评论 -
Python图像识别验证码处理之opencv切割验证码
切割验证码 >> 标注验证码 >> 训练模型 >> 识别验证码'''opencv做图像处理,所以需要安装下面两个库pip3 install opencv-python'''import cv2import matplotlib.pyplot as pltimport timeimport numpy as npimport pandas...原创 2019-03-03 15:42:48 · 5966 阅读 · 0 评论 -
Python之Selenium无头浏览器爬虫
.Selenium(浏览器自动化测试框架) 是一个用于Web应用程序测试的工具。Selenium测试直接运行在浏览器中,就像真正的用户在操作一样。框架底层使用JavaScript模拟真实用户对浏览器进行操作。Python需安装selenium包,以及下载浏览器对应的驱动,Chrome驱动文件下载(win统一下载32位的):chromedriver下载后把chromedriver放在Pyth...原创 2019-03-09 09:38:52 · 4459 阅读 · 0 评论 -
Python 网页开发- Django 学习笔记
1.安装djangopip install django 或者是通过 “==”符号指定版本号2.创建一个Django项目django-admin startproject projectname(Django旧版本指令django-admin createproject projectname已移除)3.Django项目中的文件manage.py 管理网站的配置文件,setti...原创 2019-06-17 10:05:21 · 360 阅读 · 0 评论 -
Excel破解工作表编辑保护密码
首先录制个空宏,然后编辑该宏,清空宏内容,输入以下内容:这个是用于Excel 2013 的宏,亲测有效,其他版本不一定有效;Public Sub 工作表保护密码破解() Const DBLSPACE As String = vbNewLine & vbNewLine Const AUTHORS As String = DBLSPACE & vbNewLine &a...原创 2019-06-20 17:26:53 · 3913 阅读 · 0 评论 -
Python 安装cv2包出错
命令行输入 pip install cv2 时报错ERROR: Could not find a version that satisfies the requirement cv2 (from versions: none)ERROR: No matching distribution found for cv2原因是CV2在的软件包不叫cv2而是叫opencv-python命令换成...原创 2019-06-01 18:13:32 · 8049 阅读 · 2 评论 -
Python实现文件批量处理批量合并文件
import osfileFolderPath = 'F://data2/parts'fileNames = os.listdir(fileFolderPath)fileDataAll = []n = 0for fileName in fileNames: filepath = r'{0}/{1}'.format(fileFolderPath, fileName) f...原创 2019-05-31 09:22:58 · 4421 阅读 · 0 评论 -
Python对同一函数不同参数实现多线程操作
此方法用于爬虫效果极优import threadingimport timedef testa(n): while True: time.sleep(1) print(n)#先隔出一秒打印出a,再过一秒打出bts = []for i in range(5): exec('t{0} = threading.Thread(target=testa,args=(i,))...原创 2019-05-30 15:15:21 · 7135 阅读 · 0 评论 -
记录Python条件判断if语句的一个问题
nbrList1=[]if nbrList1: print('gg')if nbrList1 and 5 < len(nbrList1[0][0]) < 30: print('gg')if 5 < len(nbrList1[0][0]) < 30: print('gg')Traceback (most recent call last):...原创 2019-04-25 12:34:37 · 4017 阅读 · 0 评论 -
Python修改i是否会对range()循环产生影响
a = 2for i in range(10): print('原来的i {0}'.format(i)) if a < 3: i -= 1 print('后面的i {0}'.format(i))原来的i 0后面的i -1原来的i 1后面的i 0原来的i 2后面的i 1原来的i 3后面的i 2原来的i 4后面的i 3...原创 2019-04-26 10:00:01 · 4523 阅读 · 0 评论 -
python 实现 kill 电脑系统当前进程
.先在cmd窗口输入tasklist查看当前进程列表,找到要kill的进程名,比如要kill谷歌浏览器:这里可以看到谷歌浏览器的进程名: chrome.exe然后在python窗口输入以下代码:import osos.system('taskkill /T /F /IM chrome.exe') # 关闭谷歌浏览器,防止内存不足/T 杀掉进程及子进程/F 强制ki...原创 2019-04-15 21:20:22 · 4238 阅读 · 0 评论 -
Python爬虫突破某360查询网站反爬验证码
某360查询网址同一ip频繁访问的话会弹出验证码,该验证码特点:get获取的验证码图片和网页展现的不一致(所以无法通过图像识别破解);该验证码是针对ip,输入验证码后会给出一个大概一天有效期的cookie,在此阶段可以大量频繁访问了。获取cookie:谷歌浏览器(输入验证码之后) >>F12 >>Application(Network右边)>>Coo...原创 2019-04-11 00:24:34 · 6531 阅读 · 1 评论 -
python包安装失败以及pip更新失败解决方法
.一、网络原因安装失败抛出错误timeouterror使用镜像网址更新pip:python -m pip install --upgrade pip -i http://pypi.douban.com/simple --trusted-host pypi.douban.com使用镜像网址安装扩展包:pip install -i http://pypi.douban.com/simp...原创 2019-03-06 22:33:43 · 5012 阅读 · 0 评论 -
Python随机森林模型RandomForestClassifier参数说明
A. max_features:随机森林允许单个决策树使用特征的最大数量。 Python为最大特征数提供了多个可选项。 下面是其中的几个:Auto/None :简单地选取所有特征,每颗树都可以利用他们。这种情况下,每颗树都没有任何的限制。sqrt :此选项是每颗子树可以利用总特征数的平方根个。 例如,如果变量(特征)的总数是100,所以每颗子树只能取其中的10个。“log2”是另一种相...原创 2018-12-07 11:39:46 · 24935 阅读 · 3 评论 -
Python爬虫三种核心方法之一:Xpath
一、Xpath语法与lxml库XPath 是一门在 XML 文档中查找信息的语言。XPath 可用来在 XML 文档中对元素和属性进行遍历。XPath 是 W3C XSLT 标准的主要元素,并且 XQuery 和 XPointer 都构建于 XPath 表达之上。节点关系<bookstore> <book> <title>Harry P...原创 2018-12-14 14:12:22 · 7499 阅读 · 0 评论 -
python-数据分析之pandas常用函数代码详解
# -*- coding:utf-8 -*-import pandas as pd# 读入 CSV 数据集pd.DataFrame.from_csv('csv_file')pd.read_csv('csv_file')# 读入 Excel 数据集pd.read_excel("excel_file")# 直接把数据写入CSV, 如数据以逗号分隔,且没有索引:df.to_cs...原创 2018-09-05 13:41:34 · 25683 阅读 · 0 评论 -
Python使用自带的matplotlib.pyplot包遇到的问题
错误:ModuleNotFoundError: No module named 'matplotlib.pyplot'; 'matplotlib' is not a package一开始也是百思不解,后来仔细排查原因才知道是因为该目录下存在matplotlib.py脚本文件,删除或者重命名即可顺便提一下这个包的基础使用方法:...原创 2018-09-04 20:05:09 · 26878 阅读 · 2 评论 -
利用Python处理数据集的缺失值
knn,移动平均,众数,平均数,模型插值等都是缺失值的处理方法原创 2018-08-09 10:28:24 · 36943 阅读 · 0 评论 -
Python简单爬虫入门-爬取链家租房网上的租房信息
.又到了毕业季,租房成为广大毕业生关注的话题,考虑到只用到广州的租房信息,所以只爬取广州各个地区的租房信息,下面是用Python3.4.4编写简单爬虫爬取租房网信息的代码:#coding:utf-8import requests import reimport randomfrom bs4 import BeautifulSoup useragents = [ ...原创 2018-07-30 00:23:23 · 36151 阅读 · 0 评论 -
Python3-常用基础函数及用法
python的document帮助对于Python学习者其实挺大的,在这里不得不提必备的help()函数:# 内建函数直接使用help(functionName)help(input) # right# 内建函数参考 https://www.runoob.com/python/python-built-in-functions.html# 其他模块的方法help(append)...原创 2018-07-29 14:41:22 · 34860 阅读 · 0 评论 -
Python中常见字符串去除字符串空格的方法
replace()方法,可以去除全部空格;strip()方法,去除字符串开头或者结尾的空格;rstrip()方法,去除字符串结尾的空格;lstrip()方法,去除字符串开头的空格;join()方法+split()方法,可以去除全部空格; ...原创 2018-08-24 14:11:18 · 38942 阅读 · 0 评论 -
Python实用异常处理代码try...except...pass的详细用法介绍
try 和 except 一般是在一段语句中搭配使用,用于对某代码块捕捉异常,并且可返回易于理解的异常文件说明。pass不建议使用会导致错失错误信息try: a = 1 b = 'good' + 1except TypeError: print('类型错误')常见异常类型及描述:BaseException 所有异常的基类SystemExit 解释器请求退...原创 2018-08-21 13:23:37 · 41350 阅读 · 0 评论 -
Python错误:PermissionError: [Errno 13] Permission denied 如何解决
导致原因:py脚本在往csv文件写入数据时手动打开了文件导致写入终止。原创 2018-08-31 10:49:50 · 70217 阅读 · 9 评论