- 博客(21)
- 收藏
- 关注
原创 python中pip下载第三方库镜像源问题
在使用pip install -i https://mirrors.aliyun.com/pypi/simple/ 命令安装包时报错。
2024-05-06 13:50:54
208
1
原创 python中的str类型的list转化&两层list类型数据的过滤
【代码】python中的str类型的list转化&两层list类型数据的过滤。
2024-04-13 13:31:13
192
1
原创 Python爬虫多线程爬取
仅作参考仅使用threadpool库:task_pool = threadpool.ThreadPool(50)#开50个线程 requests = threadpool.makeRequests(self.threading_thread, self.list_all)#self.threading_thread为请求代码所在函数,self.list_all所传参数,不支持元组类型 # print(requests) for req in req
2022-01-19 16:04:32
447
原创 python中selenium填写select框
from selenium.webdriver.support.select import Select先找到select框的位置,我这里使用css选择器定位ji=self.driver.find_element_by_css_selector('#sm_code')Select(ji).select_by_visible_text(date04)date04是我需要填写到select框中的数据...
2021-12-28 10:05:41
491
原创 python中对excel表格数据的修改,插入,删除,获取
修改:xlrd库与xlutils库结合import xlrdfrom xlutils.copy import copydef oop1(): work = xlrd.open_workbook("ceshishujvku.xlsx") old_cibtent=copy(work) ws=old_cibtent.get_sheet(0) ws.write(2,1,'jimclear')#第2列第1行 old_cibtent.save("jim.xlsx")
2021-10-13 12:10:58
2117
原创 python爬虫单一的py文件打包
1,下载pyinstaller库2,在需要打包的py文件同级目录执行pyinstaller -F 测试2.py#测试2.py是需要打包的py文件3,最后在需要打包的同级目录生成dist文件夹,可执行文件就在其中。
2021-10-09 14:23:54
278
原创 python中scrapy框架使用flask框架编写api接口
1在scrapy框架中编写api接口:在与setting.py同级处新建api.py,在该api.py中编写一下代码from flask import Flaskimport osapp = Flask(__name__)@app.route('/asin')#浏览器接口路径def index(): print('正在执行爬虫项目!!!') os.system('scrapy crawl fk')#fk需要执行的py文件 return '爬虫项目执行完毕!!!'
2021-09-28 11:07:37
995
1
原创 mysql数据库中查找重复数据
select str1,str2,count(*) as count from table group by str1,str2 having count>1;#str1 ,str2是table表中的字段#根据str1,str2为条件来进行查找重复数据
2021-09-24 10:20:02
624
原创 linux中scp远程传输文件
scp asin_new.zip root@14.30.1.46:/opt/#asin_new.zip 是需要传输的文件#root是账户#14.30.1.46是目标IP#opt是目标下的目录
2021-09-24 09:13:37
155
原创 Linux中查看全部日志,python任务的执行线程
查看全部日志:tail -f 日志文件名python任务的执行线程: ps -ef|grep python让python任务在服务器后台运行:jim.log是日志文件nohup python3 run.py > jim.log &
2021-09-08 14:45:19
407
1
原创 python scrapy框架中如何提升爬虫获取数据效率
修改setting.py中的一些线程参数配置,# Configure maximum concurrent requests performed by Scrapy (default: 16)CONCURRENT_REQUESTS = 100# Configure a delay for requests for the same website (default: 0)# See https://docs.scrapy.org/en/latest/topics/settings.html#d
2021-09-07 16:21:34
171
原创 python scrapy框架中如何提升数据操作数据库的效率
第一步:建立数据库连接池import pymysqlfrom twisted.enterprise import adbapi# 异步更新操作class MySQLPipeline(object): def __init__(self, dbpool): self.dbpool = dbpool @classmethod def from_settings(cls, settings): # 函数名固定,会被scrapy调用,直
2021-09-07 10:56:24
295
原创 selenium打不开google的问题
在https://npm.taobao.org/mirrors/chromedriver/中找到尽可能与本机上的google版本一致的chromedriver.exe,并下载,最后将其移动到pycharm的虚拟环境中,如下图和google的安装位置中,如下图然后重新执行selenium代码即可。...
2021-08-03 09:28:00
688
原创 from pymouse import PyMouse,PyMouse报错问题
在pymouse库的初始化方法中第92行的from windows import PyMouse,PyMouseEvent改为from pymouse.windows import PyMouse,PyMouseEvent即可。
2021-06-29 15:00:20
4323
4
原创 scrapy框架的定时调度
import timeimport datetimefrom scrapy import cmdlinedef doSth(): # 把爬虫程序放在这个类里 sik是爬虫的name cmdline.execute('scrapy crawl sik'.split())# 想几点更新,定时到几点def time_ti(h=8, m=50): while True: now = datetime.datetime.now() # print(now.hour, now.m.
2021-06-11 09:03:41
451
原创 scrapy框架中数据缺失问题
yield中,在Request方法里,提供了dont_filter参数,设置在Request中,并改成True以回避过滤策略
2021-05-28 14:20:48
618
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人