
python
阿泽财商会
作品主页https://mbd.pub/o/m/azcsh,高级人工智能算法训练工程师,人工智能应用工程师,高级工程师,高级信息系统项目管理师,软件设计师,CSM敏捷教练,csdn20周年直播嘉宾,高级健康管理师,会计师。
清华大学出版社《MongoDB游记》数据库教程书作者。专注于人工智能,数据挖掘技术与大数据,云计算与存储等技术的学习与研究。擅长人工智能算法训练,系统响应式开发、数据采集数据清洗和数据分析,分布式云存储运算等技术。熟悉后台系统、云存储计算平台的搭建,擅长解决架构过程中遇到的疑难问题。常用开发语言:java、python、c#、perl、sql。
展开
-
遇到问题--AttributeError: Can only use .cat accessor with a ‘category‘ dtype
方法,这是分类数据类型的访问器,而不是字符串连接的方法。你应该使用字符串连接的方法来实现这个目标。类型的列进行操作,应使用与该数据类型对应的访问器或方法。例如,如果列是字符串类型,可以使用。错误通常在使用 Pandas 库时出现,特别是在尝试对非分类数据类型(错误,并正确处理 Pandas 数据框中的分类操作。转换为字符串类型,然后将它们连接起来,但你使用的是。运算符将两个字符串列连接起来,并将结果存储在新的。这样,可以正确地将两列字符串连接在一起,而不会触发。首先,确保你操作的列是。列转换为字符串类型。原创 2024-11-16 16:01:07 · 186 阅读 · 1 评论 -
遇到问题--AttributeError: Can only use .str accessor with string values
如果你确实需要对非字符串类型的列进行操作,应使用与该数据类型对应的访问器或方法。例如,如果列是数值类型,可以使用数值操作方法。错误通常在使用 Pandas 库时出现,特别是在尝试对非字符串类型的列应用字符串操作时。错误,并正确处理 Pandas 数据框中的字符串操作。如果列的数据类型不是字符串,可以将其转换为字符串类型。首先,确保你操作的列是字符串类型的。如果你尝试对非字符串类型的列使用。str需要修改为 astype(str)访问器只能用于字符串类型的列(即。属性来检查列的数据类型。原创 2024-11-16 15:43:20 · 286 阅读 · 0 评论 -
python--爬虫--selenium的简介和使用
selenium简介什么是seleniumselenium是一个Web的自动化测试工具,最初是为网站自动化测试而开发的,Selenium 可以直接运行在浏览器上,它支持所有主流的浏览器,可以接收指令,让浏览器自动加载页面,获取需要的数据,甚至页面截屏。而爬虫中使用它主要是为了解决requests无法执行javaScript代码的问题。selenium模块本质是通过驱动浏览器,完全模拟浏览器的操作,比如跳转、输入、点击、下拉等,来拿到网页渲染之后的结果,可支持多种浏览器;selenium爬虫称之为可视原创 2021-12-09 17:31:54 · 4973 阅读 · 0 评论 -
python----积累---使用传参的方式构造sql语句
使用pymsql查询数据如下:import pymysqlconn=pymysql.connect(host='123', port=3306, user=root', password='12345', database='school',原创 2021-08-09 18:46:57 · 1472 阅读 · 0 评论 -
遇到的问题---python---pandas新建空的dataframe报错dataframe type object ‘object‘ has no attribute ‘dtype‘
情况处理一些数据,需要新建一个dataframe,后续再新增数据进去,使用代码如下: df=pd.DataFrame(columns=['code', 'name']) for row in results: i= i+1 print(i) print("总数%s, 当前%s 编码%s" % (str(cursor.rowcount), str(i), row[0])) code = row[0] name =原创 2021-06-24 18:40:29 · 3618 阅读 · 2 评论 -
遇到的问题---python---urllib获取到response为空
情况雪球非鉴权api使用浏览器 可以直接访问到。使用python3.7模拟浏览器访问,代码如下:import urllib import urllib.request原创 2021-06-24 10:21:13 · 1043 阅读 · 0 评论 -
python----积累---python读取json文件
从mongodb中导出json的文件格式如下:{'_id': {'$oid': '60650d1031912300065a2536'}, 'date': {'$date': '2021-04-01T00:00:16.320Z'},'version': '3.22.0.0', 'network': 'cellular'}{'_id': {'$oid': '60650d1843556d0006bbc18a'}, 'date': {'$date': '2021-04-01T00:00:24.978Z'},'v原创 2021-05-07 16:35:29 · 357 阅读 · 1 评论 -
遇到问题--python--mongodb--pymongo--pymongo.errors.OperationFailure: $not cannot have a regex
情况我们有一个 正则匹配的mongodb查询,查询pic_label不包含有冒号的记录,如下:{"pic_label" : {"$not":/:/},"source":"guangxi"}需要转换成pymongo的查询语句来查询,直接对应翻译成pymongo的语句如下:def find_pic_structures(): pics = [] client = init_mongo_client() db = client['my_pic'] collection =原创 2020-12-24 15:47:33 · 1631 阅读 · 0 评论 -
遇到问题---python--web--aiohttp提供api服务--单个api访问时间过长时阻塞主线程
情况我们在 python–web–让python提供api服务–aiohttp 已经尝试了 使用python的aiohttp包搭建一个简单的web并提供http服务。我们有一个简单的方法如下:async def nowater(request): query = request.query type = query.get("type") id = query.get("id") source = query.get("source") try:原创 2020-12-22 10:31:07 · 643 阅读 · 1 评论 -
遇到问题--python--urllib.error.URLError:certificate verify failed: unable to get local issuer certificat
情况使用python的urllib包打开https链接,报错如下:urllib.error.URLError: <urlopen error [SSL: CERTIFICATE_VERIFY_FAILED] certificate verify failed: unable to get local issuer certificate (_ssl.c:1045)>原因Python 2.7.9 之后引入了一个新特性,当使用urllib.urlopen打开一个 https 链接时,会验证原创 2020-11-12 18:38:54 · 5057 阅读 · 0 评论 -
python----积累---python解析json的方法收集
Python 递归查找json中的key的值# coding:utf8import jsonclass GetKeyValue(object): def __init__(self, o, mode='j'): self.json_object = None if mode == 'j': self.json_object = o elif mode == 's': self.json_objec原创 2020-10-23 15:00:12 · 510 阅读 · 0 评论 -
遇到问题---python-requests--put----request method get not support
情况我们有一个java的服务端使用代码如下: @PutMapping("/api/updateMsg") public ResponseEntity<MyObject> putMyObject( @RequestBody MyObject myObject) { ... }提供的api地址如下:http://127.0.0.1:8080/api/updateMsg然后在python代码中 调用这个api如下:import requestsimport json原创 2020-06-19 17:24:28 · 1953 阅读 · 0 评论 -
遇到问题--python--mongodb--pymongo.errors.CursorNotFound: Cursor not found
情况使用代码如下:import pymongoclient = pymongo.MongoClient()db = client['db_name']col = db['col_name']demos = col.find({})for cursor in demos: deal_data_analysis(cursor)报错如下:pymongo.errors.CursorNotFound: Cursor not found原因分析col.find()获得的demos是cur原创 2020-06-16 15:31:12 · 1481 阅读 · 0 评论 -
python--积累--带有用户认证Authorization的post请求
class.py 如下:import sslssl._create_default_https_context = ssl._create_unverified_contextimport jsonimport urllibimport urllib.requestimport base64from api_module.logger import loggerclass ProductRequestFactory: def __init__(self, config):原创 2020-05-29 16:03:52 · 6538 阅读 · 0 评论 -
python--积累--class转json,复杂格式转json
简单对象或者字典转jsonimport jsond = {'a': 'aaa', 'b': ['b1', 'b2', 'b3'], 'c': 100}json_str = json.dumps(d)print json_strlambda 方式实现class转换jsonimport jsonclass Customer: def __init__(self, name, grade, age, home, office): self.name = name原创 2020-05-29 15:49:19 · 3859 阅读 · 0 评论 -
python----积累---python对象排序的方法收集
需要针对对象序列进行排序的,尤其是针对对象的某个属性排序的场景最为常见。直接调用序列的sort方法class Person(object): def __init__(self,age,name): self.age = age self.name = namedef personSort(): persons = [Person(age,name) for (age,name) in [(12,"lili"),(18,"lulu"),(16,"k原创 2020-05-27 16:40:19 · 632 阅读 · 0 评论 -
aws-s3-使用boto3根据路径设置生命周期
使用boto3根据路径设置生命周期–过期删除import boto3import times3 = boto3.resource('s3', region_name='cn-xxxxxx-1')def set_lifecycle_30days_expiration(bucketname,prefix,rule_name): json ={ 'Rule...原创 2019-12-04 15:29:41 · 1933 阅读 · 0 评论 -
hadoop组件---面向列的开源数据库(九)--python--python使用thrift连接hbase
Python使用thrift操作HBasethrift支持多种语言进行连接使用,但是没找到linux中的cli操作命令行的形式。所以如果服务器有python环境的话,可以使用python进行连接,快速测试。确认hbase和thrift服务已经安装,启动相关hbase和thrift的安装,启动参考注意:我这里使用的CDH套装中的hbase服务,如果单独安装hbase使用的话,请参考文末附录。...原创 2019-12-02 19:13:11 · 915 阅读 · 0 评论 -
aws-s3-使用boto3根据路径和间隔时间进行清理删除启用版本控制的文件
前面我们做过一版清理删除的脚本。但是 发现 针对启用了版本控制的桶是不生效的,不能永久删除,只是在版本控制中加上了一个删除标记的版本。如果要永久删除就需要带version_id指定删除。boto3中提供了ObjectVersion实体使用脚本如下:import boto3import timeimport datetimefrom aws_money.settings import...原创 2019-11-26 11:04:57 · 1861 阅读 · 0 评论 -
aws-s3-使用boto3根据路径和间隔时间进行清理删除
使用python3.6以上import boto3import timeimport datetime# https://boto3.amazonaws.com/v1/documentation/api/latest/reference/services/s3.htmls3 = boto3.resource('s3', region_name='cn-xxxxxxx-1')d...原创 2019-11-22 18:11:21 · 1727 阅读 · 0 评论 -
python中的时间戳和格式化之间的转换
把格式化时间转换成时间戳import timedef str_to_timestamp(str_time=None, format='%Y-%m-%d %H:%M:%S'): if str_time: time_tuple = time.strptime(str_time, format) # 把格式化好的时间转换成元祖 result = time...转载 2019-10-20 14:39:54 · 833 阅读 · 0 评论 -
python的基本语法和脚本格式
我们在上一篇文章中已经学会了如何简单的运行python命令和脚本,但是,距离真正的写脚本还有一段距离。 python的使用和运行为了防止我们写出来的脚本运行时报各种语法格式错误,我们需要在本章先学习下python的基本语法和脚本格式。脚本声明由于Python源代码也是一个文本文件,所以,当你的源代码中包含中文的时候,在保存源代码时,就需要务必指定保存为UTF-8编码。当Pytho...原创 2018-06-01 15:26:37 · 33169 阅读 · 2 评论 -
Python依赖管理和打包工具poetry
poetry简介poetry 是一个包管理和打包的工具。在 Python 中,对于初学者来说,打包系统和依赖管理是非常复杂和难懂的。以前是把需要的包和版本全部写在requirements.txt中,使用requirements.txt来进行管理。即使对于经验丰富的开发者,一个项目总是要同时创建多个包管理的文件才能很好完成包的管理:setup.pyrequirements.txtset...原创 2019-06-20 18:08:02 · 7254 阅读 · 0 评论 -
python打包成sdk上传到私有仓库和使用
我们已经学习了如何运行一个python项目(当我们有它的源码文件py文件的时候)。python的使用和运行我们有一个项目,需要打包到其他机器上运行,如果每次都是复制整个项目源码就显得有点笨拙。实现这个需求有很多种方案。例如:PyInstaller 可参考链接:https://ningyu1.github.io/site/post/59-py2exe-pyinstaller/我们这里还...原创 2019-06-20 18:46:08 · 2830 阅读 · 0 评论 -
python的kafka客户端
python连接kafka的标准库比较流行的有1、kafka-python2、pykafkakafka-python使用的人多是比较成熟的库,pykafka是Samsa的升级版本,使用samsa连接zookeeper然后使用kafka Cluster。区别:pykafka的对zookeeper支持而kafka-python并没有zk的支持kafka-python使用操作文档htt...原创 2019-06-11 18:28:17 · 10448 阅读 · 1 评论 -
windows安装python3.7
下载在python的官网下载python对应版本:https://www.python.org/downloads/windows/64位下载Windows x86-64 executable installer 版本32位下载Windows x86 executable installer 版本打开链接如下图,版本会一直更新,选择任意一个适合自己电脑的版本就好python3.7.0传送...原创 2019-07-08 15:59:34 · 2523 阅读 · 1 评论 -
ubuntu16.04安装python3.7
1.安装依赖包sudo apt-get updatesudo apt-get install build-essential python-dev python-setuptools python-pip python-smbussudo apt-get install build-essential libncursesw5-dev libgdbm-dev libc6-devsud...转载 2019-07-08 16:01:48 · 8836 阅读 · 2 评论 -
python--爬虫--爬虫学习路线指南
目标拥有爬去大规模数据的能力爬虫的作用利用爬虫我们可以获取大量的价值数据,从而获得感性认识中不能得到的信息,比如:知乎:爬取优质答案,为你筛选出各话题下最优质的内容。豆瓣: 优质的电影淘宝、京东:抓取商品、评论及销量数据,对各种商品及用户的消费场景进行分析。安居客、链家:抓取房产买卖及租售信息,分析房价变化趋势、做不同区域的房价分析。拉勾网、智联:爬取各类职位信息,分析各行业人才需...原创 2019-07-05 14:50:02 · 9792 阅读 · 10 评论 -
爬虫---如何抓取app的思路和方案
背景2015年,谷歌开始对外部App的内部链接和内容进行抓取,目前已经累计抓取了300多亿个。搜索引擎是内容门户之后的互联网第二次重大技术革命。然而伴随着智能手机的普及,应用软件(APP)取代网页,成为主流的技术。由于APP的内容一度无法被搜索引擎抓取到,人们惊呼,移动互联网将带来一场搜索引擎的生存危机。不过,通过和应用软件开发商的合作,谷歌(微博)已经一定程度上化解了这场危机。日前,谷歌已...原创 2019-07-05 15:05:53 · 20533 阅读 · 6 评论 -
python--爬虫--积累--多图片网站抓取加速方案和调优记录
最近在处理多图片数据网站的抓取案例。对抓取的速度有一定的要求。短时间内需要获取大量的图片。在部署分布式抓取时有很多个因素是需要调优的。1、每次读取数据库mongodb需要处理的记录的条数2、协程的pool大小。同时处理的个数。3、代理ip如何使用4、代理可使用的请求数–部分代理ip有请求数的限制5、代理ip可用时间(60s)还是几分钟6、对方的封锁机制–同一ip密集访问会有被封锁的...原创 2019-07-16 14:27:54 · 2907 阅读 · 4 评论 -
Python--繁体中文与简体中文相互转换
工作中需要将繁体中文转换成简体中文上网找了些资料,发现这个包最方便安装方法不需要什么安装方法,只需要把这两个文件下载下来,保存到与代码同一目录下即可https://raw.githubusercontent.com/skydark/nstools/master/zhtools/langconv.pyhttps://raw.githubusercontent.com/skydark/nst...转载 2019-08-27 18:31:14 · 29947 阅读 · 0 评论 -
遇到问题--python--爬虫--使用代理ip第二次获取代理ip失败
情况获取代理ip的代码def ferch_proxy_ips(): try: api = "http://dynamic.goubanjia.com/dynamic/get/12323.html?sep=3" response = urllib.request.urlopen(api, timeout=8) the_page = resp...原创 2019-08-27 18:49:14 · 2042 阅读 · 0 评论 -
遇到问题--pycharm为什么py文件代码提示都没了,被当成text文件
遇到问题[外链图片转存失败(img-Aras1F5N-1567917814482)(http://image.525.life/FimGEM_4YyXWObip-ZkN6ZG1f6-i)]pycharm为什么py文件代码提示都没了原因创建该文件时选错text文件类型,被当成text文件了删除后重新新建成py文件也没用因为 text有一个名字队列,只要加入过的都会被识别成text解决方...原创 2019-09-08 12:44:59 · 3041 阅读 · 0 评论 -
python--web--让python提供api服务--aiohttp
aiohttp介绍官网上有这样一句话介绍:Async HTTP client/server for asyncio and Python翻译过来就是 基于asyncio和Python实现的异步HTTP客户端/服务器asyncio可以实现单线程并发IO操作。也就是做异步操作。如果仅用在客户端,发挥的威力不大。如果把asyncio用在服务器端,例如Web服务器,由于HTTP连接就是IO操作,因...原创 2019-09-11 18:38:28 · 8447 阅读 · 1 评论 -
遇到问题--python--kafka--阿里云--ValueError: attempt to connect already-connected SSLSocket
情况使用kafka-python连接阿里云的kafka服务,使用代码如下:import osimport socketimport jsonimport sslfrom kafka import KafkaProducerfrom illumina_qc_module.log import loggerimport timefrom datetime import date...原创 2019-06-12 15:27:40 · 1289 阅读 · 0 评论 -
遇到问题--python--爬虫--urllib的使用协程没有并发的效果
情况方法代码如下:async def get_product_info(): pagelinks=findNoDealedGoodlookProductInfoLinkt(0, 150000) n = 0 for p in pagelinks: try: n=n+1 print("product_info"...原创 2019-05-27 15:25:24 · 711 阅读 · 0 评论 -
遇到问题--python--爬虫--urllib的post参数类型错误--传输json格式
情况使用代码def fetch_raw_post_meitu(link, data): proxy_support = urllib.request.ProxyHandler({'https': '192.168.11.195:8888'}) opener = urllib.request.build_opener(proxy_support) urllib.requ...原创 2019-05-27 14:56:57 · 1386 阅读 · 0 评论 -
遇到问题–python–pytest引用模块错误
转载请注明出处:遇到问题–python–pytest引用模块错误遇到问题python项目结构如图:main.py中引用了import pandas as pd运行main.py文件没问题,但是运行pytest报错如下:ImportError while importing test module '/Users/joe/workspace/platform/mgap-mendel/...原创 2018-12-03 12:21:18 · 34414 阅读 · 3 评论 -
python项目批量引入需要的类库
转载请注明出处:python项目批量引入需要的类库我们在之前的文章中已经学习过关于python的模块python模块有一种应用场景,在复用项目的时候,会出现模块未安装的情况导致报错。那么python项目的怎么进行模块的管理呢一种是原生的requirements.txt文件管理一种是使用第三方的类库模块管理工具,例如poetry。本篇文章先来了解原生的requirements.txt文...原创 2018-11-27 19:13:09 · 2664 阅读 · 0 评论 -
遇到问题–python–pytest: error: unrecognized arguments: --cov-report=html
转载请注明出处:遇到问题–python–pytest: error: unrecognized arguments: --cov-report=html问题pytest可以输出覆盖率的html报告使用命令如下:pytest -vv --cov=./ --cov-report=htmlopen htmlcov/index.html 有可能遇到报错:(venv) zhangxiaofa...原创 2018-12-04 11:23:46 · 30924 阅读 · 6 评论