- 博客(90)
- 资源 (1)
- 收藏
- 关注
转载 spark运行参数设置
num-executors参数说明:该参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上,启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给你启动少量的Executor进程,此时你的Spark作业的运行速度是非常慢的。参数调优建议:每个Spark作业的运行一般设置50~100个左右的Executor进程比较合适,设置太少或太多的Executor进程
2020-08-06 08:53:21
1282
原创 (Python)解决将中文存入cookie的错误问题
问题:最近在开发中遇见一个问题,我想要将中文字符串存入cookie,以便在另一个接口使用,却发现取cookie的时候我想要的东西取不出来,那么就要使用如下方法解决。解决:1. 存cookie:name = "中华小当家"response = redirect("https://www.zzz.com")response.set_cookie("name", name.encode('u...
2019-11-21 16:37:01
1161
原创 Nginx中间件安装教程
1、安装完centOS 7,查不出ip地址:vi /etc/sysconfig/network-scripts/ifcfg-ens33从配置清单中可以发现 CentOS 7 默认是不启动网卡的(ONBOOT=no)将其改成yesESC -->:wq 进行保存–>然后重启网络服务: sudo service network restart再进行 ifconfig 便可查询到...
2019-09-25 17:33:10
519
原创 Django QuerySet 进阶
更多内容,欢迎关注微信公众号:Python知音阁。什么是QuerySetQuerySet是Django提供的强大的数据库接口(API)。正是因为通过它,我们可以使用filter, exclude, get等方法进行数据库查询,而不需要使用原始的SQL语言与数据库进行交互。从数据库中查询出来的结果一般是一个集合,这个集合叫就做 queryset。1. values_list获取元组形式结果...
2019-08-02 18:08:24
298
转载 MySQL数据库开发的三十六条军规
写在前面的话:总是在灾难发生后,才想起容灾的重要性;总是在吃过亏后,才记得曾经有人提醒过。(一)核心军规(1)不在数据库做运算cpu计算务必移至业务层;(2)控制单表数据量int型不超过1000w,含char则不超过500w;合理分表;限制单库表数量在300以内;(3)控制列数量字段少而精,字段数建议在20以内;(4)平衡范式与冗余效率优先;往往牺牲范式;(5)拒绝3...
2019-07-06 17:42:08
240
原创 spring boot项目的结构和他们之间的关系
分层描述作用domian实体类数据库表的实体dao数据访问接口提供一个访问数据库实例的接口service服务接口提供一个实现为控制器提供服务的实例的接口serviceImp服务的实例调用dao的实例的方法,为控制提供服务controller前端控制器请求与响应的处理中心mapperdao接口的实例实现对数据的操作...
2019-04-29 17:02:03
331
原创 解决lxml安装后无法import到etree模块的问题
使用from lxml import etree 现红:解决:python 3.5之后的lxml中不能再直接引入etree,换了一种方法引入:from lxml import htmletree = html.etree
2019-04-26 10:19:40
1974
转载 避免反爬,使用代理的基本原理
文章摘录自:《Python3网络爬虫开发实战》我们在做爬虫的过程中经常会遇到这样的情况,最初爬虫正常运行,正常抓取数据,然而一杯茶的功夫可能就会出现错误,比如403 Forbidden,这时候打开网页一看,可能会看到“您的IP访问频率太高”这样的提示。出现这种现象的原因是网站采取了一些反爬虫措施。比如,服务器会检测某个IP在单位时间内的请求次数,如果超过了这个阈值,就会直接拒绝服务,返回一...
2019-04-24 15:46:19
636
原创 Content-Type和POST提交数据方式的关系
Content-Type提交数据的方式application/x-www-form-urlencoded表单数据multipart/form-data表单文件上传application/json序列化JSON数据text/xmlXML数据在爬虫中,如果要构造POST请求,需要使用正确的Content-Type,并了解各种请求库的各个参数设置时使用...
2019-04-24 14:39:14
466
原创 htpp响应状态码: 常见的错误代码及错误原因
状态码说明详情100继续请求者应当继续提出请求。服务器已收到请求的一部分,正在等待其余部分101切换协议请求者已要求服务器切换协议,服务器已确认并准备切换200成功服务器已成功处理了请求201已创建请求成功并且服务器创建了新的资源202已接受服务器已接受请求,但尚未处理203非授权信息服务器已成功处理了请求,但返回的信息可...
2019-04-24 14:29:33
238
原创 解决使用tesserocr.image_to_text(image)和(tesserocr.file_to_text('image.png')等错误问题
用例子验证如何使用:我们找到一个验证码图片:image.jpg,下载到本地磁盘,用代码进行验证:1 import tesserocr2 from PIL import Image3 image=Image.open(‘image.jpg‘)4 print(tesserocr.image_to_text(image))错误信息:Traceback (most recent ca...
2019-04-24 11:38:46
3143
原创 解决Python3.6安装使用tesserocr文件时报错“error: Microsoft Visual C++ 14.0 is required.“
使用pip install tesseroc安装时,报错L:解决办法:我们在PowerShell下使用pip3 install tesserocr pillow 命令安装 tesserocr时通常会报错:“error: Microsoft Visual C++ 14.0 is required. Get it with “Microsoft Visual C++ Build Tools”,...
2019-04-24 11:21:01
426
原创 Python网络爬虫——周报2
一、本周情况:1.1 书籍学习 第二部分: 高级数据采集数据清洗自然语言处理穿越网页表单与登录窗口进行采集采集javascript图像识别与文字处理避开采集陷阱用爬虫测试网站远程采集二、笔记:本部分练习代码在github仓库:https://github.com/Alextaotao/Python-network-data-collection三、下...
2019-04-23 18:52:34
453
原创 Python网络爬虫——周报1
本周情况:一、书籍学习-《Python网络数据采集》 第一部分:创建爬虫初见网络爬虫复杂的HTML解析开始采集使用API存储数据读取文档课程笔记:本部分练习代码在github仓库:https://github.com/Alextaotao/Python-network-data-collection下周计划:一、书籍学习-《Python网络数据采集...
2019-04-23 18:38:08
501
原创 理解Session和Cookie机制
什么时候不能用Cookie,什么时候不能用Session?一、会话会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是 Cookie 与 Session 。Cookie: 通过在客户端记录信息确定用户身份;Session: 通过在服务器端记录信息确定用户身份。二、Cookie机制Cookie 技术是客户端的解决方案,Cookie...
2019-04-23 18:13:22
270
原创 Spring Boot打造个人博客系统(总体分析)
一、功能概述:1.1 核心功能1.2 用户管理:1.3 安全设置:1.4 博客管理:1.5 评论管理:1.6 点赞管理:1.7 分类管理:1.8 标签管理:1.9 首页搜索:二、核心技术:...
2019-04-22 22:43:07
1360
原创 Git教程
相关链接内容:Git 知识点Git速成Git进阶Git Book廖雪峰Git初识GitHub加入 GitHub向 GitHub 提交代码团队合作利器 BranchGitHub 常见的几种操作如何发现优秀的开源项目?教你一招最屌的阅读开源项目的姿势打造我的酷炫终端...
2019-04-21 10:09:12
176
原创 Pycham导出项目依赖,安导入项目依赖->requestmnt.txt
导出:pip freeze > requirements.txt# 这种方式推荐配合 virtualenv ,否则会把整个环境中的包都列出来导入:pip install -r requriements.txt 即可安装所有依赖...
2019-04-21 10:04:26
1228
原创 Socke编简单模拟客户端和服务端通信
模拟服务端:# -*- encoding: utf-8 -*-"""@project = imooc_pythonSpider@file = socket_server@auther = ztt@create_time = '2019/4/15 14:56'"""# socket服务端import socketserver = socket.socket()# 绑定到0....
2019-04-15 21:33:12
251
原创 Scrapy爬虫框架环境搭建
系统:win10平台 python版本:3.61. 下载并安装 pywin32:进入https://sourceforge.net/projects/pywin32/files/,按照下图目录点击pywin32,选择Build 221,找到自己对应版本的pywin32点击连接即可自己下载,安装按步骤点击即可.2. 安装 pip3 install wheel:pip3 inst...
2019-04-13 18:24:45
296
原创 python爬虫小记
一、爬虫设计要点:1、在写爬虫的时候,思考代码的总体格局,让代码既可以捕捉异常又容易阅读2、具有周密的异常处理功能,会让快速稳定地网络数据采集变得简单易行。3、面对页面解析难题(Gordian Knot)的时候,不假思索地直接写几行语句来抽取信息是非常直接的做法。但是,像这样鲁莽放纵地使用技术,只会让程序变得难以调试或脆弱不堪,甚至二者兼具。在开始解析网页之前,应该先考虑解析复杂的 HT...
2019-04-13 14:51:13
182
原创 爬虫问题解决:UserWarning: No parser was explicitly specified,
代码:# -*- encoding: utf-8 -*-"""@project = Pa_chong@file = test2@auther = ztt@create_time = '2019/4/13 9:17'"""from urllib.request import urlopenfrom bs4 import BeautifulSouphtml = urlopen("...
2019-04-13 09:40:46
577
原创 正则表达式
一、概述二、匹配单个字符三、匹配一组字符四、使用元字符五、重复匹配六、位置匹配七、使用子表达式八、回溯引用九、前后查找十、嵌入条件参考资料 一、概述正则表达式用于文本内容的查找和替换。正则表达式内置于其它语言或者软件产品中,它本身不是一种语言或者软件。正则表达式在线工具二、匹配单个字符. 可以用来匹配任何的单个字符,但是在绝大多数实现里面,不能匹配换行符...
2019-03-25 21:38:26
679
原创 常用Bash命令整理常用命令
1. hostname - 查看主机名hostname命令用于查看系统的主机名,或是修改系统的主机名。hostname的常用命令如下:# 显示系统的当前主机名hostname# 修改你系统的主机名hostname blinkfox-system# 使用 -F 选项,从指定的文件中读取主机名hostname -F /root/hostname.txt2. uptime - 查...
2019-03-25 21:36:39
433
原创 基础回顾 + 查漏补缺——第一周
反思:前期进入项目实战太快,现在回想起来有些操之过急了。综合考量之后:1、对python基础进行回顾2、对Django基础进行加强(重点放在view和model上)3、 想要成为一个好的后端程序员,应该对前端也有一定认识,所以这周对HTML、CSS进行了学习。现在文章发布在我在github上利用github page + Hexo建立的博客:https://alextaotao...
2019-03-10 17:23:49
255
原创 精通Django(一)
Djang学习笔记文章目录Djang学习笔记一、基本配置二、MVC设计模式2.1 MVC 设计模式非常容易理解:2.2 MTV 开发模式:(Django 经常被称为 MTV 框架)三、视图和URL配置3.1第一个 Django 驱动的页面:Hello World3.2 正则表达式3.3 关于404错误的简要说明3.4 Django 处理请求的过程3.5 URL 配置和松耦合3.6 视图:动...
2019-03-09 18:37:35
381
原创 Hexo + GitHub Page搭建一个属于自己博客
个人博客地址,欢迎访问:https://alextaotao.github.io/博客概览:
2019-03-06 15:21:03
161
转载 代码整洁之道
一、在正式开始之前,我们先思考几个几个问题:1.需求与代码哪个重要?答:并不是所有的产品都能提出合理的需求,当你面对一个提出不合理需求的产品的时候,你需要坚持自己的原则,不能妥协。2.易读和易懂是一回事吗?答:易读的代码和易懂的代码是有区别的,不是易读的代码就是易懂的代码。3.什么是测试驱动代码?答:测试驱动代码,你写的代码要可以执行单元测试。如果你发现你的代码很难写单元测试,那么你就...
2019-03-05 21:53:41
898
转载 七大查找算法(Python)
文章链接:https://blog.youkuaiyun.com/qq_38328378/article/details/80936783文章作者:Is秦
2019-03-02 23:33:45
153
转载 Python基础 — Matplotlib
文章链接:https://blog.youkuaiyun.com/qq_38328378/article/details/80969353文章作者:Is秦
2019-03-02 23:32:06
127
转载 Python基础 — Pandas
原文链接:https://blog.youkuaiyun.com/qq_38328378/article/details/80833091原文作者:Is秦 Pandas -- 简介 Python Data Analysis Library 或 pandas 是基于NumPy 的一种工具,该工具是为了解决数据分析任务而...
2019-03-02 23:28:31
231
转载 Python库全部整理
原文链接:https://www.jianshu.com/p/2642f9d28f34原文作者:学好Python吧库名称简介Chardet字符编码探测器,可以自动检测文本、网页、xml的编码。colorama主要用来给文本添加各种颜色,并且非常简单易用。Prettytable主要用于在终端或浏览器端构建格式化的输出。difflib,[Python]标准库,计算文本差异Levenshtein...
2019-03-02 23:24:58
323
转载 Python基础 — NumPy
原文链接:https://blog.youkuaiyun.com/qq_38328378/article/details/80833115原文作者:Is秦 NumPy--简介 Numpy(Numerical Python的简称)是一个由多维数组对象和用于处理数组的例程集合组成的库。 &nb...
2019-03-02 23:22:45
330
转载 Python基础 — OS
原文链接:https://blog.youkuaiyun.com/qq_38328378/article/details/80779573原文作者:Is秦 OS模块 -- 简介 OS模块是Python标准库中的一个用于访问操作系统功能的模块,OS模块提供了一种可移植的方法使用操作系统的功能。使用OS模块中提供的接口,可以实现跨平台访问。但是在OS模块中...
2019-03-02 23:20:10
109
转载 八大排序算法(Python)
原文链接:https://blog.youkuaiyun.com/qq_38328378/article/details/85037315原文作者:ls秦 一、插入排序介绍 插入排序的基本操作就是将一个数据插入到已经排好序的有序数据中,从而得到一个新的、个数加一的有序数据。 算法适用于少量数...
2019-03-02 23:15:29
194
转载 2018年GitHub最流行Python开源项目
原文链接:https://www.ctocio.com/ccnews/27611.htmlPython是当下最火的编程语言之一,在GitHub上有大量热门开源项目,近日开源众包平台IssueHunt评选出了2018年GitHub上最流行的50个Python开源项目如下:1)TensorFlow ModelTensorFlow Models如果你对机器学习和深度学习有所了解,那么肯...
2019-03-02 20:44:21
1507
原创 怎么样在Github上快速淘到感兴趣的优质的开源项目?
搜索:在搜索时,如果只在搜索框输入想要的内容;例如搜“Html 学习 资料”:(这个时候搜出来的只有27个仓库,而且只是根据它的介绍来进行筛选的。)在搜索时,加入“in: readmeme”:(这个时候你就会惊讶的发现,搜出了3186个仓库,而且匹配度更高。)这个时候,如果你觉得仓库数量太多,无法进行选择时;再进行高级搜索,比如你想你要的项目得到的stars至少要有50...
2019-02-27 19:29:08
276
1
原创 git上传项目到远程github服务器与远程仓库克隆到本地
常用命令:一、本地仓库同步到github:1.1 git remote add [files_name] [url]使用git remote -v可查看远程仓库。fetch: 远端仓库拉到本地;push: 本地推到远端。报错:原因: 本地仓库与远端仓库不一样,远端包含某些东西,本地是没有的。解决方法: 将远端仓库先fetch下来,合并分支,再push。这里拒...
2019-02-27 15:04:31
608
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人