
Python
文章平均质量分 61
zxfBdd
这个作者很懒,什么都没留下…
展开
-
hdfs或hive的snappy.parquet文件查看
hdfs或hive的snappy.parquet文件查看转载 2024-08-22 18:22:27 · 192 阅读 · 0 评论 -
用Python教你爬取墙外的数据
终于想开始爬自己想爬的网站了。于是就试着爬P站试试手。我爬的图的目标网址是:http://www.pixiv.net/search.php?word=%E5%9B%9B%E6%9C%88%E3%81%AF%E5%90%9B%E3%81%AE%E5%98%98,目标是将每一页的图片都爬下来。一开始以为不用登陆,就直接去爬图片了。后来发现是需要登录的,但是不会只好去学模拟登陆。这里是登陆网站https://accounts.pixiv.net/login?lang=zh&source..转载 2021-12-18 21:52:19 · 4583 阅读 · 2 评论 -
python 爬虫 使用代理 爬取
python专栏收录该内容40 篇文章0 订阅订阅专栏之前有需要翻墙爬取内容,发现需要使用代理,不能简单的在requests里加个参数就行了,现在把脚本改成通用模板,有需要的可以按照自己的需求改一下哈。import urllib.request as requestimport requestsimport json'''@author:Lancer Wu@email:wxs231@163.com'''def proxies_spider(canshu): '''...转载 2021-12-18 21:47:57 · 1498 阅读 · 0 评论 -
Python爬虫突破封禁的6种常见方法
在互联网上进行自动数据采集(抓取)这件事和互联网存在的时间差不多一样长。今天大众好像更倾向于用“网络数据采集”,有时会把网络数据采集程序称为网络机器人(bots)。最常用的方法是写一个自动化程序向网络服务器请求数据(通常是用 HTML 表单或其他网页文件),然后对数据进行解析,提取需要的信息。本文假定读者已经了解如何用代码来抓取一个远程的 URL,并具备表单如何提交及 JavaScript 在浏览器如何运行的机制。想更多了解网络数据采集基础知识,可以参考文后的资料。在采集网站的时会遇..转载 2021-12-18 21:46:36 · 4921 阅读 · 0 评论 -
python 一条命令启动文件服务器
代码如下:# python3python3 -m http.serverpython3 -m http.server HTTP端口# python2python -m SimpleHTTPServerpython -m SimpleHTTPServer HTTP端口在对应的路径下执行就可!转载 2021-06-29 14:33:12 · 321 阅读 · 0 评论 -
spark-python版本依赖与三方模块方案
spark-python版本依赖与三方模块方案本文讲解spark client模式和cluster模式的第三方库依赖解决方法,注意,在用的时候需要看清楚自己的集群是哪种方法部署spark。更新:2019-12-181、cluster模式如果spark集群是以cluster模式搭建,方法就比较简单。下面是一些步骤,每个公司的集群配置不同,具体的参数配置位置需要根据实际情况而定。(1)使用conda创建python虚拟环境、安装第三方库假设虚拟环境是pyspark_py36,安...转载 2021-01-07 17:32:11 · 805 阅读 · 0 评论 -
python 虚拟环境
虚拟环境就是创建一个 隔离 的 python 环境,在这个环境里可以安装 python 所需的各种包,并使得这些包与 系统里的 python 不相干;常用于版本管理;本文以 linux 系统为例,windows 大同小异,掌握精髓首先,安装 virtualenvpip install virtualenv安装完成后,virtualenv 出现在 python 的 bin 目录下你可以建立 软连接 链接到 /usr/bin 下,也可以每次使用都切到 /usr/l...转载 2021-01-07 11:05:23 · 148 阅读 · 0 评论 -
yarn上报错Cannot run program “python“: error=2, No such file or directory
配置好yarn《【解决】处于ACCEPTED状态不running,Oozie提交pyspark任务后》,并解决宕机问题《运行yarn宕机(pyspark任务,通过Oozie提交)》后,出现新的问题:java.io.IOException: Cannot run program "python": error=2, No such file or directoryat java.lang.ProcessBuilder.start(ProcessBuilder.java:1...转载 2021-01-05 21:14:36 · 4851 阅读 · 0 评论 -
pyspark出现Java.io.IOException: Cannot run program “python“: CreateProcess error=2问题的解决办法
Java.io.IOException: Cannot run program "python": CreateProcess error=2解决办法:在ubuntu用户系统配置文件.bashrc中加入:export PYSPARK_PYTHON=/usr/bin/python同步所有spark的集群中的机器该配置source .bashrc使生生效...转载 2021-01-05 21:12:33 · 1407 阅读 · 0 评论 -
spark教程-Pyspark On Yarn 的模块依赖问题
原理简述Yarn 模式是把资源统一交给 Yarn 集群来管理,其优点在于实现了 application 的多样性,如 MapReduce 程序、HBase 集群、Storm 集群、spark 集群等;Yarn 模式有两种运行模式:client 和 cluster,区别在于client 模式的 Driver 运行在 client 端,而 client 端可能是 spark 集群内节点,也可以不是,一般来说不是集群内节点,这就需要在客户端节点上安装程序运行所需环境,以支持 spark 的正常...转载 2021-01-05 18:46:55 · 1168 阅读 · 0 评论 -
py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD
今天小编用Python编写Spark程序报了如下异常:py4j.protocol.Py4JJavaError: An error occurred while calling z:org.apache.spark.api.python.PythonRDD.collectAndServe.: java.lang.IllegalArgumentException: Unsupported class file major version 55从网上找到的解决方案是JDK版本问题,于是乎小编将Ja...转载 2021-01-05 16:03:13 · 19113 阅读 · 3 评论 -
如何在virtualenv环境中安装指定的python版本
指定python版本:virtualenv -p python执行文件路径 自定义虚拟环境名称。如果文件路径有空格,用引号。如果不指定python版本,则默认使用环境变量中的python版本可使用-p PYTHON_EXE选项在创建虚拟环境的时候指定Python版本1 #创建python2.7虚拟环境2 virtualenv -p /usr/bin/python2.7 ENV2.73 4 #创建python3.4虚拟环境5 virtualenv -p /usr/l...转载 2020-12-14 17:58:55 · 16431 阅读 · 0 评论 -
python项目打包虚拟环境
python项目打包时,需要将虚拟环境与python自身安装路径下的lib包整合在一起,将如下内容保存为packvenv.sh文件,修改PYTHON_PATH(python的安装路径)以及VENV_PATH(虚拟环境的全路径)为自己的目录,然后给文件添加执行权限:chmod +x packvenv.sh,./packvenv.sh执行即可Linux:packvenv.sh #!/bin/bash PYTHON_PATH=/usr/local/python2.7...转载 2020-12-14 15:41:48 · 1436 阅读 · 0 评论 -
## 在windows下制作Python虚拟环境
#制作Python虚拟环境#1.制作Python虚拟环境 a.创建一个文件夹 venv b.python -m venv(参数) venv(文件夹) 2.每次装包的时候要装到虚拟环境中 venv\Scripts\pip.exe install flask-wtf… 3.每次装包完成后都要生成需求文件 requirement.txt为需求文件,包含着项目中所需要的所有包以及其版本 venv\Scripts\pip.exe freeze > requirements.txt#如果不...转载 2020-12-14 15:40:23 · 125 阅读 · 0 评论 -
spark-submit提交任务到集群,分发虚拟环境和第三方包
spark-submit提交任务的参数很多:Usage: spark-submit [options] <app jar | python file> [app arguments]Usage: spark-submit --kill [submission ID] --master [spark://...]Usage: spark-submit --status [submission ID] --master [spark://...]Usage: spark-sub...转载 2020-12-15 17:21:55 · 1020 阅读 · 0 评论 -
pyenv virtualenv pyenv-virtualenv 安装
pyenv可以轻松切换多个版本的Python,它非常简单。 [root@python3 ~]# pyenv version system (set by /root/.pyenv/version) [root@python3 ~]# pyenv versions * system (set by /root/.pyenv/version) 3.6.6 3.6.6/envs/venv36 venv36 [root@py...转载 2020-12-11 17:40:18 · 661 阅读 · 0 评论 -
pip 指定源安装
阿里源pip install -r requirements.txt -ihttps://mirrors.aliyun.com/pypi/simple/腾讯源pip install -ihttps://mirrors.tencent.com/pypi/simple/--upgrade tencentcloud-sdk-python豆瓣pip install -r requirements.txt -ihttps://pypi.douban.com/simple/清华大学...转载 2020-12-11 17:07:56 · 657 阅读 · 0 评论 -
pip 批量安装包方法
1.首先要说的是,windows下已经安装好的python目录,整体拷贝给另一台电脑是可以用的。这样就可以不用再另一台电脑上安装python环境也可以运行python代码,另一台电脑需要配置环境变量 或者直接在该目录下执行python.exe也是可以的。2.如果一台电脑上安装过python及一些依赖包,另一台电脑也想安装同样的包,如何操作。 a. pip freeze >PackagesInfo.txt” 此时会生成一个PackagesInfo.txt文件,里面有...转载 2020-12-11 17:05:24 · 2201 阅读 · 0 评论 -
pyenv管理多个Python版本依赖环境
背景从接触Python以来,一直都是采用virtualenv和virtualenvwrapper来管理不同项目的依赖环境,通过workon、mkvirtualenv等命令进行虚拟环境切换,很是愉快。然而,最近想让项目能兼容更多的Python版本,例如至少同时兼容Python2.7和Python3.3+,就发现采用之前的方式行不通了。最大的问题在于,在本地计算机同时安装Python2.7和Python3后,即使分别针对两个Python版本安装了virtualenv和virtualenvwra...转载 2020-12-11 16:53:54 · 625 阅读 · 0 评论 -
pycharm本地开发pyspark并提交远程执行
最近在学习pyspark的开发,遇到些问题记录下。我们在开发pyspark时经常需要进行测试,自己电脑上安装搭建一个spark环境代价有点高,目前有的同事在开发时,通常是开发完把代码贴出到本地测试集群进行测试,因此,能不能借助pycharm里的一个功能,连接本地测试集群的pyspark进行执行呢,经过一番搜索终于实现了这一个功能。新建带有Virtualenv的工程Virtualenv是什么?Python 的第三方包成千上万,在一个 Python 环境下开发时间越久、安装依赖越多,就越容...转载 2020-12-11 15:38:26 · 1208 阅读 · 0 评论 -
pyenv install太慢
如果是下载 python 源码这一步慢,那么可以参考我的办法。 mkdir $PYENV_ROOT/cache 然后用别的方法下载 Python 源码放到该目录下。 这个路径是由 PYTHON_BUILD_CACHE_PATH 控制的,默认值是 "$PYENV_ROOT/cache",但是文件夹并不是默认创建的。 相关代码可以自己查看https://github.com/pyenv/pyenv/blob/master/plugins/python-build/bin/...原创 2020-12-11 15:32:20 · 1993 阅读 · 0 评论 -
Spark混部集群适配独立Python 用户指南
问题分析更新时间:2020/10/19 GMT+08:00说明:以PySpark任务提交的独立Python包中为ARM版本Python为例说明。 集群为x86与ARM的混合部署Spark集群。 任务脚本“/opt/test_spark.py”为举例脚本,可用其它PySpark任务替代。 test_spark.py脚本内容# test_spark.pyimport osimport sysfrom pyspark import SparkContextfrom pyspark i转载 2020-12-11 15:12:10 · 638 阅读 · 1 评论 -
pyspark提交集群任务
1.打包python环境 建议使用conda conda克隆环境 conda create -n prod_env --clone base 进入conda的miniconda3/envs # 打包python环境 zip -r prod_env.zip prod_env 2.提交任务sh脚本 exportPYSPARK_DRIVER_PYTH...转载 2020-12-11 15:05:34 · 1102 阅读 · 0 评论 -
Python版本管理神器-pyenv
一、问题情景:Python解释器版本混乱, 2和3差别巨大, 而且细分版本也不尽相同, 难以选择和管理. 不同Linux发行版自带Python不同, 如ubuntu16自带2.7和3.5版本, 其中系统许多组件依赖于自带解释器, 一旦删除或者更改都可能会造成系统出问题. 不同的Python解释器软件包管理也是问题, 如pip和ipython等必备包组件, 而且在项目开发中如何保证不同的包环境互不干扰也是一个问题.那么有没有一个终极的解决办法能在管理不同解释器版本的同时控制不同的包环境呢? 有...转载 2020-12-11 15:04:00 · 453 阅读 · 0 评论 -
Linux 下的 Python 多版本管理(pyenv)
如果我们要同时开发多个应用程序,每个应用可能需要各自拥有一套“独立”的Python运行环境,我们可以使用virtualenv解决这个问题,它可以为一个应用创建一套“隔离”的Python运行环境。1|0一. 安装virtualenv sudo apt-get install python-virtualenvsudo easy_install virtualenv 2|0二. 创建环境创建python2环境:virtualenv myenv创...转载 2020-12-11 15:02:48 · 946 阅读 · 0 评论 -
Linux下搭建PySpark环境
linux版scala:https://downloads.lightbend.com/scala/2.11.0/scala-2.11.0.tgzlinux/windows通用版spark:https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.4.5/spark-2.4.5-bin-hadoop2.7.tgzlinux/windows通用版hadoop:https://mirrors.tuna.tsinghua.edu.cn/apach...转载 2020-12-15 17:22:13 · 943 阅读 · 2 评论 -
pyspark 安装配置【linux && win】
一、windows 安装1、下载spark http://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-2.3.1/spark-2.3.1-bin-hadoop2.7.tgz 2、配置spark 环境变量set SPARK_HOME=d:\spark2.3.1set PATH=%SPARK_HOME%\bin;%PATH%3、安装python的pyspark模块pip install pyspark -i https://pyp...转载 2020-12-15 17:22:50 · 403 阅读 · 0 评论 -
Linux 安装 pySpark
1、安装Java和Scale。1.1、Java 参考Java 安装运行1.2、Scale安装1)下载并解压 官网地址:https://www.scala-lang.org/download/ wget https://downloads.lightbend.com/scala/2.13.1/scala-2.13.1.tgz tar -zxvf scala-2.13.1.tgz mv scala-2.13.1 scala 2...转载 2020-12-10 19:30:39 · 919 阅读 · 1 评论 -
pyspark的安装配置
1、搭建基本spark+Hadoop的本地环境 https://blog.youkuaiyun.com/u011513853/article/details/52865076?tdsourcetag=s_pcqq_aiomsg2、下载对应的spark与pyspark的版本进行安装 https://pypi.org/project/pyspark/2.3.0/#history3、单词统计测试 a、python版本 1 2 3 4 5 6...转载 2020-12-10 19:29:37 · 506 阅读 · 0 评论 -
pyspark使用指定python环境后的提交方法
一、扫盲这篇文章很好的解释了如下几个问题:spark on Yarn 是什么? pyspark application 的运行原理是什么? pyspark application如何在 Yarn运行?二、实际将python环境打包cd path_to_python*注意这里要进入python目录下打包,否则整个路径(就是python所在的路径)都会被打包,后面解压的时候,python前面会出现超长路径,不能正常解析报错zip -r path_to_python...转载 2020-12-10 19:28:49 · 979 阅读 · 0 评论 -
pyspark入门 | spark-submit 提交pyspark任务
https://github.com/hxjcarrie/pyspark_study以LogisticRegression为例输入数据样例(第一列为label,后面为feature)lrDemo.py(基于RDD的mllib)#!coding=utf8'''author: huangxiaojuan'''import sysreload(sys)sys.setdefaultencoding('utf8')from pyspark.sql import SparkS...转载 2020-12-10 19:28:03 · 4640 阅读 · 0 评论 -
Pyspark spark-submit 集群提交任务以及引入虚拟环境依赖包攻略
网上提交 scala spark 任务的攻略非常多,官方文档其实也非常详细仔细的介绍了 spark-submit 的用法。但是对于 python 的提交提及得非常少,能查阅到的资料非常少导致是有非常多的坑需要踩。官方文档对于任务提交有这么一段介绍,但是初次使用者依然会非常疑惑:Bundling Your Application’s DependenciesIf your code depends on other projects, you will need to package t...转载 2020-12-10 19:25:53 · 1195 阅读 · 0 评论 -
pyspark使用教程(一)
使用Pyspark教程,参考《Spark快速大数据分析》1.Spark背景Apache Spark是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行框架,Spark,拥有Hadoop MapReduce所具有的优点;但不同于MapReduce的是——Job中间输出结果可以保存在内存中,从而不再需要读写HDFS,因此Spark能更好地适用于数据挖掘...转载 2020-12-10 19:25:02 · 1270 阅读 · 0 评论 -
pyspark的使用和操作(基础整理)2020-12-10
Spark提供了一个Python_Shell,即pyspark,从而可以以交互的方式使用Python编写Spark程序。有关Spark的基本架构介绍参考http://blog.youkuaiyun.com/cymy001/article/details/78483614;有关Pyspark的环境配置参考http://blog.youkuaiyun.com/cymy001/article/details/78430892。pyspark里最核心的模块是SparkContext(简称sc),最重要的数据载体是RDD。RD...转载 2020-12-10 19:24:04 · 3258 阅读 · 0 评论 -
提交PySpark应用程序以集群模式在YARN上触发
我正在尝试测试为我工作的团队构建的大数据平台。它在YARN上运行时具有火花。是否可以创建PySpark应用并将其提交到YARN集群上?我能够成功提交示例SparkPi jar文件,它在YARN stdout日志中返回输出。这是我要测试的PySpark代码;<span style="color:#333333"><code>from pyspark import SparkConffrom pyspark import SparkContextHDFS_MAST转载 2020-12-10 18:12:20 · 2628 阅读 · 1 评论 -
在集群上运行Spark应用程序(Python版)
Spark应用程序在集群中运行时,需要借助于集群管理器(包括本地集群管理器、YARN、Mesos)来为其实现资源管理调度服务,实现对集群中各个机器的访问(可以参考前面章节的内容:Spark集群部署模式)。这里通过简单的示例介绍其中两种:独立集群管理器和Hadoop Yarn集群管理器。通过介绍,我们可以了解到如何在这两种集群管理器上运行Spark应用程序。启动Spark集群请登录Linux系统,打开一个终端。启动Hadoop集群cd /usr/local/hadoop/ sb...转载 2020-12-10 18:09:45 · 1228 阅读 · 1 评论 -
Python datetime模块详解
一、datetime模块介绍(一)、datetime模块中包含如下类:类名 功能说明 date 日期对象,常用的属性有year, month, day time 时间对象 datetime 日期时间对象,常用的属性有hour, minute, second, microsecond datetime_CAPI 日期时间对象C语言接口 ...转载 2020-01-14 14:22:59 · 55917 阅读 · 5 评论 -
python获取当前时间的用法
1.先导入库:import datetime2.获取当前日期和时间:now_time = datetime.datetime.now()3.格式化成我们想要的日期:strftime()比如:“2016-09-21”:datetime.datetime.now().strftime('%Y-%m-%d')4.在当前时间增加1小时:add_hour=datetime.dateti...转载 2020-01-13 18:13:03 · 323 阅读 · 0 评论 -
Scrapy中如何向Spider传入参数
目录方式一方式二settings.pyrun.pypipelines.py启动示例在使用Scrapy爬取数据时,有时会碰到需要根据传递给Spider的参数来决定爬取哪些Url或者爬取哪些页的情况。例如,百度贴吧的放置奇兵吧的地址如下,其中 kw参数用来指定贴吧名称、pn参数用来对帖子进行翻页。https://tieba.baidu.com/f?kw=放置奇兵&...转载 2020-01-13 17:54:46 · 579 阅读 · 1 评论 -
python 文件读取
读取整个文件操作文件的第一步就是得打开要操作的文件,然后进行读取。在python中我们可以使用open函数来打开一个文件,然后使用read方法来读取文件。示例:import oswith open('data.txt', encoding='utf-8') as file_obj: contents = file_obj.read() print(contents....转载 2020-01-13 14:05:20 · 251 阅读 · 0 评论