
python
文章平均质量分 55
留歌留歌
只要最后那个人是你,晚一点也没关系
展开
-
保留Hive分区的最新文件
写在前面:目前生产上有一个场景就是有一张HIVE的分区表,每5分钟就会有一个任务往 当天的分区里面写数据,但是本身也只需要当天最新的数据,这样下来,小文件就会巨巨巨多,所以不得避免就需要删除之前的文件了,这样也能提升查询速度。方案:用Python执行Bash HDFS命令代码如下:#!/usr/bin/env python# -*- coding: utf-8 -*-import osimport warningswarnings.filterwarnings("ignore")def原创 2021-11-08 09:53:59 · 2019 阅读 · 0 评论 -
记录一次爬虫部署问题-主要爬取别的系统的数据来支撑我们的数据大屏
写在前面由于前同事留下的一个爬虫项目,爬虫主要爬取别的系统的数据来支撑我们的数据大屏。同事留下的是在本地算是基本开发完毕的爬虫项目。我需要做的就是将项目部署上线在服务器上就可以了。但是因为我也刚更新设备,就记录一下我的整个流程。代码是python3的写的,但是Mac OSX系统自带的是python2版本的。所以就想着就使用双Python版本就可以啦。一.安装Python3前置:安装好Ho...原创 2019-07-10 11:16:24 · 469 阅读 · 0 评论 -
基于Spark的电影推荐系统(Scrapy爬虫)
第三部分-Scrapy爬虫(简介)软件架构: Scrapy框架+Python3+项目描述: 爬取国外电影网站的电影数据 ,保存到本地MySQL服务器技术选型:主要开发工具:JetBrains PyCharm : 开发IDE开发环境项目架构项目流程图更多文章:基于Spark的电影推荐系统:https://blog.youkuaiyun.com/liuge36/column/info/292...原创 2019-01-10 17:12:22 · 3237 阅读 · 1 评论 -
Python模拟产生实时信令
模拟信令的生成import randomimport timeimport osinfos = [ "116.191031,39.988585", "116.389275,39.925818", "116.287444,39.810742", "116.481707,39.940089&原创 2019-01-10 15:56:04 · 532 阅读 · 0 评论 -
Python日志产生器
Python日志产生器写在前面 有的时候,可能就是我们做实时数据收集的时候,会有一个头疼的问题就是,你会发现,你可能一下子,没有日志的数据源。所以,我们可以简单使用python脚本来实现产生实时的数据,这样就很方便了在编写代码之前,我们得知道我们的webserver日志到底长什么样,下面我找了一段的nginx服务器上真实日志,作为样例:223.104.25.1 - - [原创 2017-11-21 21:07:26 · 2388 阅读 · 2 评论 -
uwsgi+nginx+flask+https
1.第一个简单的Hello Flask# -*- coding: utf-8 -*-# @Time : 2018/8/13 16:29# @Author : 留歌36from flask import Flaskapp = Flask(__name__)@app.route("/hello")def hello(): return "Hello Flask.....原创 2018-08-13 18:01:58 · 535 阅读 · 0 评论 -
windows下虚拟环境virtualenv的简单操作
使用豆瓣源安装 pip install -i https://pypi.douban.com/simple XXX1.安装virtualenv pip install virtualenv2,。一旦virtualenv过多,就蛋疼了,接下来隆重推荐virtualenvwrapperpip install virtualenvwrapper-win 注: linux下运行pip i...原创 2018-08-13 16:11:09 · 3037 阅读 · 0 评论 -
Python 爬虫监控女神的QQ空间新的说说,实现秒赞,并发送说说内容到你的邮箱
这个文章主要是在前一篇文章上新增了说说秒赞的功能前一篇文章可以了解一下那么,这次主要功能就是监控女神的 QQ空间,一旦女神发布新的说说,马上点赞,你的邮箱马上就会收到说说内容,是不是想了解一下直接上代码吧:# -*- coding:utf-8 -*-from selenium import webdriverimport timeimport osfrom e...原创 2018-07-08 11:35:33 · 2456 阅读 · 3 评论 -
Python 爬虫监控女神的QQ空间新的说说,实现邮箱发送
主要实现的功能就是:监控女神的 QQ空间,一旦女神发布新的说说,你的邮箱马上就会收到说说内容代码运行效果图: PS:只有你有一台云服务器你就可以把程序24h运行起来直接上代码:# -*- coding:utf-8 -*-from bs4 import BeautifulSoupfrom selenium import webdriverimport timeimp...原创 2018-07-08 11:17:00 · 1572 阅读 · 5 评论 -
Anaconda基本认识
Anaconda Distribution是执行Python数据科学和机器学习最简单的方法。它包括250多种流行的数据科学软件包,以及适用于Windows,Linux和MacOS的conda软件包和虚拟环境管理器。 Conda使安装,运行和升级复杂的数据科学和机器学习环境(如Scikit-learn,TensorFlow和SciPy)变得简单快捷。Anaconda 安装下载地址:...原创 2018-04-29 17:50:29 · 1440 阅读 · 0 评论 -
Centos安装PhantomJS
1.下载PhantomJS[root@liuge ~]# wget https://bitbucket.org/ariya/phantomjs/downloads/phantomjs-2.1.1-linux-x86_64.tar.bz22.解压,重命名[root@liuge ~]# bzip2 -d phantomjs-2.1.1-linux-x86_64.tar.bz2 [r...原创 2018-04-26 20:33:43 · 873 阅读 · 0 评论 -
Centos7搭建Scrapy爬虫环境
写在前面因为之前的爬虫环境一直是部署在我自己本地的电脑上的,最近,写了一个监控别人空间的爬虫,需要一直线上24小时运行,所有就打算云服务器上部署环境,也捣鼓了好一会才弄好,还是有一些坑,这里先记录一下,方便以后复习…一.替换pyhton2版本为python31.我这里的云服务器是Centos7系统,默认安装的是python2.7的版本,但是,我个人也是不喜欢老的东西,而且好像python2的版本到2原创 2018-04-25 23:20:57 · 4766 阅读 · 0 评论 -
简单python爬虫案例(爬取慕课网全部实战课程信息)
技术选型下载器是Requests 解析使用的是正则表达式 效果图: 准备好各个包# -*- coding: utf-8 -*-import requests #第三方下载器import re #正则表达式import json #格式化数据用from requests.exceptions import RequestException #做异常处理from mul...原创 2018-05-02 12:46:31 · 9547 阅读 · 4 评论 -
centos7下mongoDB安装和配置
1.下载安装包 https://www.mongodb.com/download-center#atlas 直接去官网,找到自己合适的版本 [root@liugePython3 mongoDB]# wget https://fastdl.mongodb.org/linux/mongodb-linux-x86_64-3.6.4.tgz2.解压并重命名移动到指定位置3.在/us...原创 2018-05-01 14:32:42 · 2204 阅读 · 0 评论 -
Python爬虫入门
写在前面学习爬虫也很久了,但是一直没有整理自己的笔记,然后,今天整理的是慕课网疯狂的蚂蚁crazyant 老师的《Python开发简单爬虫》这门课程的内容,大家也可以关注一下这位老师,讲得很不错,这边文章中也加上了自己的一些见解,如有错误,告诉我一下,谢谢什么是爬虫从百度词条中,我们可以知道,爬虫是一段自动抓取万维网信息的程序.通过爬虫我们可以爬取URL,获取我们想要的数据信息爬虫分类我这里就简单从原创 2018-04-30 15:39:20 · 659 阅读 · 0 评论