
python
D调的Stanley
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python 爬取微博实时热搜,并存入数据库实例
刚学python没几天,打算用paython爬去微博热搜数据试验一下,但是发现微博热搜是动态数据,网页源码并不能直接获取想要的数据,network里也并不能找到相关内容,这时重新查看网页源码,发现有类似中文编码的源码,数一下正好50个,不出意外这个就是我们需要的内容,但是这一串字符加了干扰,直接把中间所有的数字25删除后解析成中文发现就是微博热搜的主题以下是完整代码#!python3 #encod...原创 2018-04-01 10:21:39 · 8093 阅读 · 1 评论 -
spark screaming 模拟实战项目实例
由于没有网络日志,我们这里用之前写的python脚本爬取新浪微博热搜模拟产生日志文件,通过kafka和flume整合 将日志定时抽取到 spark上进行处理,微博热搜是十分钟更新一次,我们这里也设置十分钟的定时任务,具体步骤如下第一步编写python脚本获取微博热搜 实时排名,主题和url,然后运行测试,代码如下#!python2 # -*- coding:utf-8 -*- import url...原创 2018-05-03 23:15:43 · 2035 阅读 · 0 评论 -
使用xpath包 爬取房天下信息,并存入excel
由于房天下房源并不是动态加载,属于静态页面,所以爬取起来非常简单,这是我们使用xpath 可以轻易获取信息,以下是爬取杭州新房信息源码,爬取内容为楼盘名称,地址,所在区以及价格# coding:utf-8 import requests, xlwt, sys from lxml import etree reload(sys) sys.setdefaultencoding('utf-8') #...原创 2018-05-29 21:59:49 · 2328 阅读 · 0 评论 -
python获取时间格式为yyyy-MM-dd的时间工具类
通过调用下面的方法获取想要获得的时间,时间格式为yyyy-MM-dd # encoding: utf-8 import datetime def get_curmonth_firstday(): """ 获取当月第一天 :return: """ return datetime.date(datetime.date.today().year,datet...原创 2019-01-30 10:26:02 · 1598 阅读 · 0 评论 -
DataX 源码分析之执行文件datax.py
DataX是阿里开源的一个异构数据源离线同步工具,底层源码使用java开发,编译完成后用python执行,首先我们先来分析datax.py的执行文件 #!/usr/bin/env python # -*- coding:utf-8 -*- import sys import os import signal import subprocess import time import re im...原创 2019-09-04 16:44:56 · 2844 阅读 · 0 评论