
python
I'm_Jenson
毕业于曾正理工学院
精通python,mysql,linux,wxpython
精通各种爬虫框架(scrapy,selenium,requests)
具有2年爬虫开发工作经验
熟悉数据分析模块pandas,numpy,pyecharts
精通photoshop精细修图
展开
-
Python - 内置函数、字符串方法、保留字
查看python内置函数: import builtins for b in dir(builtins): print(b) abs(int) 取一个数的绝对值 all(iterable) 判断可迭代对象中所有元素是否全为True( 0、空、None、False),有则返回False,参数为空迭代对象时为True any(iterable) 判断可迭代对象中有任意一个元素为真返回True,所有元素为空返回False,参数为空迭代对象返回False ascii(int/str) 把输入参数(如字符串字符参数原创 2020-07-19 15:26:53 · 399 阅读 · 0 评论 -
51job爬虫职位数据分析实战
国际惯例:导入模块 import pandas as pd import numpy as np import matplotlib.pyplot as plt import pymysql,re import pyecharts.charts as pc from pyecharts import options as opts from pyecharts.globals import ThemeType %matplotlib inline 加载数据 # 创建mysql数据库对象 conn = py原创 2020-07-19 14:51:37 · 1756 阅读 · 3 评论 -
scrapy爬虫实战 - 51job爬虫职位爬取
思路: 首先爬取所有内容页的链接存储到数据库 然后再新建一个scrapy 爬取这些链接 需要用到的模块:scrapy urllib pymysql 内容页链接爬取 这里使用scrapy的通用爬虫框架 创建命令:scrapy genspider -t crawl [name] [domains] # -*- coding: utf-8 -*- import scrapy from scrapy.linkextractors import LinkExtractor from scrapy.spid..原创 2020-07-18 16:05:15 · 1290 阅读 · 0 评论 -
Python - 分布式爬取百度贴吧
Environment Configure: Scrapy settings.py middlewares.py tieba.py Selenium Redis MongoDB Linux step 1:scrapy startproject name windows写好的爬虫文件整个传进linux无法辨识settings.py属于哪个爬虫 linux中创建scrapy爬虫 windows中编写好scrapy爬虫文件对应覆盖linux中scrapy爬虫文件即可 step 2:settings.py原创 2020-07-16 16:14:33 · 230 阅读 · 1 评论 -
豆瓣读书数据分析实战
本次分析内容: 分析所有书籍评分情况 热门书籍TOP20 书名高频词汇 作者出版书数量TOP20 每年出版书籍数量分布 热评作者TOP20 每年出版最受欢迎的类别 书籍最多的分类TOP20 热评分类TOP20 导入模块 import pandas as pd import numpy as np import pymysql,re import matplotlib.pyplot as plt %matplotlib inline 读取数据库数据 conn = pymysql.connect("l原创 2020-07-13 16:13:13 · 3931 阅读 · 2 评论 -
Python分布式爬虫实战 - 豆瓣读书
01.是否为整数 >>> str="1234567890" >>> str.isdigit() True 02.是否为字母 >>> str.isalpha() False原创 2019-08-06 15:26:55 · 1086 阅读 · 1 评论