- 博客(9)
- 资源 (1)
- 收藏
- 关注
原创 爬取腾讯网的世界疫情实时数据
import csv, requests # 导入请求模块import pymysqldef save_html(a): db = pymysql.connect('localhost', 'root', 'root', 'spider', charset='utf8') cursor = db.cursor() ins = 'insert into coronavirus values(%s, %s,%s, %s, %s, %s, %s)' cursor.e...
2021-05-12 09:12:37
916
原创 Hadoop、zookeeper、kafka、flume启动
1.hadoopstart-dfs.sh | stop-dfs.shstart-yarn.sh | stop-yarn.sh zookeeperzookeeper的bin目录下: ./zkServer.sh start | ./zkServer.sh stopkafka(需要先启动zookeeper), 在kafka的bin目录里执行kafka-server-start.sh /training/kafka_2.11-2.3.1/config/se
2020-11-25 19:23:55
324
原创 pycharm中安装scrapy
顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreterwheel、lxml、Twisted、requests、selenium、scrapyScrapy常用命令创建爬虫项目 —— scrapy startproject 项目名创建爬虫文件 —— scrapy genspider 爬虫名 域名运行爬虫 —— scrapy crawl 爬虫名例:scrapy项目结构Gushi..
2020-11-13 17:18:43
761
原创 Python scrapy爬取古诗文网,数据存入mongo
一、在items.py文件中定义数据结构title: 诗词的标题writer: 诗词的作者dynasty:诗词编写的朝代content: 诗词的正文content_url: 正文链接二、shici.py分析爬取内容三、settings.py配置相关内容四、pipelines.py中写入mongo1、items.py文件# Define here the models for your scraped items## See documentation in:# https://do
2020-11-13 16:41:22
476
原创 MongoDB 创建user和collection
一、创建user db.createUser({... user:"Wendy",... pwd:"123456",... roles:[{... role:"readWrite",... db:"spider"...... }]... })二、创建collection db.createCollection("scrapy")三。成功截图, 如要查看collection, 命令: show collections...
2020-11-06 18:10:30
537
原创 爬取腾讯视频 xpath方式
以xpath方式爬腾讯视频里电影的 链接, 海报链接, 演员,简介等如 href=" " 这种类型数据, 可以@href来提取import requestsfrom fake_useragent import UserAgentfrom lxml import etreeimport numpy as npfrom pandas import DataFrameclass Tencent(object): def __init__(self): self.he.
2020-10-27 10:03:48
1599
1
原创 mongoDB安装时提示没有权限
问题:解决:第一步:查看服务中是否有MongoDB第二步:如果有,则 以管理员身份运行cmd, 执行 sc delete MongoDB(服务的名称,可能有所不同), 删除默认安装的MongoDB服务第三步:双击运行 MongoDB.exe第四步:在安装目录下创建data、log文件夹, log里创建名为 mongodb.log的文本文件第五步:配置环境变量第六步:以管理员身份运行cmd, 输入 mongo , 出现相关信息第七步:cmd 中输入: mongod --dbp
2020-10-26 13:24:45
4047
1
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人