@懒羊羊-优快云博客

原创爬取腾讯网的世界疫情实时数据

import csv, requests # 导入请求模块import pymysqldef save_html(a): db = pymysql.connect('localhost', 'root', 'root', 'spider', charset='utf8') cursor = db.cursor() ins = 'insert into coronavirus values(%s, %s,%s, %s, %s, %s, %s)' cursor.e...

2021-05-12 09:12:37 916

原创 Hadoop、zookeeper、kafka、flume启动

1.hadoopstart-dfs.sh | stop-dfs.shstart-yarn.sh | stop-yarn.sh zookeeperzookeeper的bin目录下： ./zkServer.sh start | ./zkServer.sh stopkafka(需要先启动zookeeper)，在kafka的bin目录里执行kafka-server-start.sh /training/kafka_2.11-2.3.1/config/se

2020-11-25 19:23:55 324

原创 pycharm中安装scrapy

顺序下载如下包: 右键 file --> settings --> Project:Spider --> Python Interpreterwheel、lxml、Twisted、requests、selenium、scrapyScrapy常用命令创建爬虫项目 —— scrapy startproject 项目名创建爬虫文件 —— scrapy genspider 爬虫名域名运行爬虫 —— scrapy crawl 爬虫名例：scrapy项目结构Gushi..

2020-11-13 17:18:43 761

原创 Python scrapy爬取古诗文网，数据存入mongo

一、在items.py文件中定义数据结构title: 诗词的标题writer：诗词的作者dynasty：诗词编写的朝代content: 诗词的正文content_url：正文链接二、shici.py分析爬取内容三、settings.py配置相关内容四、pipelines.py中写入mongo1、items.py文件# Define here the models for your scraped items## See documentation in:# https://do

2020-11-13 16:41:22 476

原创 MongoDB 创建user和collection

一、创建user db.createUser({... user:"Wendy",... pwd:"123456",... roles:[{... role:"readWrite",... db:"spider"...... }]... })二、创建collection db.createCollection("scrapy")三。成功截图，如要查看collection，命令： show collections...

2020-11-06 18:10:30 537

原创 cmd进入mysql

cmd进入mysql命令： mysql -uroot -p到安装目录下进入设置环境变量，可直接进入

2020-11-06 18:04:52 192

原创爬取腾讯视频 xpath方式

以xpath方式爬腾讯视频里电影的链接，海报链接，演员，简介等如 href=" " 这种类型数据，可以@href来提取import requestsfrom fake_useragent import UserAgentfrom lxml import etreeimport numpy as npfrom pandas import DataFrameclass Tencent(object): def __init__(self): self.he.

2020-10-27 10:03:48 1599 1

原创常用快捷键

代码一键（取消）注释多行代码 —— Ctrl + /右键没有了 java class

2020-10-27 10:01:56 149

原创 mongoDB安装时提示没有权限

问题：解决：第一步：查看服务中是否有MongoDB第二步：如果有，则以管理员身份运行cmd，执行 sc delete MongoDB(服务的名称，可能有所不同)，删除默认安装的MongoDB服务第三步：双击运行 MongoDB.exe第四步：在安装目录下创建data、log文件夹， log里创建名为 mongodb.log的文本文件第五步：配置环境变量第六步：以管理员身份运行cmd，输入 mongo , 出现相关信息第七步：cmd 中输入： mongod --dbp

2020-10-26 13:24:45 4047 1

qq_46659912的博客