- 博客(38)
- 资源 (3)
- 收藏
- 关注

原创 Centos6无法使用yum源的问题 /var/cache/yum/x86_64/6/base/mirrorlist
1、通过执行如下命令修改fastestmirror.conf的配置参数sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestmirror.conf2、备份文件mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak3、如果是香港服务器或者海外,替换为官方Vault源curl -o /etc/yum.repos.d/C..
2021-04-13 13:17:13
3055
20

原创 基于Redis数据库的IP代理池设计
使用Redis数据的zset-有序集合键作为IP代理管理分数更新的机制实例:(底部附:代理池全部代码实现)# -*- coding: utf-8 -*-import requestsfrom examples.t import get_proxiesfrom proxypool.setting import TEST_URLimport redisimport threadingredis = redis.Redis(host='192.168.', port='', password
2020-05-20 14:38:55
516

原创 爬虫反编译java源码,将获取到的apk包转换成jar文件
安装Java环境:https://www.java.com/zh_CN/download/cmd命令下进入反编译器文件当前目录执行:java -jar jadx-gui进入反编译界面:运行后弹出选择文件窗口:选择需要反编译的文件得到java源码至此反编译java结束接着就是查看源码逆向操作了...
2020-05-08 09:45:39
383

原创 京东商城百万数据抓取--苏宁易购,淘宝网,京东商城,百万级价格数据海量抓取
按照惯例先上成果:过了分割线就是源码了,一直复制运行一直爽# -*- coding: utf-8 -*-import requestsimport reimport timeimport datetimeimport csvimport urllib.parsedef request_jd(): list = ('电池', '碗', '花', '手机...
2020-05-07 18:18:27
408

原创 苏宁易购,淘宝网,京东商城,百万级价格数据海量抓取
先上成果再说话:看完成果直接上代码:还是那句话运行就完事了# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csvdef cn_url(): list = ('电池', '碗', '花', '手机', '后壳') for kw in list...
2020-05-07 17:45:07
326

原创 当当网,京东商城,一号店,苏宁易购百万数据抓取爬虫程序
话不多说上菜:复制代码运行数据到手# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csv#http://category.dangdang.com/pg2-cid4001049-lp166-hp168.html# star_url = 'http://catego...
2020-05-07 17:21:57
510

原创 简单的JS逆向爬虫
# -*- coding: UTF-8 -*-import requestsimport execjsurl = "https://fanyi.baidu.com/v2transapi"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Fire...
2020-05-06 17:37:09
892
原创 电脑主动清缓存
打开任务管理器--新建任务--输入cmd--chkdsk---sfc/scannow(修复文件)---win+R--打开运行框:输入:%temp%
2024-12-11 23:56:02
422
原创 SecureCRT中文乱码问题,设置
点击左上角options--sesion options--appearance。Normal font:新宋体 10pt。
2024-12-09 13:51:36
150
原创 scala idea 错误:找不到或无法加载主类
首先检查配置是否有问题没问题在看:scala文件是否设置好:右键-Mark Directory as-绿色的sources
2022-05-22 11:26:54
1853
原创 flink_kafka consumer
import org.apache.flink.streaming.api.scala.DataStreamimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.api.scala._import nn.MyKafkaUtilobject StartupApp { def main(args: Array[String]): Unit = { val e...
2022-03-16 16:47:00
2173
原创 sp————sql2.0
尚硅谷大数据技术之SparkSQL(作者:尚硅谷大数据研发部)版本:V2.0Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data
2021-12-23 00:43:03
282
原创 C————lickhouse
第1章 ClickHouse入门ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库(DBMS),使用C++语言编写,主要用于在线分析处理查询(OLAP),能够使用SQL查询实时生成分析数据报告。 ClickHouse的特点 1.1.1 列式存储以下面的表为例: Id Name Age 1 张三 18 2 ..
2021-12-23 00:36:17
778
原创 h——base
第1章 HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2HBase数据模型逻辑上,HBase的数据模型同关系型数据库很类似,数据存储在一张表中,有行有列。但从HBase的底层物理存储结构(K-V)来看,HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3数据模型1)Name Space命名空间,类似于关系型数据...
2021-12-23 00:34:03
656
原创 f数--仓
环境准备1.1虚拟机准备克隆三台虚拟机(hadoop101、hadoop102、hadoop103),配置好对应主机的网络IP、主机名称、关闭防火墙。设置hadoop102、hadoop103、hadoop104的主机对应内存分别是:4G、4G、4G1.2配置免密登录配置ssh免密登录[root@hadoop101 ~]# vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4...
2021-12-23 00:31:16
2738
原创 S_P_A_R_K_性能调优
Spark性能调优 常规性能调优 常规性能调优一:最优资源配置 Spark性能调优的第一步,就是为任务分配更多的资源,在一定范围内,增加资源的分配与性能的提升是成正比的,实现了最优的资源配置后,在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定,标准的Spark任务提交脚本如代码清单2-1所示:代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit \--clas...
2021-12-20 22:23:28
225
原创 S_P_A_R_K_入门
第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史1.3 Spark内置模块Spark Core:实现了Spark的基本功能,包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet,简称RDD)的API定义。Spark SQL:是Spark用来操作结构化数据的程序包。通过Spa..
2021-12-20 22:21:44
342
原创 S_P_A_R_K_stream
Spark Streaming概述 离线和实时概念 数据处理的延迟离线计算就是在计算开始前已知所有输入数据,输入数据不会产生变化,一般计算量级较大,计算时间也较长。例如今天早上一点,把昨天累积的日志,计算出所需结果。最经典的就是Hadoop的MapReduce方式;实时计算输入数据是可以以序列化的方式一个个输入并进行处理的,也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比,运行时间短,计算量级相对较小。强调计算过程的时间要短,即所查当下给出结果。 批量和流式概念..
2021-12-20 22:19:27
246
原创 S_P_A_R_K_SQL
尚硅谷大数据技术之SparkSQL(作者:尚硅谷大数据研发部)版本:V2.0Spark SQL概述 什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同,Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部,Spark SQL使用这些额外的信息去做一些额外的优化,有多种方式与Spark SQL进行交互,比如: SQL和Data
2021-12-20 22:16:53
230
原创 S_P_A_R_K_core
尚硅谷大数据技术之SparkCore(作者:尚硅谷大数据研发部)版本:V2.0RDD概述 RDD引入之IO流 什么是RDD RDD特性 A list of partitions多个分区,分区可以看成是数据集的基本组成单位对于 RDD 来说,每个分区都会被一个计算任务处理, 并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数, 如果没有指定, 那么就会采用默认值。 默认值就是程序所分配到的 CPU Core 的数目.每个.
2021-12-20 22:14:34
210
原创 s_p_a_r_k_内核
Spark内核概述Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 Spark核心组件回顾 1.1.1 DriverSpark驱动器节点,用于执行Spark任务中的main方法,负责实际代码的执行工作。Driver在Spark作业执行时主要负责:将...
2021-12-20 22:07:43
309
原创 1_gbl
//5.创建MySQL CDC SourceDebeziumSourceFunction<String> sourceFunction = MySQLSource.<String>builder().hostname("hadoop102").port(3306).username("root").password("000000").databaseList("gmall2021...
2021-12-06 00:10:12
223
原创 flink CDC binlog设置
StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);DebeziumSourceFunction<String> sourceFunction = MySqlSource.<String>builder() .hostname("hadoop102") .port(3306) .
2021-12-04 17:13:43
2338
原创 Flink_Sql
2.2 FlinkSQL方式的应用2.2.1 代码实现import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.runtime.state.filesystem.FsStateBackend;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.stream
2021-12-03 00:23:23
120
原创 flink_CDC
第2章 FlinkCDC案例实操2.1 DataStream方式的应用2.1.1 导入依赖<dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.12.0</version>...
2021-12-03 00:20:37
2165
原创 操作ml_f
flink listflink run -c class_nameyarn application -list | grepyarn application -kill
2021-11-29 00:12:32
166
原创 scala1_f_r_k
bin/yarn-session.sh -n 4 -s 4 -jm 2048 -tm 2048 -nm check_id &./flink run --class HardDiskSerial_Check com.flink.honor.wwc-1.0-SNAPSHOT.jar查看运行进程:ps -ef|grep java查看jps:jps -m查看yarn任务:yarn application -list | grep dmp通过命令来停止 yarn application ...
2021-11-28 23:50:00
158
原创 flink批处理_java
<properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <flink.version>1.10.0</flink.version> <scala.bin.version>2.11&l..
2021-11-28 23:41:47
153
原创 hive出现错误:FAILED: ParseException line 6:0 character ‘ ‘ not supported here
明显是语法错误把代码复制到notepad++下替换掉非法空白符就可以了
2021-05-10 22:22:08
950
2
原创 jpsall查看集群jps状态sh脚本
在/bin 下创建jpsall文件打开写入以下内容:#!/bin/bash# 执行jps命令查询每台服务器上的节点状态echo ======================集群节点状态====================for i in hadoop102 hadoop103 hadoop104do echo ====================== $i ==================== sshatguigu@$i '/opt/module...
2021-04-14 16:01:33
707
原创 win10浏览器访问hadoop集群端口设置
Window下打开并修改C:\Windows\System32\drivers\etc\host192.168.1.102hadoop102 hadoop102192.168.1.102hadoop103hadoop103
2021-04-08 20:56:21
453
原创 win10下anaconda安装TensorFlow指定版本
首先下载安装anaconda:https://pan.baidu.com/s/11xJCoAEEqgYt3iAqZsaVyQ提取码:wxcl建议安装时修改安装路径不要使用官方路径不然会出现导包不正常的问题:傻瓜安装好后开始安装TensorFlow第一步、在anaconda中创建TensorFlow独立运行的环境:conda create --name tensorflow python=3.6然后激活环境:activate tensorflow第二步、使用命令安装指定版本
2020-06-09 10:33:49
1416
原创 IP代理池调用方式
前提:代理池已将ip存入Redis数据库中了,如何提高使用代理池中的IP质量通过一个访问脚本获得高质量访问目标网站的IP代理:# -*- coding: utf-8 -*-import threading,time,randomimport requestsimport redisimport refrom fake_useragent import UserAgentredis = redis.Redis(host='192.168.0.64', port='6666', passw
2020-05-26 16:23:38
754
原创 Python获取当前时间戳-毫秒
import timeimport rett = re.findall('^\d{13}',str(time.time()).replace('.',''))[0]print(tt)
2020-05-13 15:42:53
1869
原创 分布式多进程phantomjs优化
1、正确设计进程的超时时间避免堵塞2、正确放置异常的捕获位置3、灵活使用quit()方法4、redis哈希键分布式设计from selenium import webdriverimport threadingimport timeimport redisimport reimport csvimport datetimeimport pymysql...
2019-08-08 10:36:03
209
原创 redis识别归属地
##############号段入库标记############ -*- coding: utf-8 -*-import reimport redisr_conn = redis.Redis(host='192.168',port='6666',password='')import csvdef get_data(t1): f2 = open('合肥_手机号段查询.txt',...
2019-08-08 10:32:58
169
Appium-desktop1.13.0.rar
2020-05-14
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人