清风徐来水波不兴fate-优快云博客

原创 Centos6无法使用yum源的问题 /var/cache/yum/x86_64/6/base/mirrorlist

1、通过执行如下命令修改fastestmirror.conf的配置参数sed -i "s|enabled=1|enabled=0|g" /etc/yum/pluginconf.d/fastestmirror.conf2、备份文件mv /etc/yum.repos.d/CentOS-Base.repo /etc/yum.repos.d/CentOS-Base.repo.bak3、如果是香港服务器或者海外，替换为官方Vault源curl -o /etc/yum.repos.d/C..

2021-04-13 13:17:13 3055 20

原创基于Redis数据库的IP代理池设计

使用Redis数据的zset-有序集合键作为IP代理管理分数更新的机制实例：（底部附：代理池全部代码实现）# -*- coding: utf-8 -*-import requestsfrom examples.t import get_proxiesfrom proxypool.setting import TEST_URLimport redisimport threadingredis = redis.Redis(host='192.168.', port='', password

2020-05-20 14:38:55 516

原创爬虫反编译java源码，将获取到的apk包转换成jar文件

安装Java环境：https://www.java.com/zh_CN/download/cmd命令下进入反编译器文件当前目录执行：java -jar jadx-gui进入反编译界面：运行后弹出选择文件窗口：选择需要反编译的文件得到java源码至此反编译java结束接着就是查看源码逆向操作了...

2020-05-08 09:45:39 383

原创京东商城百万数据抓取--苏宁易购，淘宝网，京东商城，百万级价格数据海量抓取

按照惯例先上成果:过了分割线就是源码了，一直复制运行一直爽# -*- coding: utf-8 -*-import requestsimport reimport timeimport datetimeimport csvimport urllib.parsedef request_jd(): list = ('电池', '碗', '花', '手机...

2020-05-07 18:18:27 408

原创苏宁易购，淘宝网，京东商城，百万级价格数据海量抓取

先上成果再说话：看完成果直接上代码：还是那句话运行就完事了# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csvdef cn_url(): list = ('电池', '碗', '花', '手机', '后壳') for kw in list...

2020-05-07 17:45:07 326

原创当当网,京东商城，一号店，苏宁易购百万数据抓取爬虫程序

话不多说上菜：复制代码运行数据到手# -*- coding: utf-8 -*-import reimport requestsimport timeimport datetimeimport csv#http://category.dangdang.com/pg2-cid4001049-lp166-hp168.html# star_url = 'http://catego...

2020-05-07 17:21:57 510

原创简单的JS逆向爬虫

# -*- coding: UTF-8 -*-import requestsimport execjsurl = "https://fanyi.baidu.com/v2transapi"headers = { "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:66.0) Gecko/20100101 Fire...

2020-05-06 17:37:09 892

原创 1688，苏宁yg等网站爬虫定期发布，jiage--50-200

苏宁：

2020-04-21 13:59:20 216

原创电脑主动清缓存

打开任务管理器--新建任务--输入cmd--chkdsk---sfc/scannow(修复文件)---win+R--打开运行框：输入：%temp%

2024-12-11 23:56:02 422

原创 SecureCRT中文乱码问题，设置

点击左上角options--sesion options--appearance。Normal font：新宋体 10pt。

2024-12-09 13:51:36 150

原创 Excel取值公式

功能：取该单元格的前六个字符，下拉复制公式可实现自动识别取值。

2024-10-18 11:17:31 214

原创 scala idea 错误：找不到或无法加载主类

首先检查配置是否有问题没问题在看：scala文件是否设置好：右键-Mark Directory as-绿色的sources

2022-05-22 11:26:54 1853

原创 flink_kafka consumer

import org.apache.flink.streaming.api.scala.DataStreamimport org.apache.flink.streaming.api.scala.StreamExecutionEnvironmentimport org.apache.flink.api.scala._import nn.MyKafkaUtilobject StartupApp { def main(args: Array[String]): Unit = { val e...

2022-03-16 16:47:00 2173

原创 sp————sql2.0

尚硅谷大数据技术之SparkSQL(作者：尚硅谷大数据研发部)版本：V2.0Spark SQL概述什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息去做一些额外的优化，有多种方式与Spark SQL进行交互，比如: SQL和Data

2021-12-23 00:43:03 282

原创 C————lickhouse

第1章 ClickHouse入门ClickHouse 是俄罗斯的Yandex于2016年开源的列式存储数据库（DBMS），使用C++语言编写，主要用于在线分析处理查询（OLAP），能够使用SQL查询实时生成分析数据报告。 ClickHouse的特点 1.1.1 列式存储以下面的表为例： Id Name Age 1 张三 18 2 ..

2021-12-23 00:36:17 778

原创 h——base

第1章 HBase简介1.1 HBase定义HBase是一种分布式、可扩展、支持海量数据存储的NoSQL数据库。1.2HBase数据模型逻辑上，HBase的数据模型同关系型数据库很类似，数据存储在一张表中，有行有列。但从HBase的底层物理存储结构（K-V）来看，HBase更像是一个multi-dimensional map。1.2.1 HBase逻辑结构1.2.2 HBase物理存储结构1.2.3数据模型1）Name Space命名空间，类似于关系型数据...

2021-12-23 00:34:03 656

原创 f数--仓

环境准备1.1虚拟机准备克隆三台虚拟机（hadoop101、hadoop102、hadoop103），配置好对应主机的网络IP、主机名称、关闭防火墙。设置hadoop102、hadoop103、hadoop104的主机对应内存分别是：4G、4G、4G1.2配置免密登录配置ssh免密登录[root@hadoop101 ~]# vim /etc/hosts127.0.0.1 localhost localhost.localdomain localhost4 localhost4...

2021-12-23 00:31:16 2738

原创 S_P_A_R_K_性能调优

Spark性能调优常规性能调优常规性能调优一：最优资源配置 Spark性能调优的第一步，就是为任务分配更多的资源，在一定范围内，增加资源的分配与性能的提升是成正比的，实现了最优的资源配置后，在此基础上再考虑进行后面论述的性能调优策略。资源的分配在使用脚本提交Spark任务时进行指定，标准的Spark任务提交脚本如代码清单2-1所示：代码清单2-1 标准Spark提交脚本/usr/opt/modules/spark/bin/spark-submit \--clas...

2021-12-20 22:23:28 225

原创 S_P_A_R_K_入门

第1章 Spark概述1.1 什么是SparkSpark是一种基于内存的快速、通用、可扩展的大数据分析计算引擎。1.2 Spark历史1.3 Spark内置模块Spark Core：实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed DataSet，简称RDD)的API定义。Spark SQL：是Spark用来操作结构化数据的程序包。通过Spa..

2021-12-20 22:21:44 342

原创 S_P_A_R_K_stream

Spark Streaming概述离线和实时概念数据处理的延迟离线计算就是在计算开始前已知所有输入数据，输入数据不会产生变化，一般计算量级较大，计算时间也较长。例如今天早上一点，把昨天累积的日志，计算出所需结果。最经典的就是Hadoop的MapReduce方式；实时计算输入数据是可以以序列化的方式一个个输入并进行处理的，也就是说在开始的时候并不需要知道所有的输入数据。与离线计算相比，运行时间短，计算量级相对较小。强调计算过程的时间要短，即所查当下给出结果。批量和流式概念..

2021-12-20 22:19:27 246

原创 S_P_A_R_K_SQL

尚硅谷大数据技术之SparkSQL(作者：尚硅谷大数据研发部)版本：V2.0Spark SQL概述什么是Spark SQL Spark SQL是Spark用于结构化数据(structured data)处理的Spark模块。与基本的Spark RDD API不同，Spark SQL的抽象数据类型为Spark提供了关于数据结构和正在执行的计算的更多信息。在内部，Spark SQL使用这些额外的信息去做一些额外的优化，有多种方式与Spark SQL进行交互，比如: SQL和Data

2021-12-20 22:16:53 230

原创 S_P_A_R_K_core

尚硅谷大数据技术之SparkCore(作者：尚硅谷大数据研发部)版本：V2.0RDD概述 RDD引入之IO流什么是RDD RDD特性 A list of partitions多个分区，分区可以看成是数据集的基本组成单位对于 RDD 来说，每个分区都会被一个计算任务处理，并决定了并行计算的粒度。用户可以在创建 RDD 时指定 RDD 的分区数，如果没有指定，那么就会采用默认值。默认值就是程序所分配到的 CPU Core 的数目.每个.

2021-12-20 22:14:34 210

原创 s_p_a_r_k_内核

Spark内核概述Spark内核泛指Spark的核心运行机制，包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等，熟练掌握Spark内核原理，能够帮助我们更好地完成Spark代码设计，并能够帮助我们准确锁定项目运行过程中出现的问题的症结所在。 Spark核心组件回顾 1.1.1 DriverSpark驱动器节点，用于执行Spark任务中的main方法，负责实际代码的执行工作。Driver在Spark作业执行时主要负责：将...

2021-12-20 22:07:43 309

原创 1_gbl

//5.创建MySQL CDC SourceDebeziumSourceFunction<String> sourceFunction = MySQLSource.<String>builder().hostname("hadoop102").port(3306).username("root").password("000000").databaseList("gmall2021...

2021-12-06 00:10:12 223

原创 flink CDC binlog设置

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();env.setParallelism(1);DebeziumSourceFunction<String> sourceFunction = MySqlSource.<String>builder() .hostname("hadoop102") .port(3306) .

2021-12-04 17:13:43 2338

原创 Flink_Sql

2.2 FlinkSQL方式的应用2.2.1 代码实现import org.apache.flink.api.common.restartstrategy.RestartStrategies;import org.apache.flink.runtime.state.filesystem.FsStateBackend;import org.apache.flink.streaming.api.CheckpointingMode;import org.apache.flink.stream

2021-12-03 00:23:23 120

原创 flink_CDC

第2章 FlinkCDC案例实操2.1 DataStream方式的应用2.1.1 导入依赖<dependencies><dependency><groupId>org.apache.flink</groupId><artifactId>flink-java</artifactId><version>1.12.0</version&gt...

2021-12-03 00:20:37 2165

原创操作ml_f

flink listflink run -c class_nameyarn application -list | grepyarn application -kill

2021-11-29 00:12:32 166

原创 scala1_f_r_k

bin/yarn-session.sh -n 4 -s 4 -jm 2048 -tm 2048 -nm check_id &./flink run --class HardDiskSerial_Check com.flink.honor.wwc-1.0-SNAPSHOT.jar查看运行进程：ps -ef|grep java查看jps：jps -m查看yarn任务：yarn application -list | grep dmp通过命令来停止 yarn application ...

2021-11-28 23:50:00 158

原创 flink批处理_java

<properties> <maven.compiler.source>8</maven.compiler.source> <maven.compiler.target>8</maven.compiler.target> <flink.version>1.10.0</flink.version> <scala.bin.version>2.11&l..

2021-11-28 23:41:47 153

原创 hive出现错误：FAILED: ParseException line 6:0 character ‘ ‘ not supported here

明显是语法错误把代码复制到notepad++下替换掉非法空白符就可以了

2021-05-10 22:22:08 950 2

原创 jpsall查看集群jps状态sh脚本

在/bin 下创建jpsall文件打开写入以下内容：#!/bin/bash# 执行jps命令查询每台服务器上的节点状态echo ======================集群节点状态====================for i in hadoop102 hadoop103 hadoop104do echo ====================== $i ==================== sshatguigu@$i '/opt/module...

2021-04-14 16:01:33 707

原创 win10浏览器访问hadoop集群端口设置

Window下打开并修改C:\Windows\System32\drivers\etc\host192.168.1.102hadoop102 hadoop102192.168.1.102hadoop103hadoop103

2021-04-08 20:56:21 453

原创 win10下anaconda安装TensorFlow指定版本

首先下载安装anaconda：https://pan.baidu.com/s/11xJCoAEEqgYt3iAqZsaVyQ提取码：wxcl建议安装时修改安装路径不要使用官方路径不然会出现导包不正常的问题：傻瓜安装好后开始安装TensorFlow第一步、在anaconda中创建TensorFlow独立运行的环境：conda create --name tensorflow python=3.6然后激活环境：activate tensorflow第二步、使用命令安装指定版本

2020-06-09 10:33:49 1416

原创 IP代理池调用方式

前提：代理池已将ip存入Redis数据库中了，如何提高使用代理池中的IP质量通过一个访问脚本获得高质量访问目标网站的IP代理：# -*- coding: utf-8 -*-import threading,time,randomimport requestsimport redisimport refrom fake_useragent import UserAgentredis = redis.Redis(host='192.168.0.64', port='6666', passw

2020-05-26 16:23:38 754

原创 Python获取当前时间戳-毫秒

import timeimport rett = re.findall('^\d{13}',str(time.time()).replace('.',''))[0]print(tt)

2020-05-13 15:42:53 1869

原创分布式多进程phantomjs优化

1、正确设计进程的超时时间避免堵塞2、正确放置异常的捕获位置3、灵活使用quit()方法4、redis哈希键分布式设计from selenium import webdriverimport threadingimport timeimport redisimport reimport csvimport datetimeimport pymysql...

2019-08-08 10:36:03 209

原创 redis识别归属地

##############号段入库标记############ -*- coding: utf-8 -*-import reimport redisr_conn = redis.Redis(host='192.168',port='6666',password='')import csvdef get_data(t1): f2 = open('合肥_手机号段查询.txt',...

2019-08-08 10:32:58 169

Appium-windows-1.15.1.txt

Appium-desktop1.13.0.rar

百度地图的scrapy爬虫项目

空空如也