- 博客(48)
- 收藏
- 关注
原创 centos磁盘挂载简单操作
前言:磁盘挂载查看磁盘挂载的情况df -h1. 查看未指派的分区inux系统中一台主机上可以有多快硬盘,内核中的udev设备管理器会自动对识别的硬盘进行命名系统采用ap来代表16块不同的硬盘(默认从a开始)/dev/sda代表系统识别的同种型号接口的第一块硬盘,/dev/sdb代表系统识别的同种型号接口的第二快硬盘,依次类推,直到/dev/sdpfdisk -l发现需要挂载的硬盘大部分情况是 sdc硬盘2.对这块硬盘分区fdisk /dev/sdcn p 1 两次回车 w.
2021-11-04 19:03:33
1124
原创 Click House数据类型、数据库、数据表概念和操作
文章目录1 数据类型2 数据库3 数据表3.1 创建表的三种语句3.2 临时表3.3 分区表3.4 视图3.5.数据表的基本操作3.6 数据分区的基本操作3.7 DDL分布式执行4 数据的删除和修改数据类型 数据库 数据表的概念和mysql很像, 但又有细节的区分, 建议好好阅读一遍官网,整理如下.1 数据类型基础数据类型数值整数 Int8 Int16 Int32 Int64浮点数Float32 Float64定点数 Decimal32(S) Decimal64(S)字符串S
2021-11-02 16:31:49
2278
原创 Click House服务的安装和配置(亲自实践,避坑的点)
服务的安装和配置1. 服务安装推荐官方文档我自己做了整理, 按照流程敲就行了(centos7)# Install Clickhouse Repositorysudo su -yum install yum-utilsrpm --import https://repo.clickhouse.tech/CLICKHOUSE-KEY.GPGyum-config-manager --add-repo https://repo.clickhouse.tech/rpm/clickhouse.repoy
2021-11-02 16:19:39
1832
原创 click house学习路线——开篇
click house学习路线官方文档前提: 最近要计算数据指标, 开始使用olap列示存储的数据库, 对click house的使用进行了系统学习推荐阅读的书官方文档地址ClickHouse 原理解析与应用实践(朱凯)占位后续更新…...
2021-11-02 15:26:50
321
原创 oracle11数据使用jdbc导入click house
文章目录背景一 方案选取二 clickhouse-jdbc-bridge的下载和安装三 数据表的创建和导入背景需求要把oracle中的数据导入到click house中,使用clickhouse的jdbc表引擎,把oracle11的数据导入到click house中。一 方案选取使用 clickhouse-jdbc-bridge ,使用click house的JDBC驱动 来查找数据CREATE TABLE [IF NOT EXISTS] [db.]table_name( colum
2021-06-21 19:47:00
1346
原创 mac系统安装AB测试工具 报错APR not found
第一步:下载 Apache HTTP Serverhttp://httpd.apache.org/download.cgi#apache24第二步:安装brew工具https://brew.sh/index_zh-cn第三步、正式安装在正式安装之前,需要先安装apr和pcre,如果报错的话按照提示去做brew install aprbrew install pcrebrew install apr-util然后进入到 httpd-2.4.38 的目录下依次执行如下命令:./con
2021-04-08 12:13:50
511
原创 scrapy 使用selenium作为下载中间件
最近在做scrapy项目的时候, 需要异步渲染动态的网页,自己构建了一个selenium 异步渲染的下载中间件1.爬虫发送请求的时候需要携带参数Request( url=url, meta={"is_selenium": True}, callback=self.parse, dont_filter=True, )2.中间件代码class SeleniumMiddleware(object): """selenium模拟渲染.
2020-12-29 14:54:18
537
原创 windows系统 kafka运行终止, 一个程序正在使用此log文件,进程无法访问的错误
前言:最近一个项目各种因素的限制,需要在windows环境下,使用kafka,kafka服务会因为日志存储的问题,无缘无故的挂掉。在Window环境下使用Kafka时才发现kafka本身对于window的兼容不如Linux1.报错信息报错信息如下:ERROR Shutdown broker because all log dirs in D:\tmp\kafka-logs-1 have failed (kafka.log.LogManager)2.原因kafka日志清理策略触发,在wind.
2020-12-28 15:48:47
2171
1
原创 Python实现常见的加密算法
文章目录一、什么叫数据加密二、数据加密的方式三、加密算法1、单向加密算法(MD5、sha系列)2、对称加密算法(AES、DES)3、非对称加密算法(RSA、DSA)4、补充算法(base64)一、什么叫数据加密数据加密是指利用加密算法和秘钥将明文转变为密文的过程。二、数据加密的方式1、单向加密指只能加密数据而不能解密数据,这种加密方式主要是为了保证数据的完整性,常见的加密算法有MD5、sha系列等(位于python内置的hashlib模块中)。2、对称加密指数据加密和解密使用相同的秘钥,这种加
2020-08-11 18:16:26
3329
原创 爬虫抓取某饿了app商铺的评论数据
前言:最近研究了一下某饿了app的商铺评论的抓取,该app使用了ssl-pinning的技术来防止中间人攻击,中间代理抓包的时候,出现了unknown,你的代理工具的协议不支持,你可以手写协议或者使用下文中提到的方法。1.目标环境的准备:雷电模拟器,要抓取的app,可登录的账号,Charles抓取某饿了app店铺的评论数据,2.抓包寻找接口设置好Charles的环境,配置证书信任后,由于Charles证书并非证书机构颁发的目标站点的合法证书,手机上的抓包神器,PacketCaptur.
2020-08-11 16:41:00
2475
1
原创 自然语言处理学习笔记-day1
文章目录1.前言2.自然语言处理 -- 从规则到统计3.统计语言模型4.谈谈分词5.隐含马尔可夫模型1.前言数字、文字和自然语言一样,都是信息的载体,它们之间原本有着天然的联系。语言和数学的产生都是为了同一个目的 ——记录和传播信息。2.自然语言处理 – 从规则到统计自然语言处理的早期是基于规则的处理方式。 用有限的、严格的规则来描述无限的语言现象。20世纪80年代以前,自然语言处理...
2020-02-11 10:23:15
363
原创 Python机器学习库Top10
文章目录1.TensorFlow2.Scikit-Learn3.NumPy4.Keras5.PyTorch6.7.8.9.10.随着人工智能技术的发展与普及,Python超越了许多其他编程语言,成为了机器学习领域中最热门最常用的编程语言之一。有许多原因致使Python在众多开发者中如此受追捧,其中之一便是其拥有大量的与机器学习相关的开源框架以及工具库。本文就介绍几种机器学习的库。1.Tenso...
2020-01-22 09:42:43
523
原创 数据处理—OLTP与OLAP
1.前言数据处理大概分为两个类型,联机事务处理(OLTP)和联机分析处理(OLAP)OLTP是 online Transaction processing, 联机事务处理系统。主要目标是数据的处理,而不是数据的分析。OLTP系统的主要关注点是记录事务当前的更新,增加,删除等操作,类似于对MySQL数据库的操作。OLTP的查询比较简短,需要比较少的处理时间和较少的空间。OLAP是 On-Li...
2020-01-21 14:40:31
894
原创 数据的批处理和流处理
1.批处理新到达的数据元素被收集到一个组中。整个组在未来的时间进行处理,批量处理一定时间段,一定数量或者一定大小的数据组。历史上,绝大多数数据处理技术都是为批处理而设计的。传统的数据仓库和Hadoop是专注于批处理的系统的两个常见示例。批处理有延迟性2.流处理在流处理中,每一条新数据都会在到达时进行处理。与批处理不同,在下一批处理间隔之前不会等待,每一条数据将作为单独的碎片进行处理...
2020-01-21 11:18:57
1609
原创 Lambda架构和Kappa架构
Lambda架构Lambda系统架构定义了一套明确的架构原则,如果要建立一个强大的和可扩展的数据系统,必须服从下面的架构图。Lambda架构的原则人为容错性:系统易数据丢失或者数据损坏,大规模时可能是无法挽回的数据不可变性:数据存储在它的最原始的形式是不变的,永久的。重新计算:运行函数重新计算结果Lambda架构由三层组成:批处理层 服务层 速度层,如上图的架构图中所示一个...
2020-01-21 11:03:47
906
原创 新浪微博爬虫-抓取用户发布的微博
1.寻找接口在浏览器中访问微博寻找接口请求 https://weibo.com/yangmiblog?profile_ftype=1&is_all=1#_0 杨幂发布所有的微博列表页,每个微博用户唯一不同的是 yangmiblog 这一部分,其他的微博列表替换掉这一部分就行详情页的接口,有很多每个接口,在列表页中寻找详情页所需要的参数,拼接就行接口1,老微博的接口 https:...
2020-01-17 10:53:27
1909
原创 conda创建Python虚拟环境
1.检查conda的版本conda -v2.conda常见命令conda list 查看当前环境安装了哪些包conda env list 当前有哪些虚拟环境conda update conda 检查更新当前conda3.创建虚拟环境conda create -n your_env_name python=X.X切换到这个虚拟环境 conda activate your_e...
2020-01-13 19:45:11
845
原创 Selenium的使用(超详细)
文章目录1.selenium的安装和浏览器驱动2.webdriver对象和属性options设置3. 发起请求4.查找元素5. 获取cookie6.页面/frame/历史记录切换7.操作鼠标或者键盘8.等待页面加载完成9.提交JS脚本1.selenium的安装和浏览器驱动pip install selenium保证机器上有Chrome浏览器,下载对应浏览器的驱动Chrome浏览器驱动下...
2020-01-13 15:43:14
1447
原创 ElasticSearch7 新特性-type类型报错
文章目录背景1. ES 数据库的存储结构变化:去除了Type2.创建索引mapping关系的时候,容易出的错:Root mapping definition has unsupported parameters3.默认配置变化:默认节点名称为主机名,默认分片数为1,不再是54.查询相关速度优化:Weak-AND算法5.彻底废除_all 字段的支持,为提升性能默认不在支持全文检索6.新增的功能6.1...
2020-01-13 11:08:32
10944
4
原创 乐观锁和悲观锁学习和应用
文章目录一. 乐观锁和悲观锁概念1.1 悲观锁1.2 乐观锁二. 乐观锁和悲观锁的使用场景三. 乐观锁和悲观锁的实现例子一. 乐观锁和悲观锁概念1.1 悲观锁总是假设最坏的情况,每次读取数据的时候总是认为其他线程会修改,所以都会加锁(读锁,写锁,行锁),当其他线程想要操作数据时,都需要阻塞挂起,等这个线程释放锁之后,其他线程才可以处理。悲观锁可以依靠数据库来实现。悲观锁的例子:InnoD...
2020-01-11 17:34:07
2461
2
原创 MySQL学习笔记(完整)
文章目录1. 启动和登录2.修改MySQL密码的几种方式3. 数据库的操作4. 表的操作5.数据的操作6.字符集编码7.数据类型(字段的类型)8.列属性9.建表的规范和三范式10.常见的查询10.1 SELECT10.2 UNION 组合查询10.3 子查询10.4 JOIN 链接查询10.5 INSERT语句10.6 DELETE,TRUNCATE, DROP11 备份与还原12.视图VIEW1...
2020-01-08 15:31:47
6541
3
原创 Django数据库MySQL的操作
文章目录1.数据库的配置2.数据库模型类models3.设置好models类后创建数据库进行迁移操作4.数据操作4.1 增加数据4.2 查看数据4.3 修改数据4.4 删除数据5.任务线程数据库连接失效处理(高并发)1.数据库的配置安装pymysql模块pip install pymysql在settings文件中配置import pymysql # 一定要添加这两行...
2020-01-06 14:03:59
1136
原创 Django+uwsgi的配置
1. uwsgi加载配置文件可以使用 ini 文件,json 文件,xml 文件, YAML 文件,uwsgi --ini xxx.ini2.常见的配置规则[uwsgi];#使用nginx连接时使用,Django程序所在服务器地址;socket=192.168.137.130:8001;#直接做web服务器使用,Django程序所在服务器地址http=192.168.137.1...
2020-01-03 17:22:53
1575
1
原创 ElasticSearch - ()使用Python单例模式批量写入数据
1.批量写入如果有大量的数据,一次插入一条肯定效率太慢,我们可以使用elasticsearch模块导入helper,通过helper.bulk来批量处理大量的数据。首先我们将所有的数据定义成字典形式,各字段含义如下:from elasticsearch import Elasticsearch, helperses = Elasticsearch(**es_settings)# 批量数...
2019-12-26 11:53:06
1750
原创 ElasticSearch - () Python操作es
1.Python模块的安装pip install elasticsearch2.Python 连接ElasticSearchfrom elasticsearch import Elasticsearch# es = Elasticsearch() # 默认连接本地elasticsearch# es = Elasticsearch(['127.0.0.1:9200']) # 连接...
2019-12-26 10:45:10
1774
原创 ElasticSearch - (2) 数据库结构
文章目录一. 逻辑设计:文档、类型、索引1.文档2.类型3.索引二. 物理设计: 节点、分片三. 倒排索引四.一. 逻辑设计:文档、类型、索引1.文档2.类型3.索引二. 物理设计: 节点、分片三. 倒排索引四....
2019-12-25 23:40:20
1197
原创 ElasticSearch - (1)中文分词
文章目录1. 中文分词2.中文存在的问题3、常见的分词工具4.ElasticSearch的ik分词1. 中文分词在中文自然语言处理中,词是最小的能够独立活动的有意义的语言成分。英文中的单词具有词的意义,可作为自然语言处理的最小单位。汉语是以字为基本书写单位,词语之间没有明显的区分标记,因此进行中文自然语言处理通常是先将汉语文本中的字符串切分成合理的词语序列,然后再在此基础上进行其它分析处理。中...
2019-12-24 13:13:59
1224
原创 APScheduler的使用详解
1.简介APScheduler 是一款Python开发的定时任务工具, 跨平台运行, 不依赖Linux系统的crontab服务, 在windows上也可以运行官方文档的地址是 https://apscheduler.readthedocs.io/en/latest/index.html简单介绍APScheduler具有四种组件触发器(triggers) 指定定时任务的执行的时机存...
2019-12-23 13:37:36
3525
1
原创 Django权限管理---自定义权限角色
Django权限管理的机制Django权限管理的实现, 基于 User Group Permission,这个权限管理机制, 将模型类中的某个属于model的permission赋予user或者group, group在后台管理中就是角色的意思默认的权限在INSTALL_APPS 里设置了django.contrib.auth 时, 在一次迁移的时候,将为模型类创建四个默认权限: 添...
2019-12-17 13:39:22
3746
翻译 Django3.0新功能, 支持异步
1. Python兼容版本Django 3.0 支持Python3.6以上的版本Django 2.2.x 系列是最后一个支持 Python 3.5 的系列2. 新增对MariaDB数据库的支持3.ASGI 支持, Django完全实现异步Django 3.0 通过提供支持作为ASGI应用程序运行,开始我们让 Django 完全实现异步支持的旅程。这是我们现有的 WSGI 支持的...
2019-12-09 15:15:22
1513
原创 centos从零开始配置的过程
1. 配置静态IPlo是回环IP,ens33是静态IP,没有IP地址这里我们需要配置2. 查看虚拟机网卡的配置信息点击虚拟机左上角的编辑 —> 虚拟机网络编辑器然后确定 保存进入centos ip addr 查看自己的IP信息 如第一张图sudo vi /etc/sysconfig/network-scripts/ifcfg-ens33 修改这个文件,这是一个只读文件写...
2019-12-06 09:12:49
973
原创 windows10环境 VMware15虚拟机安装Centos7
1.centos镜像的下载下载镜像的网站 阿里云的centos镜像网站点击进去后 选择centos版本 我选的是最新的centos7版本-不同版本之间的差别, 我选择的是第一个2.使用VMware安装镜像打开虚拟机,点击创建虚拟机...
2019-12-05 22:29:58
930
转载 微信公众号文章采集的几种方案
方案一:基于搜狗入口在网上能搜索到的公众号文章采集相关的信息来看来看,这是最多、最直接、也是最简单的一种方案。一般流程是:搜狗微信搜索入口进行公众号搜索选取公众号进入公众号历史文章列表通过文章列表获取文章链接,通过文章链接获取文章内容对文章内容进行解析入库采集过于频繁的话,搜狗搜索和公众号历史文章列表访问都会出现验证码。直接采用一般的脚本采集是无法拿到验证码的。这...
2019-07-16 09:33:58
2522
3
转载 构建用户画像
文章目录简介概述1 整理流程2 标签体系3 构建用户画像人口属性画像,兴趣画像,地理位置画像4 用户画像评估使用简介在大数据领域,用户画像的作用远不止于此。用户的行为数据无法直接用于数据分析和模型训练,我们也无法从用户的行为日志中直接获取有用的信息。而将用户的行为数据标签化以后,我们对用户就有了一个直观的认识。概述用户画像的核心工作就是给用户打标签,标签通常是人为规定的高度精炼的特征标识,...
2019-07-15 16:05:56
1300
转载 MySQL数据库的存储原理及特点?
数据库的存储过程Mysql储存过程是一组为了完成特定功能的SQL语句集,经过编译之后存储在数据库中,当需要使用该组SQL语句时用户只需要通过指定储存过程的名字并给定参数就可以调用执行它了,简而言之就是一组已经写好的命令,需要使用的时候拿出来用就可以了。一、Mysql储存过程简介:储存过程是一个可编程的函数,它在数据库中创建并保存。它可以有SQL语句和一些特殊的控制结构组成。当希望在不同的应用...
2019-03-22 19:54:27
2590
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人