Y1551880-优快云博客

转载逻辑回归算法 - 乳腺癌预测

1 目标根据历史女性乳腺癌患者数据集（医学指标）构建逻辑回归分类模型进行良／恶性乳腺癌肿瘤预测2 数据集2.1 数据集来源数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。这些是DR Wolberg自1984~1995随访搜集连续乳腺癌患者数据，数据仅包括那些具有侵入性的病例乳腺癌并没有远处转移的医学指标数据集。2.2 特征值（医学特征）3 算法...

2019-02-13 14:48:00 881

转载大数据实战手册-开发篇之spark实战案例：实时日志分析

2.6 spark实战案例：实时日志分析2.6.1 交互流程图2.6.2 客户端监听器（java）@SuppressWarnings("static-access") private void handleSocket() { lock.lock(); Writer writer = null; RandomAccessFile ...

2019-02-13 14:45:00 589

转载大数据实战手册-开发篇之IO

2.4 sparkContext IO:读2.4.1 textFile # Load a text file and convert each line to a Row. lines = sc.textFile("examples/src/main/resources/people.txt")2.4.2 hadoopFile2.4.3 newAPIHadoopFil...

2019-02-13 14:44:00 177

转载大数据实战手册-开发篇之RDD:计算 transform->action

2.2 RDD:计算 transform->action2.2.1 aggregatex = sc.parallelize([2,3,4], 2)[Task不能跨分片，task数为2]neutral_zero_value = (0,1) # sum: x+0 = x, product: 1*x = xseqOp = (lambda aggregated, el: (a...

2019-02-13 14:43:00 178

转载大数据实战手册-开发篇之pycharm远程开发调试

2.1 pycharm远程开发调试2.1.1 python版本一致#版本都保持3.6.6#root cd /usr/local/python3/bin/pip3 list备注：[python模块导入顺序是从sys.path中取，可以代码加入到sys.path。当前目录->PYTHONPATH->安装目录，所以设置了PYTHONPATH，这里模块安装自动引进来。...

2019-02-13 14:42:00 156

转载大数据实战手册-安装篇之安装配置

1.2 安装配置1.2.1 安装jdk1.8#root vim /etc/profileexport JAVA_HOME=/data/software/jdk1.8.0_191export JRE_HOME=${JAVA_HOME}/jreexport CLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib1.2.2 安装hadoop+...

2019-02-13 14:41:00 170

转载大数据实战手册-安装篇之基础环境

1 基础环境1.1.1 关闭selinux#查看状态：/usr/sbin/sestatus#disabled vim /etc/selinux/config#重启 reboot1.1.2 关闭防火墙#查看防火墙规则 firewall-cmd --list-all#查询端口是否开放 firewall-cmd --query-port=8080/tcp#开放80端口f...

2019-02-13 14:40:00 165

转载 SpringBoot RabbitMQ 实战解决项目中实践

1 基础预览1.1 环境准备Springboot 1.5.6.RELEASSpringcloud Dalston.SR21.2 交换机类型交换机是用来发送消息的AMQP实体。交换机拿到一个消息之后将它路由给一个或零个队列。它使用哪种路由算法是由交换机类型和被称作绑定（bindings）的规则所决定的。AMQP 0-9-1的代理提供了四种交换机...

2017-10-22 11:46:00 223

转载 6大数据实战系列-sparkSql实战

sparkSql两个最重要的类SqlContext、DataFrame，DataFrame功能强大，能够与rdd互转换、支持sql操作如sql().where.order.join.groupBy.limit等。SparkSql的查询响应性能是hive的几何级倍数，并且SparkSql支持多种数据源操作包括hive、hdfs、rdd、json、mysql，本文先讲解hive、h...

2017-10-22 11:42:00 164

转载 5 大数据实战-hive实战分析

1 内部表Show databses;Use hive_data;1.1 创建内部表CREATE TABLE SOGOUQ2(DT STRING,WEBSESSION STRING,WORD STRING,S_SEQ INT,C_SEQ INT,WEBSITE STRING) ROW FORMAT DELIMITED FIELDS TERMINATED B...

2017-10-22 11:40:00 316

转载 4大数据实战系列-hive安装配置优化

1 基础环境1.1 版本预览 Cnetos 6.5 已安装 Hadoop 2.8 已安装集群 Hive 2.3 待安装 Mysql 5.6 已安装 Spark 2.1.1 已安装1.2 机器环境机192.168.0.251 slave192.168.0.252 mas...

2017-10-22 11:33:00 133

转载 3 大数据实战系列-spark shell分析日志

1 准备数据源文件格式：访问时间\t用户ID\t[查询词]\t该URL在返回结果中的排名\t用户点击的顺序号\t用户点击URL数据文件越大越好，至少100万行2 启动任务./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m内存根据服务器内存...

2017-10-22 11:30:00 252

转载 2 大数据实战系列-spark shell wordcount

1 启动spark shellcd /home/data/app/hadoop/spark-2.1.1-bin-hadoop2.7/bin./spark-shell --master spark://shulaibao2:7077 --executor-memory 512m --driver-memory 4540m初始化sc->SparkContext ...

2017-10-22 11:26:00 222

转载 1 大数据实战系列-spark+hadoop集成环境搭建

1 准备环境192.168.0.251 shulaibao1192.168.0.252 shulaibao2hadoop-2.8.0-binspark-2.1.1-bin-hadoop2.7关闭selinux：/etc/selinux/config：SELINUX=disabled增加hadoop用户组与用户groupadd−g1000hadoopuseradd...

2017-10-22 11:22:00 267

转载订单派单中心

思路：来源于某家装互联网公司，c端下订单，订单派单中心的职责把订单按派单算法分配给b端。1业务流程：2 技术框架主流开源技术：springBoot/springMVC/Mybatis/Redis/Kafka/hikari请求与响应加密传输：Request 加密传输，@WebFilter解密映射到HttpServletRequestWrapperResponse...

2017-10-22 11:18:00 763

转载多个视频文件合成画中画效果（Python、ffmpeg）

Step 1 从视频中分离出音频（MP4->mp3）def separateMp4ToMp3(tmp): mp4 = tmp.replace('.tmp', '.mp4') print('---> Separate the video clip {0}'.format(mp4)) mp3 = tmp.replace('.tmp', '.mp3'...

2017-10-22 11:13:00 1194

转载 mysql主从-主主架构设计

前言：1. mysql主从、主主复制应用场景很多，其原理主推，从定时根据binlog增量拉取更新2. 如果主/从机器硬件负载过高，或者网络延迟就会造成同步延迟3. 延迟是必然，mysql复制同步解决的是数据高可用问题提供延后一致性4. 要解决完全一致性，需要解决的高并发问题- 可以从业务粒度考虑，增加nosql中间层或者mysql proxy或者mysql 5.7提供了完全一致性...

2017-10-22 11:12:00 150

Y1551880的博客