
据机器学习
大数据是人工智能的基础,而使大数据转变为知识或生产力,离不开机器学习(Machine Learning),可以说机器学习是人工智能的核心,是使机器具有类似人的智能的根本途径。
架构师老狼
资深架构师,专注于区块链、微服务、大数据研究!坚定信念,乐观心态,永不止步!
展开
-
spark 2.x spark算子调优
算子调优一:mapPartitions普通的map算子对RDD中的每一个元素进行操作,而mapPartitions算子对RDD中每一个分区进行操作。如果是普通的map算子,假设一个partition有1万条数据,那么map算子中的function要执行1万次,也就是对每个元素进行操作。spark map 算子如果是mapPartition算子,由于一个task处理一个RDD的partition,那么一个task只会执行一次function,function一次接收所有的partition数据原创 2020-05-27 08:06:27 · 275 阅读 · 0 评论 -
开源精选 - Spark个性化推荐算法
理论篇1 推荐系统的意义 - 解决信息过载搜索引擎时代分类导航:雅虎搜索:谷歌、百度个性化时代(提高用户粘度、增加营收)系统自动推荐相关的东西:今日头条、豆瓣、电商2 推荐系统的分类基于人口统计学的推荐基于内容的推荐基于协同过滤的推荐3 基于人口统计学的推荐基于人口统计学的推荐机制(Demographic-based Recommendation)是...原创 2020-02-18 18:13:14 · 3072 阅读 · 0 评论 -
医疗数据仓库ETL (python版本)
2.6.1 方案的选择总结:1)Spark定位于内存计算框架:分布式计算RDD、实时计算spark stream、结构化查询saprkSQL、数据挖掘spark.ML2)类比hadoop生态:分布式存储hdfs、数据仓库hive(meta、数据存储基于hdfs)、yarn分布式资源调度、nosql数据库hbase3)综合优化方案:sparkSQL做多数据源IO接入,RDD做数据清理、转换...原创 2019-03-07 13:33:20 · 3207 阅读 · 0 评论 -
电商交易数据分析(hive版)
05年项目使用spark+hadoop,最近公司分享给小伙伴们,就整理出文档供大家学习交流。整理hdfs+hive+spark stream+spark sql实战系列,有些数据是网上搜索下载的,同时整理时也参考其他博文以及《spark实战》原创 2017-09-30 13:16:22 · 2742 阅读 · 2 评论 -
医疗实时流日志分析
2.6 spark实战案例:实时日志分析2.6.1 交互流程图2.6.2 客户端监听器(java)@SuppressWarnings("static-access") private void handleSocket() { lock.lock(); Writer writer = null; RandomAccessFile原创 2019-02-13 14:13:24 · 1178 阅读 · 0 评论 -
hadoop spark之常用配置
1.2 安装配置1.2.1 安装jdk1.8#root vim /etc/profileexport JAVA_HOME=/data/software/jdk1.8.0_191export JRE_HOME=JAVAHOME/jreexportCLASSPATH=.:{JAVA_HOME}/jre export CLASSPATH=.:JAVAHOME/jreexportC...原创 2019-02-13 13:22:13 · 633 阅读 · 0 评论 -
K-近邻算法实例分析
一级分类:监督学习,二级分类:分类(离散问题),三级分类:k-近邻算法'''@description : 算法优点: a简单、易于理解、易于实现、无需估计参数、无需训练 算法缺点: a懒惰算法,对测试样本分类时计算量大,内存开销大 b必须制定k值,k值得选择不当则分类精度不能保证@author wolf@time 2018-...原创 2018-08-03 17:06:43 · 1560 阅读 · 1 评论 -
朴素贝叶斯算法推导分析
'''@description :一级分类:监督学习,二级分类:分类(离散问题),三级分类:贝叶斯算法 算法优点: a 朴素贝叶斯模型发源于古典数学理论,有稳定的分类效率 b 对缺失的数据不太敏感,算法也比较简 c 分类问题准确度高、速度快 算法缺点: a 由于使用了样本属性独立性的假设,所以如果样本属性有关联时其效...原创 2018-08-03 17:11:14 · 1300 阅读 · 0 评论 -
机器学习系列之特征工程
'''@description 特征工程 - Preprocess 1 框架:scikit-learn,依赖模块:scipy、pandas、numpy 2 pip3 install scikit-learn -i http://pypi.douban.com/simple --trusted-host pypi.douban.com 3 模型 = 数据 + 算法 ...原创 2018-08-03 18:11:00 · 278 阅读 · 0 评论 -
逻辑回归算法 - 乳腺癌预测
1 目标根据历史女性乳腺癌患者数据集(医学指标)构建逻辑回归分类模型进行良/恶性乳腺癌肿瘤预测2 数据集2.1 数据集来源数据集源于威斯康星州临床科学中心。每个记录代表一个乳腺癌的随访数据样本。这些是DR Wolberg自1984~1995随访搜集连续乳腺癌患者数据,数据仅包括那些具有侵入性的病例乳腺癌并没有远处转移的医学指标数据集。2.2 特征值(医学特征)3 算法3....原创 2018-10-08 15:32:16 · 7402 阅读 · 0 评论