
人工智能
文章平均质量分 82
house.zhang
这个作者很懒,什么都没留下…
展开
-
大数据AI Notebook产品介绍和对比
背景大数据数据需要查询分析可视化工具,AI数据挖掘和探索也需要相关可视化编辑工具,开源产品主要有两个一个是Zeppelin notebook 一个是jupyter notebook,其中juypter主要用于数据科学家、算法分析人员使用python进行数据分析、算法建模,相关企业如aws、百度、腾讯都有基于jupyter notebook去进行定制化开发,zeppelin notebook比较偏重于大数据数据查询分析可视化,支持多种大数据计算引、存储引擎擎如:Spark、Flink、Hive、Kylin等原创 2022-03-24 17:44:20 · 4635 阅读 · 0 评论 -
推荐系统的那些事儿
问题背景我们周围存在大量的文字、语音、视频等信息,比如网络购物玲琅满目的商品信息,浏览抖音各种类型的信息,一个互联网产品是否具有吸引力,是看其有多智能,能够让用户发较小的时间能够获取他感兴趣的内容,这里面少不了推荐系统的作用了,它已经渗透到我们生活中的方方面面,他们解决的问题的本质都是一一样的,就是为了解决:“信息”过载的情况下,用户如何高效获取感兴趣的信息。在浩如烟海的互联网信息中和用户兴趣点之间,搭建起一座桥梁。逻辑结构推荐系统主要处理的是人和物的关系,描述一个人 可以从性别、年龄、原创 2022-03-03 20:00:00 · 392 阅读 · 0 评论 -
AI 机器学习实践总结
机器学习基础什么是机器学习机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2..Xn,因变量叫做标签(label),可定义为Y,而一批特征和标签的集合,就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上,通过反复的计算,选择最准确的函数去描述数据集中自变量X1,..原创 2022-03-02 02:15:00 · 3484 阅读 · 2 评论 -
在线学习FTRL介绍及基于Flink实现在线学习流程
背景目前互联网已经进入了AI驱动业务发展的阶段,传统的机器学习开发流程基本是以下步骤:数据收集->特征工程->训练模型->评估模型效果->保存模型,并在线上使用训练的有效模型进行预测。这种方式主要存在两个瓶颈:模型更新周期慢,不能有效反映线上的变化,最快小时级别,一般是天级别甚至周级别。另外一个是模型参数少,预测的效果差;模型参数多线上predict的时候需要内存大,QPS无法保证。针对这些问题,一般而言有两种解决方式:一种是采用On-line-learning的算法原创 2022-03-01 21:39:51 · 2678 阅读 · 0 评论 -
jupyter notebook安装部署及实战组合漏斗图绘制
背景:大多数互联网企业都提供有类似Notebook类的产品,采用交互式的方式进行数据分析、数据建模及数据可视化。主要实现大多都是基于jupyter 、Zeppelin进行定制化开发,重点会打通大数据计算、存储及底层资源管理,支持常见的机器学习和深度学习计算框架,算法分析及建模中最常见的是采用jupyter notebook,能够在浏览器中,通过编写python脚本 运行脚本,在脚本块下方展示运行结果。jupyter notebook 可以交互式的开发,再加上拥有丰富的的文本格式、可以图文并茂的展示结果,原创 2021-12-01 12:13:24 · 2174 阅读 · 0 评论 -
三分钟了解下机器学习
什么是机器学习?机器学习是一种从数据生成规则、发现模型,来帮助我们预测、判断、分组和解决问题的技术。(机器学习是一种从数据中生产函数,而不是程序员直接编写函数的技术)说起函数就涉及到自变量和因变量,在机器学习中,把自变量叫做特征(feature)多个自变量分别可以定义为X1,X2…Xn,因变量叫做标签(label),可定义为y,而一批特征和标签的集合,就是机器学习的数据集。机器学习的学习过程就是在已知的数据集的基础上,通过反复的计算,选择最准确的函数去描述数据集中自变量X1,X2…Xn 和因变量Y之间原创 2021-12-01 12:06:43 · 1790 阅读 · 0 评论 -
jupyter notebook 集成R内核
Jupyter Notebook(此前被称为 IPython notebook)是一个交互式笔记本,支持运行 40 多种编程语言。 Jupyter Notebook 的本质是一个 Web 应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和 markdown。 用途包括:数据清理和转换,数值模拟,统计建模,机器学习等等。智能钛为了方便开发人员做数据分析集成了jupyter notebook功能,支持R内核所做的工作如下:R环境安装主要是通过apt-get直接安装RUN apt-ge原创 2020-08-09 20:08:32 · 639 阅读 · 0 评论 -
PySpark包依赖问题解决方案及实践
摘要:hadoop yarn调度pyspark在使用过程中,使用场景不一致,需要安装一些三方依赖,尤其在机器学习算法方面依赖许多科学包如numpy、pandas 、matlib等等,安装这些依赖是一个非常痛苦的过程,本章结合ti产品在私有化过程中依赖包及版本升级等为题进行简单介绍。Spark on yarn分为client模式和cluster模式,在client模式下driver 会运行在提交节点上,该节点也可能不是yarn集群内部节点,这种方式可以根据自己的需要安装软件和依赖,以支撑spark app原创 2020-08-09 20:01:07 · 3142 阅读 · 1 评论 -
基于horovod实现Pytorch多机分布式训练
由Uber公司的开发的Horovod架构,是一个集成了多个深度学习的统一平台,提供分布式训练效率的同事,让深度学习分布式训练变得更方便。前言在深度学习领域中,当计算数据较多或者模型较大时,为提高模型训练效率,一般采用多GPU的分布式训练,常见的深度学习框架都支持分布式训练,虽然这些框架都各自有分布式实现,但不能统一到一个平台上,造成使用上体验不好,由Uber公司的开发的Horovod架构,它是一个集成了多个深度学习的统一平台,提供分布式训练同时则让深度学习分布式训练变得更方便。本文主要对Horovod的原创 2020-05-19 20:05:22 · 2520 阅读 · 2 评论