段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
书生·浦语大模型实战营之XTuner多模态训练与测试
书生·浦语大模型实战营之XTuner多模态训练与测试在本节课中,我们将学习使用XTuner微调多模态LLM的内容,本部分需要的GPU资源为24GB 30% 的 A100。这是学完本节内容后的多模态LLM性能效果展示:Haotian Liu等使用GPT-4V对图像数据生成描述,以此构建出大量 – 的数据对。利用这些数据对,配合文本单模态LLM,训练出一个Image Projector。所使用的文本单模型LLM和训练出来的Image Projector,统称为LLaVA模型LLaVA: Large Lang原创 2024-04-16 19:45:00 · 274 阅读 · 0 评论 -
图解大数据
大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。图解大数据Hadoop 3管理与开发HbaseFlume ZookeeperFlink基于Hadoop3搭建HA环境Hadoop 3管理与开发HbaseFlume ZookeeperFlink基于Hadoop3搭建HA环境一、集群的规划Zoo原创 2020-08-23 20:25:03 · 573 阅读 · 0 评论 -
LinkedIn Spark-TFRecord partitionBy案例实战
LinkedIn Spark-TFRecord partitionBy案例实战目录Spark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战Spark将完全支持TFRecordSpark将完全支持TFRecordLinkedIn Spark-TFRecord案例体验LinkedIn Spark-TFRecord案例体验Spark-TFRecord partitionBy案例实战package spark原创 2020-06-20 16:24:12 · 725 阅读 · 0 评论 -
Spark-TFRecord:Spark将完全支持TFRecord
Spark-TFRecord:Spark将完全支持TFRecord共同作者: Jun Shi, Mingzhou Zhou目录简介现有的项目和先前的努力系统设计如何使用Spark-TFRecord结论原文链接Github链接简介在机器学习社区中,Apache Spark 支持SQL高效操作而被广泛用于数据处理,而TensorFlow是业界最主流的人工智能框架。尽管这两种工具都支持一些数据格式,但是Spark并不完全支持TFRecord—TensorFlow的原生数据格式。虽然以前试图在这两个系统之间原创 2020-06-20 09:51:24 · 1508 阅读 · 0 评论 -
LinkedIn Spark-TFRecord案例体验
lenovo@duanzhihua MINGW64 /d/1sparkWorkSpace$ git clone https://github.com/linkedin/spark-tfrecord.gitCloning into 'spark-tfrecord'...remote: Enumerating objects: 52, done.remote: Counting objects: 100% (52/52), done.remote: Compressing objects: 100%原创 2020-06-18 21:42:53 · 722 阅读 · 0 评论 -
请读者关注智华的微信视频号
微信视频号“段智华”,视频号主要推广内容:清华大学出版社新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版,新书在第一版本的基础上以Spark 2.4.3版本全面更新源码,并以TensorFlow和Pytorch为核心,新增加Spark+AI内幕解密篇的全新内容,大幅度增加人工智能的内容并相应增加实战案例。同时出版新书《企业级AI技术内幕》:涵盖自研盘古人工智能框架开发专题...原创 2020-04-29 10:08:33 · 428 阅读 · 0 评论 -
CS294(285) Actor Critic之Critic
CS294(285) Actor Critic系列CS294(285) Actor Critic之agents(https://duanzhihua.blog.youkuaiyun.com/article/details/103106090)CS294(285) Actor Critic之Critic构建基类BaseCriticclass BaseCritic(object): ...原创 2019-11-17 20:27:37 · 626 阅读 · 0 评论 -
CS294(285) Actor Critic之agents
CS294(285) Actor Critic之agents在CS294(285) Actor Critic系列文章中,我们跟着CS294 285的作业内容,一步一步的实现自己的演员-评论家算法。Actor Critic的分层架构图:演员-评论家算法的代理智能体:构建基类BaseAgentimport numpy as npimport tensorflow as tf...原创 2019-11-17 16:30:54 · 640 阅读 · 0 评论 -
Actor Critic算法
Actor Critic(直译为演员评判家算法,易理解):结合两个网络:演员网络Policy Gradient (Actor)+ 评判家网络Function Approximation (Critic), 演员Actor 基于概率表演动作行为, 评判家Critic 基于演员Actor 的行为进行评论打分, 演员Actor 根据评判家Critic 的评分改进表演行为的概率。钟摆游戏的动作是一...原创 2019-11-16 12:00:50 · 1760 阅读 · 0 评论 -
Spark Structured Streaming 实现自定义数据源
Spark Structured Streaming 实现自定义数据源:Spark Streaming 查询使用微批处理引擎进行处理,微批处理引擎将 data streams 作为一系列小批处理作业进行处理,从Spark 2.3以来,Spark引入了一种新的低延迟处理模式,称为连续处理,可以实现毫秒级的端到端延迟。Spark Structured Streaming Demo:...原创 2019-11-16 09:30:19 · 1393 阅读 · 0 评论 -
UC Berkeley AI Project MindsDB Time Series 时间序列算法体验
UC Berkeley AI Project MindsDB Time Series 时间序列算法体验 MindsDB是美国加州大学伯克利分校的开源研究项目!MindsDB的目标是让开发人员在他们的项目中使用人工神经网络变得非常简单,为所有能够接触到数据的人构建mindsdb,输入几行代码就能实现深度学习神经网络。MindsDB已发布V1.2.8版本。MindsDB的目标是让开发...原创 2019-11-13 17:27:28 · 950 阅读 · 0 评论 -
Policy Gradient (策略梯度算法)
Policy Gradient (策略梯度算法)前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差 微积分、梯度求导策略梯度算法:直接根据当前的状态来选择动作。策略梯度的算法是回合更新,在回合中的中每一步记录状态、动作、奖...原创 2019-11-10 20:52:37 · 3015 阅读 · 0 评论 -
Double Deep Q Network 算法
Deep Q Network 算法:直接从下一个状态的Q目标值,选择动作概率的最大值。(Y值通过Q目标值的一张网络计算)Double Deep Q Network 算法:计算下一个状态的Q评估值的最大值,然后从下一个状态的Q目标值,选择动作q_next。(Y值通过Q评估值、Q目标值的双网计算)符号: :表示Q目标值神经网络(target_net)的网络参数: 表示...原创 2019-11-09 20:06:27 · 1956 阅读 · 0 评论 -
Deep Q Network 算法
Deep Q Network 算法前置基础知识:Reinforcement Learning 基本概念 Q Leaning算法原理 深度学习神经网络知识 Tensorflow、Pytorch、Python 概率论与数量统计、马尔可夫链、期望、方差Q Leaning算法概述: Q Leaning算法 :在监督学习中,标签值y是一个固定的值,例如,输入一张图片,预测这张图...原创 2019-11-08 21:15:18 · 892 阅读 · 0 评论 -
Q_Learning、Sarsa、Sarsa_lambda
Q_Learning算法Sarsa算法Sarsa_lambda算法# -*- coding: utf-8 -*-"""This part of code is the Q learning brain, which is a brain of the agent.All decisions are made in here.View more on ...原创 2019-11-05 21:30:14 · 595 阅读 · 0 评论 -
Q_Learning_maze
maze_env.py# -*- coding: utf-8 -*-"""Reinforcement learning maze example.Red rectangle: explorer.Black rectangles: hells [reward = -1].Yellow bin circle: paradise...原创 2019-11-04 21:48:51 · 811 阅读 · 0 评论 -
Q-Learning算法(command_line_reinforcement_learning)
Q-Learning算法import numpy as npimport pandas as pdimport timenp.random.seed(2) # reproducibleN_STATES = 6 # the length of the 1 dimensional worldACTIONS = ['left', 'right'] # availa...原创 2019-11-03 17:32:02 · 663 阅读 · 0 评论 -
Getting Started with Gym
Getting Started with GymCartPole-v0场景:电杆由一个未驱动的接头连接到大车上,大车沿着轨道移动。系统通过对推车施加+1或-1的力来控制。电杆开始是直立的,目的是防止它倒下。当杆保持直立时,每一步奖励+1。当电杆与垂直方向的夹角超过15度,或者大车从中心移动超过2.4个单位时,这一集就结束。环境:下面是一个简单的运行示例。 将运行cartpole-v0环境的...原创 2019-10-21 21:35:07 · 1173 阅读 · 0 评论 -
mjpro安装部署
安装mjpro150 win64:1.下载地址:https://www.roboti.us/index.html。放入windows本地目录E:\cs285_2019\mujoco2.获取激活码。 打开https://www.roboti.us/license.html,单击 Win64 ,下载插件查看电脑Computer id,填写好信息后提交,官方发送邮件,附件有mjkey.tx...原创 2019-10-19 13:34:34 · 2082 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial( Tips and tricks)
CS285 2019 Tensorflow Tutorial( Tips and tricks)# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import tensorflow as tf...原创 2019-10-19 10:59:23 · 777 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial(train a neural network)
训练一个简单回归问题的神经网络。创建输入、变量、神经网络操作、均方误差损失、梯度下降优化器,并使用小批量数据运行优化器。# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import tens...原创 2019-10-19 09:38:08 · 752 阅读 · 0 评论 -
CS285 2019 Tensorflow Tutorial( input data、 computations、 create variables)
简要概述tensorflow的核心概念和功能。什么是tensorflow如何输入数据如何进行计算如何创建变量# -*- coding: utf-8 -*-import osimport warningsos.environ['TF_CPP_MIN_LOG_LEVEL']='3'warnings.filterwarnings('ignore')import ten...原创 2019-10-19 07:20:02 · 552 阅读 · 0 评论 -
第000讲-第006讲 从1000个代码案例中学习人工智能和大数据实战
王家林大神人工智能大数据新课: From Zero to Hero – 从1000个代码案例中学习人工智能和大数据举例来说,我们在课程中有个人工智能项目,该项目使用循环神经网络的深度学习技术例如GRU, LSTM,RNN等进行英语单词和句子的发音预测和教学,这就是一位人工智能英语老师,有可能是未来最强大的人工智能英语老师,像Alphago改变整个围棋界一个改变全球的英语发音和口语教学。同时结合大数原创 2017-11-22 19:53:30 · 904 阅读 · 0 评论 -
第007讲-第011讲 从1000个代码案例中学习人工智能和大数据实战
第007讲-第011讲 从1000个代码案例中学习人工智能和大数据实战第007讲:纯面向对象特征给Scala变量及其类型的特殊特殊性第008讲:Scala中具有值的条件表达式及代码块第009讲:for循环表达式及yield使用实战第010讲:通过实战代码解密Scala中方法和函数的本质区别(这是Scala课程目前为止最重要的一节课)第011讲:实战细说大数据语言Scala的函数式编程及其源码研读并原创 2017-12-14 21:05:47 · 615 阅读 · 0 评论 -
第012讲-第013讲 从1000个代码案例中学习人工智能和大数据实战
第012讲-第013讲 从1000个代码案例中学习人工智能和大数据实战第012讲:Scala中Array实战:创建不同类型数组,数组遍历第013讲:深度解密Scala中Array实战操作map和通过占位符的排序方式原创 2017-12-16 17:57:31 · 660 阅读 · 0 评论 -
第014讲:Scala中Map和HashMap源码剖析及代码实践(从1000个代码案例中学习人工智能和大数据实战)
第014讲:Scala中Map和HashMap源码剖析及代码实践原创 2017-12-19 06:48:09 · 1217 阅读 · 0 评论 -
第015讲: 跟王家林学习从1000个代码案例中学习人工智能和大数据实战第015讲:Scala中Tuple源码剖析及代码实践
跟王家林学习从1000个代码案例中学习人工智能和大数据实战第015讲:Scala中Tuple源码剖析及代码实践package scala/** A tuple of 22 elements; the canonical representation of a [[scala.Product22]]. * * @constructor Create a new tuple with 2原创 2018-01-14 08:15:37 · 573 阅读 · 0 评论 -
Spark视频王家林大神第2课:解密spark第二代tungsten引擎测试数据和引擎实现内幕
Spark视频王家林大神第2课:解密spark第二代tungsten引擎测试数据和引擎实现内幕本节探讨spark第二代tungsten引擎测试数据和引擎实现内幕。第二代tungsten钨丝计划的推出,Spark官方的数据表明Spark的性能提升了5到10倍,大多数的代码不经修改,直接放在Spark2.x上运行,会比在Spark1.6上运行,速度会快5到10倍。注意这里的大多数代码是指例如基本的fi原创 2018-01-25 08:56:00 · 702 阅读 · 0 评论 -
Spark视频王家林大神第1课: 30分钟彻底理解Spark核心API发展史:RDD、DataFrame、DataSet
Spark视频王家林大神第1课: 30分钟彻底理解Spark核心API发展史:RDD、DataFrame、DataSet本节通过Spark核心API的发展史,带领大家学习和理解Spark的内幕,在Spark的发展史上,经历了三代API:第一代是RDD、第二代是DataFrame、第三代是DataSet。RDD是Spark中绝对的核心和基础性的抽象,DataFrame是Spark 1.3.x推出的,原创 2018-01-24 13:09:06 · 961 阅读 · 0 评论 -
Spark视频王家林大神 第7课: Spark机器学习内幕剖析
Spark视频王家林大神 第7课: Spark机器学习内幕剖析本节讲解Spark机器学习内幕,Spark机器学习的本质是什么,Spark机器学习的内部构成到底是什么?基于Spark 2.x版本,怎么学习机器学习?这是所有做机器学习的同学都非常关注的。Spark 2.x版本的发布,标志着以Spark为核心的大数据统一计算时代真正的到来。Spark机器学习的本质是什么?机器学习是数据+算法(迭代),从原创 2018-01-26 21:09:12 · 1201 阅读 · 0 评论 -
Spark视频王家林大神第8课:彻底理解大数据机器学习
Spark视频王家林大神第8课:彻底理解大数据机器学习本节带领大家快速理解大数据机器学习:第一个问题:机器学习是什么?第二个问题:大数据机器学习到底是什么?先想一下人正常思考的过程:根据自己的历史经验或者生活经验得出了某种规律,然后在当前的情况下,根据历史经验或者规律来预测当前的情况,下一步该怎么做,这个描述人的思考过程其实就是机器学习的过程。我们可以发现规律或者模型以及当前的情况,规律其实就是模原创 2018-01-26 21:45:25 · 638 阅读 · 0 评论 -
Spark PairRDDFunctions[K,V]聚合相关的API
2.3.5 PairRDDFunctions[K,V]聚合相关的API 本节详细解析PairRDDFunctions的一些聚合、归并操作的API,包括AggregateByKey、ReduceByKey、FoldByKey等。隐式转换的方法在RDD伴生对象中定义。(一) AggregateByKey算子1) 官网的API定义def aggregateByKey[U](zer原创 2018-02-05 16:21:25 · 705 阅读 · 0 评论 -
StreamAnalytix Visual Spark Studio (一)!Spark开发史上最强大的神器,只需拖拽控件即可完成Spark开发,造福国内的Spark开发者!
StreamAnalytix Visual Spark Studio !Spark开发史上最强大的神器,只需拖拽控件即可完成Spark开发,造福国内的Spark开发者!分钟级别在桌面上构建Spark管道!StreamAnalytix Visual Spark Studio是什么? Visual Spark Studio™是一个免费的、紧凑版本的StreamAnalytix平台,一个轻...原创 2018-02-26 10:45:50 · 3169 阅读 · 4 评论 -
ALLUXIO概述
ALLUXIO概述 Alluxio以前称为Tachyon,是世界上第一个内存速度虚拟分布式存储系统。它统一数据访问、桥接计算框架和底层存储系统。应用程序只需要连接Alluxio来访问存储在任何底层存储系统中的数据。Alluxio以内存为中心的架构使数据访问速度比现有解决方案更快。Alluxio 1.7.0 Release最新版本于2018年1月16日发布。在大数据生态系统中,Alluxio...原创 2018-02-12 12:05:08 · 1294 阅读 · 0 评论 -
ALLUXIO 1.7.0 部署的案例与解读
ALLUXIO 1.7.0 部署的案例与解读一般情况下,分布式系统都会至少提供两种部署模式,一种是单机模式,通常用于测试、快速部署入门等,另一种是分布式模式,用于实际生产环境。比如Hadoop分布式系统,单机模式和伪分布式模式都上为了用于测试和快速部署入门,其中伪分布式以进程来模拟集群节点。Spark也是可以在单机上,手动启动Worker守护进程,来模拟伪分布式的Spark集群的。Alluxio也...原创 2018-02-12 12:10:35 · 2320 阅读 · 0 评论 -
ALLUXIO 1.7.0 集群Master HA容错部署的案例与解读
1.3.1 ALLUXIO 1.7.0 集群Master HA容错部署的案例与解读作为一个Master/Slaves架构的分布式系统,都会存在单点故障。在Alluxio分布式系统中,Alluxio的容错通过多Master实现。同一时刻,有多个Master进程运行。其中一个被选举为Leader,作为所有Workers和 Clients的通信首选。其余Master进入备用状态,和Leader...原创 2018-02-12 14:56:35 · 1834 阅读 · 0 评论 -
Alluxio 1.7.0 安装部署
Alluxio集群之前部署成功,一切顺利!可是在Alluxio重新启动的时候发现Alluxio Worker进程起不来,提示java命令找不到:[localhost] Connecting as root...[localhost] nohup: ignoring input[localhost] Cannot find the 'java' command.[localhost] Conn...原创 2018-02-14 12:39:28 · 1879 阅读 · 4 评论 -
Alluxio 1.7.0 命令行接口的案例与解读
上节已在Alluxio集群配置了Master HA容错处理,启动了ZooKeeper对Master进行管理,将HDFS配置为Alluxio的底层文件系统。本节进行命令行接口的案例实战。1.3.1 命令行接口的说明 Alluxio命令行接口为用户提供了基本的文件系统操作,可以使用以下命令来得到所有子命令:root@master:~# alluxio fsALLUXIO_MASTER...原创 2018-02-14 15:50:26 · 1546 阅读 · 1 评论 -
Alluxio 1.7.0 透明命名机制及统一命名空间的案例与解读 以及Alluxio 1.7.0 HA容错安装部署
Alluxio 1.7.0 使用统一透明命名空间,通过使用其透明命名机制以及挂载API,Alluxio支持在不同存储系统之间对数据进行高效的管理。在Alluxio重新安装的基础上,再次安装Alluxio 1.7.0 HA容错。然后进行Alluxio 1.7.0 透明命名机制及统一命名空间的案例与解读在Alluxio重新安装的基础上,再次安装Alluxio 1.7.0 HA容错1,在Master节点...原创 2018-02-15 09:43:31 · 1490 阅读 · 0 评论 -
Spark 2.2.1 Parquet文件处理的案例与解读
Spark 2.2.1 Parquet文件处理的案例与解读 (一) 加载数据加载Parquet数据源,并将加载后的people使用createOrReplaceTempView方法注册到临时表中,然后使用SQL语句对该临时表进行操作,最后将操作结果打印出来。scala> valpeople =spark.read.parquet("/resources/people.parquet")...原创 2018-02-18 09:57:58 · 4869 阅读 · 0 评论