
AI内幕之NLP+盘古深度学习框架+机器学习+Alluxio
文章平均质量分 65
本栏目是王家林大咖清华大学新书《Spark大数据商业实战三部曲:内核解密|商业案例|性能调优》第二版套装书《企业级AI技术内幕:深度学习框架+机器学习+Alluxio》的笔记,涵盖自研盘古人工智能框架开发专题篇、机器学习案例实战篇、分布式内存管理系统Alluxio解密篇及自然语言处理NLP领域的内容
段智华
智华专注于GenAI/LLM大模型技术的研究,参与了7本书籍的写作,拥有5项申请发明专利,10多项软著,以及4篇IEEE国际会议论文。参与Gavin大咖主编,北京航空航天大学出版社2024年5月最新出版的2本图书著作:《Transformer&ChatGpt解密:原理、源码及案例》、《Transformer& Rasa 解密 原理、 源码及案例》,共撰写1996篇原创博客文章,涵盖Transformer、GPT-4、ChatGPT、Llama2/3、Langchain、Mistral、Mixtral、Rasa、AI机器学习、Spark大数据等主题。博客文章的总阅读量为323万次。
展开
-
自然语言处理NLP基础知识
自然语言处理NLP基础知识原创 2021-12-13 12:51:27 · 1299 阅读 · 0 评论 -
数据挖掘综合应用:房屋售价预测案例
使用Python进行行业数据分析,使用所学的数据挖掘知识对房屋的价格进行预测回归问题进行分析和处理。原创 2021-12-12 15:57:14 · 2125 阅读 · 0 评论 -
数据挖掘综合应用:贷款产品预测案例
本案例采用pandas加载数据,分析属性之间的相关性,探索数据内部的关系,采用分类模型算法中的决策树、随机森林与梯度提升树进行分类预测,基于网格搜索的方式进行最优参数搜索,获取申请贷款的预测结果原创 2021-12-12 15:09:25 · 1864 阅读 · 2 评论 -
数据挖掘综合应用:犯罪类型预测案例
运用Python相关工具包完成数据分析及预测任务,实战随机森林算法和神经网络算法的调参优化,通过一些特征对犯罪类型进行预测。原创 2021-12-11 18:43:58 · 1467 阅读 · 0 评论 -
数据挖掘综合应用: 信用违约预测
数据挖掘综合应用: 信用违约预测数据准备基于信贷业务场景中一个月内的抽样数据, 使用当前月的数据预测下一个月客户是否会违约。数据文件Cust_No,Target,Nation,Birth_Place,Gender,Age,Marriage_State,Highest Education,House_State,Work_Years,Unit_Kind,Title,Occupation,Duty,Industry,Year_Income,Couple_Year_Income,L12_Month_Pay_原创 2021-12-05 14:23:47 · 950 阅读 · 0 评论 -
数据挖掘综合应用:泰坦尼克号幸存顾客预测案例
数据挖掘综合应用:泰坦尼克号幸存顾客预测案例分类问题:依据现有的数据来对顾客进行预测,判断其是可以幸存还是不能幸存。# 导入库import pandas as pdimport numpy as np# 读取原始数据df = pd.read_csv('./titanic_trains.csv')# 读取数据前五行df.head()#通过观察数发现需要特征编码、特征选择、离散化、缺失值处理。不需要特征缩放、不需要不均衡数据处理、不需要异常值处理原创 2021-12-04 16:57:27 · 424 阅读 · 0 评论 -
数据挖掘综合应用:特征选择与降维
数据挖掘综合应用:特征选择与降维特征选择# 导库import pandas as pdfrom pandas import DataFrame from sklearn.datasets import load_iris# 导入数据iris = load_iris()# 取出数据中用于建模的数据X,y = iris.data,iris.target# 转型df = pd.DataFrame(X,columns=iris.feature_names)# 为DataFrame添加原创 2021-12-04 11:58:30 · 1116 阅读 · 0 评论 -
数据挖掘综合应用:特征选择
数据挖掘综合应用:特征选择与降维# 导库import pandas as pdfrom pandas import DataFrame from sklearn.datasets import load_iris# 导入数据iris = load_iris()# 取出数据中用于建模的数据X,y = iris.data,iris.target# 转型df = pd.DataFrame(X,columns=iris.feature_names)# 为DataFrame添加列,如果列原创 2021-12-04 09:19:02 · 1126 阅读 · 0 评论 -
数据挖掘综合应用:数据预处理代码实战
数据挖掘综合应用:数据预处理代码实战数据格式type,alcohol,malic,ash,alcalinity,magnesium,phenols,flavanoids,nonflavanoids,proanthocyanins,color,hue,dilution,prolineA,,1.71,2.43,15.6,127,2.8,3.06,0.28,2.29,5.64,1.04,3.92,1065A,,1.78,2.14,11.2,100,2.65,2.76,0.26,1.28,4.38,1.05原创 2021-11-27 15:42:38 · 743 阅读 · 0 评论 -
自然语言处理NLP:网络爬虫实战代码
自然语言处理NLP:网络爬虫实站代码使用requests +lxml 工具解析房屋中介信息。import requests as req# 准备URLurl = 'https://bj.lianjia.com/zufang/#contentList'# 请求数据reponse = req.get(url=url)# 查看响应码reponse.status_code200from lxml import etree# 将数据转化为HTML类型soup = etree.HT原创 2021-11-21 16:22:46 · 1512 阅读 · 0 评论 -
图神经网络-ERNIESage及UniMP
图神经网络-GraphSage实践学习笔记目录原创 2021-02-14 21:12:01 · 966 阅读 · 0 评论 -
图神经网络-图采样-邻居聚合学习笔记
图神经网络-图采样-邻居聚合学习笔记目录 论文邻居聚合Graph Isomorphism Net (GIN)模型自连边 εGIN代码 ε邻居聚合-语义场景论文论文链接:https://arxiv.org/pdf/1810.00826.pdf邻居聚合Graph Isomorphism Net (GIN)模型自连边 εGIN代码 εhttps://arxiv.org/pdf/2003.00982v1.pdf邻居聚合-语义场景...原创 2021-02-14 10:08:19 · 1855 阅读 · 0 评论 -
图神经网络-图采样学习笔记
图神经网络-图采样学习笔记目录 Cora数据集训练集 测试集 验证集图采样为什么要图采样Cora数据集cora.content格式:1061127 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0原创 2021-02-14 09:25:58 · 744 阅读 · 0 评论 -
图神经网络-图注意力网络 学习笔记
图神经网络-图注意力网络 学习笔记目录GAN论文图卷积网络GAN论文论文:Graph Attention Networks论文链接:https://arxiv.org/pdf/1710.10903.pdf图卷积网络原创 2021-02-13 09:31:31 · 376 阅读 · 0 评论 -
图神经网络-GCN学习笔记
图神经网络-GCN学习笔记目录 图神经网络图卷积网络邻接矩阵度矩阵消息传递方式实现卷积网络邻居的特征接收、聚合给边加权pgl实现多层图网络完成节点分类任务图神经网络图卷积网络邻接矩阵度矩阵消息传递方式实现卷积网络邻居的特征接收、聚合给边加权pgl实现多层图网络完成节点分类任务...原创 2021-02-12 20:35:13 · 381 阅读 · 0 评论 -
图神经网络-图游走类模型-作业
图神经网络-图游走类模型-课堂实践图神经网络-图游走类模型 异构图Methpath2Vec 学习笔记https://duanzhihua.blog.youkuaiyun.com/article/details/113793820图神经网络-图游走类模型 同构图学习笔记https://duanzhihua.blog.youkuaiyun.com/article/details/113793336目录 图游走类模型生成单条DeepWalk游走序列Deepwalk 采样PGL 运行DeepWalk图游走类模型生成单条D原创 2021-02-12 16:17:19 · 441 阅读 · 0 评论 -
图神经网络-图游走类模型 异构图 Methpath2Vec 学习笔记
图神经网络-Methpath2Vec及其变种 学习笔记图神经网络-图游走类模型学习笔记https://duanzhihua.blog.youkuaiyun.com/article/details/113793336目录 Methpath2Vecmeta pathMetapath2Vec 框架Metapath2Vec++ 框架Multi-Methpath2Vec++Methpath2Vecmeta pathMetapath2Vec 框架Metapath2Vec++ 框架Multi-Meth原创 2021-02-12 13:33:29 · 481 阅读 · 0 评论 -
图神经网络-图游走类模型 同构图 学习笔记
图神经网络-图游走类模型学习笔记目录 Node embeddings图游走类算法Node embeddings图游走类算法原创 2021-02-12 10:15:51 · 455 阅读 · 1 评论 -
图神经网络-图与图学习笔记-中
图神经网络-图与图学习笔记-中目录 图机器学习计算Adamic-Adar绘制ROC-AUC来评价预测的效果节点标记预测(Node labeling)Facebook 数据拉普拉斯矩阵(Laplacian matrix)图嵌入(Graph Embedding)图机器学习计算Adamic-AdarAdamic-Adar 简称AA, 根据共同邻居的节点的度给每个节点赋予一个权重值,为每个节点的度的对数分之一,把节点对的所有共同邻居的权重值相加,其和作为该节点对的相似度值。import networkx原创 2021-02-10 20:32:42 · 743 阅读 · 0 评论 -
图神经网络-图与图学习笔记-2
图神经网络-图与图学习笔记-2图神经网络系列笔记目录 主要的图算法寻路和图搜索算法图机器学习的发展主要的图算法目前大多数框架(比如 Python 的 networkx 或 Neo4J)支持的图算法类别主要有三个:Pathfinding(寻路):根据可用性和质量等条件确定最优路径。我们也将搜索算法包含在这一类别中。这可用于确定最快路由或流量路由。Centrality(中心性):确定网络中节点的重要性。这可用于识别社交网络中有影响力的人或识别网络中潜在的攻击目标。Community detect原创 2021-02-08 20:55:17 · 317 阅读 · 0 评论 -
图神经网络-图与图学习笔记-1
图神经网络-图与图学习 笔记-1目录 一. 图是什么?图的基本表示方法计算图的每个节点的度计算边的数量可视化二. 如何存储图?存储为边列表使用邻接矩阵使用邻接列表三. 图的类型和性质附录:斯坦福课程一. 图是什么?图(graph)近来正逐渐变成机器学习的一大核心领域,图表示物件与物件之间的关系的数学对象,是图论的基本研究对象。节点(node)用红色标出,通过黑色的边(edge)连接。图可用于表示:社交网络、网页、生物网络,可以研究拓扑结构和连接性、群体检测、识别中心节点、预测缺失的节点、预测缺失的原创 2021-02-08 16:55:22 · 310 阅读 · 0 评论 -
计算机视觉系列-文本检测常见数据集(6)
计算机视觉系列-文本检测常见数据集(6)目录 文本检测应用场景ICDIAR数据集CTW数据集ICPR MWI 数据集Total-TextGoogle FSNSCOCO-TextSynthetic data for Text Localisation参考文献基于视频的目标检测文本检测应用场景ICDIAR数据集CTW数据集ICPR MWI 数据集Total-TextGoogle FSNSCOCO-TextSynthetic data for Text Localisatio原创 2021-02-07 16:13:27 · 1077 阅读 · 0 评论 -
计算机视觉系列-文本检测PixelLink、Textboxes、Textboxes++算法(5)
计算机视觉系列-文本检测PixelLink、Textboxes、Textboxes++算法(5)计算机视觉系列-文本检测EAST、SegLink算法https://duanzhihua.blog.youkuaiyun.com/article/details/113727086计算机视觉系列-文本检测FTSN DMPNet算法https://duanzhihua.blog.youkuaiyun.com/article/details/113719746计算机视觉系列-文本检测CTPN、RRPN算法https://duan原创 2021-02-07 13:13:57 · 421 阅读 · 0 评论 -
计算机视觉系列-文本检测EAST、SegLink算法(4)
计算机视觉系列-文本检测EAST、SegLink算法(4)计算机视觉系列-文本检测FTSN DMPNet算法https://duanzhihua.blog.youkuaiyun.com/article/details/113719746计算机视觉系列-文本检测CTPN、RRPN算法https://duanzhihua.blog.youkuaiyun.com/article/details/113709484计算机视觉系列-文本检测系列算法https://duanzhihua.blog.youkuaiyun.com/article/原创 2021-02-06 17:08:36 · 434 阅读 · 0 评论 -
计算机视觉系列-文本检测FTSN、DMPNet算法(3)
计算机视觉系列-文本检测FTSN DMPNet算法(3)计算机视觉系列-文本检测CTPN、RRPN算法https://duanzhihua.blog.youkuaiyun.com/article/details/113709484计算机视觉系列-文本检测系列算法https://duanzhihua.blog.youkuaiyun.com/article/details/113703213目录 FTSN算法FTSN论文FSTN 网络FSTN 效果-识别环形文字DMPNet算法DMPNet论文DMPNet结构损失函数DMPN原创 2021-02-06 15:43:09 · 703 阅读 · 0 评论 -
计算机视觉系列-文本检测CTPN、RRPN算法 (2)
计算机视觉系列-文本检测CTPN算法 (2)计算机视觉系列-文本检测系列算法https://duanzhihua.blog.youkuaiyun.com/article/details/113703213目录CTPN算法CTPN算法https://github.com/tianzhi0549/CTPN原创 2021-02-06 11:59:33 · 454 阅读 · 0 评论 -
计算机视觉系列-文本检测系列算法(1)
计算机视觉系列-文本检测系列算法(1)目录 文本检测算法原理Top-Down VS Bottom-up文本检测传统方法深度学习方法常规物体检测算法的问题改进方法文本检测算法原理Top-Down VS Bottom-up文本检测传统方法深度学习方法常规物体检测算法的问题改进方法...原创 2021-02-05 21:19:19 · 509 阅读 · 0 评论 -
计算机视觉系列-YOLO案例及COCO数据集
计算机视觉系列-YOLO系列算法计算机视觉系列-YOLOv5应用https://duanzhihua.blog.youkuaiyun.com/article/details/113525218计算机视觉系列-YOLOv4基本构造https://duanzhihua.blog.youkuaiyun.com/article/details/113516336计算机视觉系列-YOLOv3网络结构https://duanzhihua.blog.youkuaiyun.com/article/details/113505415计算机视觉系列原创 2021-02-05 20:05:35 · 502 阅读 · 0 评论 -
计算机视觉系列-基于FasterRCNN的ADAS场景目标检测
计算机视觉系列-基于FasterRCNN的ADAS场景目标检测目录 ADAS 业务场景Kitti数据集Faster RCNN 环境搭建VOC格式转换代码ADAS 业务场景Carcraft谷歌母公司Alphabet的自动驾驶子公司Waymo开发的一款软件,用来在诸如加州山景城和得克萨斯州奥斯汀等虚拟重建城市中测试无人驾驶汽车软件。https://blog.youkuaiyun.com/u010821666/article/details/79026100Kitti数据集http://www.原创 2021-02-05 16:01:31 · 478 阅读 · 0 评论 -
计算机视觉系列-Faseter-Rcnn系列
计算机视觉系列-Faseter-Rcnn系列计算机视觉系列-RCNN Fast-RCNN Faster-RCNNhttps://duanzhihua.blog.youkuaiyun.com/article/details/113456944计算机视觉系列-RCNN Fast-RCNNhttps://duanzhihua.blog.youkuaiyun.com/article/details/113453408计算机视觉系列-RCNNhttps://duanzhihua.blog.youkuaiyun.com/article/det原创 2021-02-05 08:35:02 · 331 阅读 · 0 评论 -
计算机视觉+NLP : DALL·E 从文本中创建图像
DALL·E:从文本中创建图像目录 DALL·E一个穿着芭蕾舞裙遛狗的小白萝卜牛油果形状的扶手椅一个写着openai的店面猫的素描画像概述功能控制属性绘制多个对象可视化的视角和三维空间可视化内部和外部结构分析背景细节结合无关的概念地理知识时间的知识总结DALL·E官网链接:https://www.openai.com/blog/dall-e/DALL·E神经网络 从自然语言表达的文本概念创建图像。DALL·E 是GPT-3的120亿参数版本,经过训练,使用文本-图像对数据集从文本描述生成图像。DAL原创 2021-02-04 19:57:34 · 1778 阅读 · 0 评论 -
计算机视觉系列-人脸识别技术(2)
计算机视觉系列-人脸识别技术(2)计算机视觉系列-人脸识别 传统检测技术https://duanzhihua.blog.youkuaiyun.com/article/details/113617712目录 FaceNet 论文人脸识别FaceNet算法网络结构Triplet Loss三元组的选择Facenet github 代码FaceNet 论文论文链接:https://arxiv.org/pdf/1503.03832.pdf人脸识别FaceNet算法网络结构Triplet Losshttp原创 2021-02-04 09:38:57 · 301 阅读 · 0 评论 -
计算机视觉系列-人脸识别技术(1)
计算机视觉系列-人脸识别技术(1)目录 应用场景Face DetectionFace AlignmentFace AttributeFace Feature ExtractionFace VerificationFace RecognitionFace RetrievalFace Cluster传统检测技术 Haar特征级联分类器人脸识别的步骤人脸检测算法MTCNNP-NetR-NetO-Net传统卷积网络应用于人脸识别人脸识别DeepID算法网络结构人脸验证人脸特征可视化应用场景Face Detec原创 2021-02-04 08:10:58 · 540 阅读 · 0 评论 -
计算机视觉系列-GAN生成式对抗网络原理及应用
计算机视觉系列-GAN生成式对抗网络原理及应用目录GAN 论文GAN简介判别器生成器GAN 手写数字生成案例实现GAN 论文论文链接:https://arxiv.org/pdf/1406.2661.pdfGAN简介判别器生成器转置卷积https://github.com/vdumoulin/conv_arithmeticGAN应用GAN 手写数字生成案例实现训练判别器模型:训练对抗模型+判别器模型: GAN代码:# coding: utf-8 #原创 2021-02-03 16:59:40 · 434 阅读 · 0 评论 -
计算机视觉系列-图像风格转换
计算机视觉系列-图像风格转换目录 图像风格转换论文论文链接图像风格转换网络论文复现代码运行结果图像风格转换论文以不同的方式呈现图像的语义内容样式是图像处理中的一个难点。以前方法的限制因素是缺乏明确表示语义信息的图像表示,论文使用的图像表示从卷积神经网络优化目标识别,显示高层次的图像信息。论文介绍了一种艺术风格的神经网络算法,该算法能够将自然图像的内容和风格进行分离和重组图像。该算法能够产生新的图像,将任意照片的内容与众多知名艺术品的外观相结合的高感知质量。论文的研究结果提供了新的见解,通过卷积神经网络原创 2021-02-03 11:07:29 · 589 阅读 · 0 评论 -
计算机视觉系列-图像目标分割 Mask-RCNN结构介绍(2)
计算机视觉系列-Mask-RCNN结构介绍(2)目录 Mask-RCNN简介Mask-RCNN网络Mask-RCNN Mask分支ROIAlign和ROIPooling对比ROI Pooling的局限性ROI AlignROI Align 比较Mask-RCNN代价函数标注工具Labelme使用预训练Mask-RCNN 目标分割自定义Mask-RCNN 目标分割Mask-RCNN简介论文链接:Mask R-CNNhttp://cn.arxiv.org/pdf/1703.06870v3Mas原创 2021-02-02 21:26:43 · 516 阅读 · 0 评论 -
计算机视觉系列-图像目标分割(1)
计算机视觉系列-图像目标分割(1)目录 计算机视觉三大任务图像分割应用普通分割语义分割实例分割数据集Pascal VOCMS COCOFCN(Fully Convolutional Networks)转置卷积全卷积FCN的跳级连接语义分割评价方式PAMPAMIOUFWIOUFCN结果分析计算机视觉三大任务图像分割应用普通分割语义分割实例分割数据集Pascal VOCMS COCOFCN(Fully Convolutional Networks)论文链接:Fully C原创 2021-02-02 17:05:28 · 394 阅读 · 0 评论 -
计算机视觉系列-YOLOv5应用(5)
计算机视觉系列-YOLOv5应用(5)计算机视觉系列-YOLOv4基本构造https://duanzhihua.blog.youkuaiyun.com/article/details/113516336计算机视觉系列-YOLOv3网络结构https://duanzhihua.blog.youkuaiyun.com/article/details/113505415计算机视觉系列-YOLOv2网络结构Darknethttps://duanzhihua.blog.youkuaiyun.com/article/details/11349原创 2021-02-01 18:07:49 · 1423 阅读 · 0 评论 -
计算机视觉系列-YOLOv4基本构造(4)
计算机视觉系列-YOLOv4基本构造(4)计算机视觉系列-YOLOv3网络结构https://duanzhihua.blog.youkuaiyun.com/article/details/113505415计算机视觉系列-YOLOv2网络结构Darknethttps://duanzhihua.blog.youkuaiyun.com/article/details/113492866计算机视觉系列-YOLOv1结构及工作流程https://duanzhihua.blog.youkuaiyun.com/article/details/原创 2021-02-01 15:35:36 · 320 阅读 · 0 评论 -
计算机视觉系列-YOLOv3网络结构 (3)
计算机视觉系列-YOLOv3网络结构 (3)计算机视觉系列-YOLOv2网络结构Darknethttps://duanzhihua.blog.youkuaiyun.com/article/details/113492866计算机视觉系列-YOLOv1结构及工作流程https://duanzhihua.blog.youkuaiyun.com/article/details/113485152YOLO v3 论文论文链接: https://arxiv.org/abs/1804.02767YOLO 官网: YOLO: R原创 2021-02-01 14:34:44 · 2597 阅读 · 0 评论