
技术讨论
文章平均质量分 89
极客小普冲呀
这个作者很懒,什么都没留下…
展开
-
Kubernetes 能取代 Docker吗?
在容器技术方面,有两个名字成为开源领导者:Kubernetes 和 Docker。虽然它们是帮助用户进行容器管理的根本不同技术,但它们是互补的,并且在组合时可以发挥强大的作用。原创 2022-08-12 15:56:50 · 937 阅读 · 0 评论 -
技术20期:3种在 Python 中使用 Keras 库评估深度学习模型性能
三种可以使用 Keras 库在 Python 中评估深度学习模型性能的方法:使用自动验证数据集。使用手动验证数据集。使用手动 k 折交叉验证。原创 2022-07-01 16:03:52 · 886 阅读 · 0 评论 -
普适技术|如何使用隔离森林和核密度估计进行异常检测?
异常检测是发现偏离规范的数据点。换句话说,这些点不符合预期模式。异常值和异常是用于描述异常数据的术语。异常检测在各个领域都很重要,因为它提供了有价值且可操作的见解。例如,核磁共振成像扫描中的异常可能表明大脑中存在肿瘤区域,而制造厂传感器的异常读数可能表明组件损坏。完成本教程后,小普希望您能够了解:定义并理解异常检测。 实施异常检测算法以分析和解释结果。 查看任何数据中可能导致异常行为的隐藏模式。让我们开始吧。什么是异常检测?异常值只是一个数据点,它与特定数据集中的其余数据点有很大的偏差转载 2022-05-06 16:43:58 · 1200 阅读 · 0 评论 -
什么是图神经网络 (GNN)?
图表无处不在。您的社交网络是人和关系的图表。你的家人也一样。您从 A 点到 B 点所走的道路构成了一个图形。将这个网页连接到其他网页的链接形成了一个图表。当您的雇主向您付款时,您的付款会通过金融机构的图表。基本上,由链接实体组成的任何东西都可以表示为图形。图表是可视化人、对象和概念之间关系的绝佳工具。然而,除了可视化信息之外,图表还可以成为训练机器学习模型以完成复杂任务的良好数据来源。图神经网络(GNN)是一种机器学习算法,可以从图中提取重要信息并做出有用的预测。随着图变得越来越普遍,信息越来越丰富原创 2022-03-11 18:19:37 · 3802 阅读 · 0 评论 -
一文看懂大数据矩阵运算利器-Spark Distributed Matrix
如今是大数据的时代,数据呈指数型增长,那么如何利用这些数据?离不开大数据计算,今天小普给大家介绍的是:Spark的分布式计算框架,它能很好地适配大数据场景下的计算任务。【相似度计算】是金融领域或商品推荐等领域的常见需求,如果需要计算M个用户两两之间的相似度情况,若用户特征个数为N。如果采用循环遍历的计算方式,我们需要计算M*(M-1)次才能得到两两用户之间的相似度情况。而如果我们采用矩阵计算的方式,只需构造一个M*N维的矩阵A,做一些简单的矩阵运算:运算的结果矩阵元素的下标,就对应这原创 2021-11-01 14:04:05 · 1405 阅读 · 0 评论 -
必看干货:如何在 JavaScript 中实现 8 种基本图形算法
在本文中,我将实现8 种图算法,探索 JavaScript 中图的搜索和组合问题(图遍历、最短路径和匹配)。这些问题是从《Java编程面试要素》一书中借来的。本书中的解决方案是用 Java、Python 或 C++ 编写的,具体取决于书的版本。尽管问题建模背后的逻辑与语言无关,但我在本文中提供的代码片段使用了一些 JavaScript 警告。每个问题的每个解决方案都分为 3 个部分:解决方案概述、伪代码,最后是 JavaScript 中的实际代码。要测试代码并查看它执行预期的操作,您...原创 2021-09-18 16:51:37 · 1017 阅读 · 0 评论 -
归纳苹果,Facebook大规模部署的Spark-用户界面详细执行操作。
作者:王畅 整理编辑:CarolSparkApache Spark被广泛认为是大数据行业的未来。自从Apache Spark进入大数据市场以来,它就获得了很多认可。如今,苹果,Facebook,Netflix和Uber等大多数尖端公司已经大规模部署了Spark。在Spark核心数据处理引擎之上,还有用于SQL,机器学习,图形计算和流处理的库,应用程序开发人员和数据科学家将Spark集成到其应用程序中,以**快速地大规模查询,分析和转换数据。**为了更好地了解Spark如何执行Spark / PySpar原创 2021-04-16 17:07:28 · 324 阅读 · 0 评论 -
TrueLicense实现产品License验证
技术:apache-maven-3.3.9 +jdk1.8.0_102运行环境:ideaIC-2020.1.3 + apache-maven-3.3.9+ jdk1.8.0_102家精品内容,核心代码解析多代码预警~觉着有帮助的别忘了给小普点赞!作者:陈鸿姣 编辑:Carol01 概述TrueLicense是一个开源的证书管理引擎,使用trueLicense来做软件产品的保护,基于TrueLicense实现产品License验证功能,给产品加上License验证功能,进行试用期授权,在试用期过后原创 2021-04-01 18:31:02 · 1701 阅读 · 0 评论 -
一文看懂MYCAT数据库服务器!
下载文件,可前往MyCat官网:http://www.mycat.org.cn/建议下载1.6版本l .配置环境:|- 最重要的MySql环境,因为MyCat就是服务于MySql数据库|- jdk下载(1.7以上) –mycat是基于java开发的,需要java编译环境软件工程领域内所有的系统都应该从这两个问题开始“这是什么?““为什么要有这个?”那么第一个问题——什么是Mycat?众所周知,系统开发中,数据库是非常重要的一个点。除了程序的本身的优化,如:SQL语句优化、代码优化,数据原创 2021-03-23 11:47:32 · 265 阅读 · 1 评论 -
技术19期:1分钟入门数据治理!必看!【技术篇】
1分钟入门数据治理!必看!【技术篇】前言:在进行大数据开发过程中,数据调研和开发规范都是必不可少的。数据调研便于理清数据源之间的关系,梳理出哪些数据是符合当下的业务场景以及确定所要用到的加工口径等。而良好的开发规范,能有效提高数据开发的质量以及效率,保证数据开发的规范性和准确性。数据治理这三点尤为重要:01 数据调研在源系统调研初期,需要与业务或者系统负责人询问系统数据相关的情况,可以针对以下5点对数据进行了解:(1) 明确系统贴源表的业务含义,以及同一系统不同表之间有怎样的关系,具体明确到表原创 2021-03-11 10:57:39 · 721 阅读 · 0 评论 -
技术18期:数据安全之加密与实现
前言:大数据时代,每个人的生活中都不存在所谓的绝对“秘密”,通过网络上的数据信息可以分析出一个人生活的各种痕迹。因此,保障大数据信息安全至关重要。本文主要介绍了散列算法、对称加密算法和非对称加密算法的概念和代码实现。数据安全的重要性1.数据保密性数据只能由授权实体存取、识别,放置非授权泄露,即数据不能被未授权的第三方使用。2.数据完整性防止非授权实体对数据进行非法篡改,即数据在传输过长中不能被未授权方修改。3.数据可用性数据对于授权实体是可用的,有效...原创 2020-09-09 14:46:15 · 788 阅读 · 0 评论 -
技术17期:近几年崛起的Pytorch究竟是何方神圣?
谷歌的 TensorFlow已经是一个非常成熟的框架,但是最几年Facebook 的 PyTorch却异军突起,逐渐成为热门,而且似乎有要赶超TensorFlow的趋势,PyTorch究竟是何方神圣?PyTorch到底是什么?简单来说PyTorch是一个ML的框架,常用于自然语言处理等应用程序。不同于Tensorflow,PyTorch可谓是非常年轻的一个框架,在2017才由Facebook人工智能研究院(FAIR)基于Torch推出。那么问题就来了,PyTorch有啥用...原创 2020-08-28 10:59:59 · 530 阅读 · 0 评论 -
技术16期:如何更好的保证数据质量【大数据篇】
数据质量管理不单纯是一个概念,也不单纯是一项技术、也不单纯是一个系统,更不单纯是一套管理流程,数据质量管理是一个集方法论、技术、业务和管理为一体的解决方案。通过有效的数据质量控制手段,进行数据的管理和控制,消除数据质量问题进而提升企业数据变现的能力,一切业务、技术和管理活动都围绕这个目标和开展。数据质量问题数据质量问题通常会存在以下几个方面的问题,通常对数据质量的评估也是围绕这几个维度进行的。 数据准确性:用于分析和识别无效或者不准确的数据,不可靠的...原创 2020-08-17 18:04:16 · 1341 阅读 · 0 评论 -
技术15期:4种常用的可视化技术【web前端】
说到可视化这个词,可能有的人会一脸懵逼,感觉很陌生,有的人会觉得索然无味,感觉这又是程序员闲暇之余想出的噱头而已。no,no,no,如果这么想你就错了。可视化的应用已经深入我们的生活中,能以非常炫酷的方式给我们提供优质且量多的数据信息,像今年大伙们看的比较多的疫情信息图,还有淘宝双11的可视化数据大屏,都属于可视化技术的应用。什么?你说你想快速了解这个热门、实用的领域,那就接着往下看吧。首先,你得知道可视化的概念是什么。可视化,是利用计算机图形学和...原创 2020-08-11 10:33:02 · 2610 阅读 · 0 评论 -
技术14期:关于深度学习中耳熟能详的Embedding
什么是Embedding?近年来,NLP自然语言处理、推荐系统,以及计算机视觉已成为目前工业界算法岗的主流方向,无论在哪个领域,对“Embedding”这个词概念的理解都是每个庞大知识体系的基石。今天我们就以诙谐生动的方式来理解一下这个看似高大上的名词吧。“Embedding”直译是嵌入式、嵌入层。看到这个翻译的时候是不是一脸懵圈?什么叫嵌入?意思是牢固地或深深地固定?那么它能把什么嵌入到什么呢?很开心地告诉你,它能把万物嵌入万物,是沟通两个世界的桥梁...原创 2020-07-27 14:50:04 · 324 阅读 · 0 评论 -
技术13期:一文读懂Flink的流式处理及窗口理解
Apache Flink是一个框架和分布式大数据处理引擎,可对有界数据流和无界数据流进行有状态计算。可部署在各种集群环境,对各种大小的数据规模进行快速计算。Flink基本概念流处理:特点是无限、实时,无需针对整个数据集执行操作,而是通过对系统传输的每个数据项执行操作,一般用于实时统计。有界数据流:有明确定义的开始和结束,可以在执行任何计算之前通过获取所有数据来处理有界流,处理有界流不需要有序获取,因为可以始终对有界数据集进行排序,有界流的处理也称为批处理。...原创 2020-07-20 15:55:04 · 645 阅读 · 0 评论 -
技术12期:如何设计rowkey使hbase更快更好用【大数据-全解析】
HBase是一个分布式的、面向列的开源数据库存储系统,具有高可靠性、高性能和可伸缩性,它可以处理分布在数千台通用服务器上的PB级的海量数据。BigTable的底层是通过GFS来存储数据,而HBase对应的则是通过HDFS(Hadoop分布式文件系统)来存储数据的。HBase不同于一般的关系型数据库,它是一个适合于非结构化数据存储的数据库。HBase不限制存储的数据的种类,允许动态的、灵活的数据模型。HBase可以在一个服务器集群上运行,并且能够根据业务进行横向扩展。...原创 2020-07-13 13:58:02 · 343 阅读 · 0 评论 -
技术11期:Atlas的概念你了解多少?
导读在当今大数据的应用越来越广泛的情况下,数据治理一直是企业面临的巨大问题,大部分只是单纯的对数据进行了处理,而数据的血缘、分类等等却很难实现,市场上也急需要一个专注于数据治理的技术框架,这时Atlas应运而生。▐Atlas的定义:Apache Atlas是Hadoop社区为解决Hadoop生态系统的元数据治理问题而产生的开源项目,它为Hadoop集群提供了包括数据分类、集中策略引擎、数据血缘、安全和生命周期管理在内的元数据治理核心功能。...原创 2020-07-06 16:54:13 · 1205 阅读 · 0 评论 -
技术10期:什么是Kafka?【全解析】
Kafka是最初由Linkedin公司开发,是一个分布式、支持分区的、多副本的,基于zookeeper协调的分布式消息系统。它最大的特性就是可以实时处理大量数据以满足各种需求场景:比如基于hadoop的批处理系统、低延迟的实时系统、storm/Spark流式处理引擎,web/nginx日志、访问日志、消息服务等等。Linkedin于2010年贡献给了Apache基金会并成为顶级开源项目。01 kafka的定义和特征Kafka是一个分布式的基于发布/订阅模式的消息队列...原创 2020-07-06 14:16:49 · 250 阅读 · 0 评论 -
技术09期:5分钟带你快速了解TypeScript
近年来,TypeScript(TS)越来越频繁的出现在人们的视野内,在各大新闻,论坛上都能看到其身影,当今主流的三大前端框架react,Vue3.0和Angular2中的后两者都使用了TS进行编写,鼓励和支持大家使用TS进行开发。那么,TS到底有什么魅力,让众多开发者如此青睐。TypeScript是Microsoft(微软)开发的一种开源编程语言,是JavaScript(JS)的超集,可以编译成JS代码。使用JS编写的合法代码,可以在TS中直接运行。相比JS,TS引入...原创 2020-07-03 09:50:35 · 300 阅读 · 0 评论 -
技术08期:十大经典数据挖掘算法【PageRank篇】
PageRank可以较为直观的理解为是对网页重要性排序的一种算法。Googel能在全球互联网搜索引擎中处于较高地位,该算法功不可没。导 读早期的搜索引擎通过计算用户查询关键词与网页内容的相关程度来返回搜索结果,即关键词匹配算法。但该种搜索引擎会极容易遭受Term Spam攻击,导致用户体验满意度大打折扣。例如,在页面上添加一个像“电影”这样的术语,并做数千次,搜索引擎就会认为这是一个非常重要的电影页面。当用户搜索“电影”时,搜索引擎将首先列出该页面。...原创 2020-06-24 15:08:36 · 511 阅读 · 0 评论 -
技术07期:图计算,让数据间的关系无处可藏【社区分切篇】
社区,即一群拥有相似特征的点,社区内的点连接紧密,社区间稀疏连接。我们可以把同一公司的同事看作是一个社区内的点,他们从事同一行业,可能有相似的教育背景,由于 工作需要,他们之间要进行频繁的沟通。而不同的公司就像是两个不同的社区,他们之间可能存在着业务往来,但关系远没有公司内部连接紧密。什么是社区切分?那么发现这些社区对我们有什么用呢?对于一家需要做广告宣传的公司,他一定是想花最少的钱,吸引最多的客户,通过广告的在某一社群的精准投放可以达到这一...原创 2020-06-17 16:56:26 · 285 阅读 · 0 评论 -
强烈推荐可以玩上一整天的游戏网站
作为科技公司的一员,小普推荐能玩一整天的网站,当然是和编程有关的啦~强烈推荐一款以游戏形式学习python的网站:▐CheckIOCheckIO是一个Python代码游戏网站,用户可以通过编程来解决游戏中的各种任务,还可以与其他开发者玩编程逻辑游戏进行比赛,来交流编程技能、经验。它受众广泛,如果你是一个Python初学者,CheckIO可以让你学习基础知识,并在解决不同任务的过程中获得丰富的实践经验。如果你是一个有经验的程序员,CheckIO为你提供了一个完...原创 2020-06-15 11:55:16 · 2193 阅读 · 4 评论 -
技术06期:测试系统&软件需要重视哪几点?
导读2007年5月18日,众多使用诺顿防病毒软件的中国个人用户和企业用户在重启系统后出现蓝屏,系统不能正常使用。即便诺顿当日下午便给出了解决方案,但他作为专业安全公司的信誉依旧受到了严重影响。该事故源于诺顿当日在更新中将两个简体中文版的Windows系统文件误当成病毒。这个本该在实验室测试中轻易发现的问题,却由于技术或管理种种原因被疏漏了。因软件缺陷而导致重大负面影响或巨大损失的例子数不胜数,业内顶级厂商也不能幸免究其原因,几乎都归入软件测试不够充分。由此可见,一方面是软...原创 2020-06-09 09:58:44 · 458 阅读 · 0 评论 -
技术05期:五分钟教你读懂卷积神经网络【CNN】
上期回顾:以RBN(径向基函数)神经网络为例,简要介绍了前馈型神经网络中,“神经元”到底是如何进行“曲线拟合”的。详情可回顾:神经网络如何从入门到精通?(请戳我)在理论上RBF神经网络和BP神经网络能以任意精度逼近任何非线性函数,且Poggio和Girosi已经证明,RBF网络是连续函数的最佳逼近,并且具有良好的泛化能力。但是,生活中绝大多数的问题,并不是简单的曲线拟合问题。因此CNN、DCNN、RNN、LSTM、GAN等等众多的神经网络,为了更好地解决不同方向的实际...原创 2020-05-26 14:15:36 · 1077 阅读 · 2 评论 -
技术04期:关于神经网络的概念及技术领域
导读一般而言,我们可以把神经网络分为前馈网络、递归网络和反馈网络。前馈网络一般指前馈神经网络或前馈型神经网络。它是一种最简单的神经网络,各神经元分层排列。每个神经元只与前一层的神经元相连。接收前一层地输出,并输出给下一层,各层间没有反馈。包括:BP神经网络、RBF神经网络等。递归神经网络(RNN)是两种人工神经网络的总称。一种是时间递归神经网络(recurrent neural network),又名循环神经网络,包括RNN、LSTM、GRU等;另一种是结构递归神经网络(recursive n.原创 2020-05-19 15:57:52 · 1275 阅读 · 0 评论 -
技术03期:自然语言处理NLP【分词篇】
NLP简介和三种分词模型NLP逐渐成为人工智能一大热点研究方向,目前国外对英文分词的研究比较深入,而中文分词发展较缓。它需要联系上下文、作者背景、内容背景等进行调整。处理这些高度模糊句子所采用消歧的方法,通常运用到语料库以及隐马尔可夫模型(Hidden Markov Model,HMM)、支持向量机(Support Vector Machine,SVM)和条件随机场(Conditional Random Field, CRF)三种为主,也常用于句法分析、命名实体识别、词性标注...原创 2020-05-19 15:55:34 · 1235 阅读 · 6 评论 -
技术02期:这么做竟然能让你的hive运行得更流畅!
导读在大数据领域中,hive是基于Hadoop的一个数据仓库工具,主要用于对大数据量的处理工作,在平时设计和查询时要特别注意效率。数据倾斜、数据冗余、job或者I/O过多,MapReduce分配不合理等都会影响到hive效率。本文主要介绍hql语句本身优化和hive配置优化提高hive效率。▐ 谓词下推就是将SQL语句中的where谓词逻辑都尽可能提前执行,减少下游处理的数据量。Hive中有谓词下推优化的配置项hive.optimize.ppd,默认值t...原创 2020-05-19 15:12:06 · 325 阅读 · 0 评论 -
技术01期:大规模图计算【基础篇】
导读图计算就是研究如何高效计算、存储和管理大规模图数据。图是由顶点和边组成的,它可以对事物以及事物之间的关系建模,比如文章是点,文章与文章之间的超链接是边;或者顾客和商品是点,购买或者喜欢是边,购买的次数喜欢的程度是边的权重;再如银行卡持卡人是点,交易是边,交易频率交易金额是属性。针对这些关系模型,我们可以用最短路径算法做好友推荐,计算关系紧密程度;最小连通图可以识别洗钱或虚假交易;Keyperson可以找到社区领袖,防止客户流失的群体效应;对图做PageRank可以做传播影响力分析,找..原创 2020-05-19 14:47:45 · 840 阅读 · 1 评论