- 博客(73)
- 资源 (1)
- 收藏
- 关注
原创 LSTM学习资料
1.一个大二学生对LSTM的理解2.【LSTM从入门到精通】2小时带你掌握LSTM算法!3.LSTM模型结构的可视化4.一幅图真正理解LSTM的物理结构。
2024-06-20 14:36:02
160
原创 LLM Visualization可视化
可视化演示网站:https://bbycroft.net/llm视频解释:https://www.bilibili.com/video/BV1hZ4y1E7DZ/?spm_id_from=333.788&vd_source=cc2da879c044059d9838f660bcaf4664你好! 这是你第一次使用 Markdown编辑器 所展示的欢迎页。如果你想学习如何使用Markdown编辑器, 可以仔细阅读这篇文章,了解一下Markdown的基本语法知识。我们对Markdown编辑器进行了一些功能拓展与
2024-02-15 15:14:58
1231
原创 python爬取XLWB(含标题、日期、正文、点赞、评论、转发、图片等)
利用python xpath爬取XLWB内容,包括作者、标题、正文、分页抓取、图片下载等
2022-05-03 20:06:28
872
原创 win10安装Anaconda、Cuda、Cudnn和Pytorch(gpu版)
win10安装Anaconda、Cuda、Cudnn和Pytorch(gpu版)安装Anaconda在https://www.anaconda.com/products/individual上下载对应的Anaconda,这里我选的64位Python3.7,然后图形化安装,完成后别忘了配置下环境变量Path:配好Path后在cmd下执行conda --version,显示出版本号即可。安装Cuda在安装cuda前,最好先上(https://docs.nvidia.com/cuda/cuda-too
2020-06-24 20:33:48
6206
1
原创 Anaconda安装jieba
先说一下环境,我是window里用PyCharm,PyCharm里导入的Anaconda3,想用jieba库,目的就是想把jieba安装在Anaconda里,这样Pycharm里直接就能imort jieba了。首先去官网下载jieba:https://pypi.org/project/jieba/将下载好的压缩包解压到Anaconda的pkgs目录,比如我的就是D:\Anaconda3\p...
2019-08-01 11:49:38
15028
6
原创 Python读取中文出现UnicodeDecodeError: 'gbk' codec can't decode byte 0xae解决方案
用python3读取一个中文文本,读取文件语句如下:def read_file_handler(f, 'r'): fd = open(f) return fd但运行时出现以下错误:UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 9: illegal multibyte sequence...
2019-07-31 16:09:55
16471
3
原创 朴素贝叶斯实战(Python屏蔽留言板的侮辱性言论)
项目概述构建一个快速过滤器来屏蔽留言板上的侮辱性言论。如果某条留言使用了负面或者侮辱性的语言,那么就将该留言标识为内容不当。对此问题建立两个类别: 侮辱类和非侮辱类,使用 1 和 0 分别表示。准备数据准备数据的方法比较简单,只是自己构造的训练数据集而已,嵌套列表里的每个列表表示已经分好词的句子样本。可以看到,为简单起见,每个句子里的词都不重复。def loadDataSet(): ...
2019-07-29 20:26:52
1289
原创 朴素贝叶斯笔记
贝叶斯公式贝叶斯公式就是采用贝叶斯准则来计算条件概率,它告诉我们计算时交换条件概率中的条件与结果:P(Y∣X)=P(X∣Y)P(Y)P(X)P(Y|X)=\frac{P(X|Y)P(Y)}{P(X)}P(Y∣X)=P(X)P(X∣Y)P(Y)P(Y∣X)P(Y|X)P(Y∣X) 不能通过直接观测来得到结果,而P(X∣Y)P(X|Y)P(X∣Y) 却容易通过直接观测得到结果,就可以通过贝叶斯...
2019-07-29 15:47:55
320
原创 解决Error:scalac:error while loading <root>,Error accessing
今天运行flink程序,编译时报如下错误;意思是访问maven下载的jar包出错,但是这个jar包已经下载好了,于是我进入jar包所在的路径,发现该包的大小只有1KB,感觉是下载有问题,于是删除该jar包,然后在pom中reimport一下就行了...
2019-07-20 18:57:27
5692
原创 Centos7安装Anaconda3
[root@master boya]# bash Anaconda3-4.4.0-Linux-x86_64.sh Welcome to Anaconda3 4.4.0 (by Continuum Analytics, Inc.)In order to continue the installation process, please review the licenseagreement...
2019-07-17 16:45:46
9558
2
原创 解决IDEA cannot resolve symbol flink暗灰色显示
在用maven搭建flink开发环境时(scala版),pom文件中已写好了所需的依赖,等下载完jar包后编写flink程序,发现无法引入所需的包,即出现下图情况我的pom文件如下:<project xmlns="http://maven.apache.org/POM/4.0.0" xmlns:xsi="http://www.w3.org/2001/XMLSchema-instance"...
2019-07-17 16:23:56
4926
原创 flume+kafka+spark streaming(Receiver)+hive构建日志采集系统
[root@master boya]# head flume_exec_test.txt {"order_id": 2539329, "user_id": 1, "eval_set": "prior", "order_number": 1, "order_dow": 2, "hour": 8, "day": 0.0}{"order_id": 2398795, "user_id": 1, "ev...
2019-07-14 17:06:31
946
2
原创 Error:scalac: Scala compiler JARs not found (module 'boya')解决方法
今天使用IDEA添加一个新的Maven依赖包后,编译scala项目报如下错:Error:scalac: Scala compiler JARs not found (module ‘boya’): C:\Users\zby.m2\repository\org\scala-lang\scala-compiler\2.11.4\scala-compiler-2.11.4.jar, C:\Users\...
2019-07-14 10:57:52
19453
1
原创 kafka实操(创建主题,生产者,消费者组,查看消费偏移,删除主题)
启动zookeeper,在master、salve1和slave2上分别启动[root@master bin]# ./zkServer.sh start三个节点启动后,别忘了查看一下启动状态:[root@master bin]# ./zkServer.sh statusJMX enabled by defaultUsing config: /usr/local/src/zookeep...
2019-07-04 19:32:02
32160
原创 Spark Streaming:reduceByKeyAndWindow、foreachRDD算子
基于Window窗口的转化操作基于窗口的操作会在一个比StreamingContext 的批次间隔更长的时间范围内,通过整合多个批次的结果,计算出整个窗口的结果。滑动窗口转换操作的计算过程如下图所示,我们可以事先设定一个滑动窗口的长度(也就是窗口的持续时间),并且设定滑动窗口的时间间隔(每隔多长时间执行一次计算),然后,就可以让窗口按照指定时间间隔在源DStream上滑动,每次窗口停放的位置上...
2019-06-22 17:12:35
648
原创 Spark Streaming简单入门(示例+原理)
一个简单的示例以一个简单的例子开始spark streaming的学习之旅!我们会从本机的7777端口源源不断地收到以换行符分隔的文本数据流// 在本地启动名为SimpleDemo的SparkStreaming应用// 该应用拥有两个线程,其批处理时间间隔为1s// 创建SparkConfval conf = new SparkConf().setMaster("local[2]").s...
2019-06-21 11:10:22
31461
7
转载 哥们,那你说说系统架构引入消息中间件有什么缺点?
一 前情回顾上篇文章《哥们,你们的系统架构中为什么要引入消息中间件呢?》,给大家讲了讲消息中间件引入系统架构的作用,主要是解决哪些问题的。其比较常见的实践场景是:复杂系统的解耦复杂链路的异步调用瞬时高峰的削峰处理二 正式开始这篇文章给大家讲讲,如果你在系统架构里引入了消息中间件之后,会有哪些缺点?1 系统可用性降低首先是你的系统整体可用性绝对会降低,给你举个例子,我们就拿之前...
2019-06-15 21:15:01
176
转载 哥们,你们的系统架构中为什么要引入消息中间件?
这篇文章开始,我们把消息中间件这块高频的面试题给大家说一下,也会涵盖一些MQ中间件常见的技术问题。假如面试官看你简历里写了MQ中间件的使用经验,很可能会有如下问题:你们公司生产环境用的是什么消息中间件?为什么要在系统里引入消息中间件?引入消息中间件之后会有什么好处以及坏处?好,我们一个个的来分析!一 你们公司生产环境用的是什么消息中间件?这个首先你可以说下你们公司选用的是什么消息...
2019-06-15 17:22:54
211
转载 面试官:请谈谈写入消息中间件的数据,如何保证不丢失?
1 背景引入这篇文章,给大家聊一下写入Kafka的数据该如何保证其不丢失?看过之前的文章《面试官:消息中间件如何实现每秒几十万的高并发写入》的同学,应该都知道写入Kafka的数据是会落地写入磁盘的。我们暂且不考虑写磁盘的具体过程,先大致看看下面的图,这代表了Kafka的核心架构原理。2 Kafka分布式存储架构那么现在问题来了,如果每天产生几十TB的数据,难道都写一台机器的磁盘上吗?这...
2019-06-14 18:03:07
528
转载 面试官:消息中间件如何实现每秒几十万的高并发写入?
这篇文章来聊一下Kafka的一些架构设计原理,这也是互联网公司面试时非常高频的技术考点。Kafka是高吞吐低延迟的高并发、高性能的消息中间件,在大数据领域有极为广泛的运用。配置良好的Kafka集群甚至可以做到每秒几十万、上百万的超高并发写入。那么Kafka到底是如何做到这么高的吞吐量和性能的呢?这篇文章我们来一点一点说一下。1、页缓存技术 + 磁盘顺序写首先Kafka每次接收到数据都会往磁...
2019-06-14 17:49:45
246
转载 Kafka高可用性实现原理
1 概述Kafka与传统消息系统相比,有以下不同:它被设计为一个分布式系统,易于向外扩展;它同时为发布和订阅提供高吞吐量;它支持多订阅者,当失败时能自动平衡消费者;它将消息持久化到磁盘,因此可用于批量消费,例如ETL以及实时应用程序。Kafka凭借着自身的优势,越来越受到互联网企业的青睐,。Kafka作为一个商业级消息中间件,消息可靠性的重要性可想而知。如何确保消息的精确传输?如何...
2019-06-14 17:37:57
2052
原创 大数据、机器学习、算法比赛等中文文档
https://www.ibooker.org.cn/docs/发现一个中文社区,其文档包括Storm、Spark、HBase、Flink、Kafka、Scikit-Learn、TensorFlow、Matplotlib、Numpy、Pandas、Xgboost、Kaggle、LeetCode等...
2019-06-12 09:03:49
187
原创 Centos7安装Kafka2.11-0.10.2.1
集群环境Master:192.168.230.10Slave1:192.168.230.11Slave2:192.168.230.12软件环境kafka_2.11-0.10.2.1.tgz解压安装包在Master上安装[root@master kafka]# tar -xzvf kafka_2.11-0.10.2.1.tgz修改配置文件修改$KAFKA_HOME/config...
2019-06-11 15:58:00
739
原创 启动flume报WARN:No appenders could be found for logger(org.apache.flume.lifecycle.LifecycleSupervisor)
flume安装完后,在bin目录下执行以下启动命令:[root@slave1 bin]# ./flume-ng agent --conf conf --conf-file ../conf/pull.conf --name a2 -Dflume.root.logger=INFO,console结果报出以下WARN,然后界面一直就卡主:Info: Including Hive librarie...
2019-06-11 10:12:19
2031
1
原创 详解MapReduce Shuffle与Spark Shuffle
1 Shuffle简介Shuffle的本意是洗牌、混洗的意思,把一组有规则的数据尽量打乱成无规则的数据。而在MapReduce中,Shuffle更像是洗牌的逆过程,指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据,以便reduce端接收处理。或者说需要将各节点上同一类数据汇集到某一节点进行计算,把这些分布在不同节点的数据按照一定的规则聚集到一起的过程成为Shuffle.。其在...
2019-06-04 09:58:09
8845
2
转载 使用GRANT ALL PRIVILEGES赋予远程登录mysql的权限
1、 改表法。可能是你的帐号不允许从远程登陆,只能在localhost。这个时候只要在localhost的那台电脑,登入mysql后,更改 “mysql” 数据库里的 “user” 表里的 “host” 项,从"localhost"改成"%"mysql -u root -pvmwaremysql>use mysql; mysql>update user set host = '%'...
2019-05-25 16:20:11
1224
原创 SparkSQL以yarn-cluster读取hive数据运行的错误排查记录
我事先在IDEA里通过Maven将程序及所依赖的jar打成一个jar包,在三台虚拟机(master、slave1、slave2)里启动了hadoop、mysql、yarn。master和slave节点的$SPARK_HOME\conf已经有hive-site.xml,并且已把mysql连接驱动包放到每个节点的SPARK_CLASSPATH下,然后执行:[root@master bin]# ./s...
2019-05-25 16:08:41
1108
2
原创 IDEA利用Maven将依赖的第三方jar包打入一个jar包
在我利用Maven构建好一个工程后,在IDEA的Maven Projects里双击package,发现打出的jar包里没有所要依赖的jar包,于是又在IDEA控制台执行path/to/maven/bin/mvn assembly:assembly命令后,发现又一个个Download很多依赖的jar包,而这些jar包我原先就已经下好了,此时打包的时间很长很长,以至于我无法忍受。(此时pom.xml中...
2019-05-25 15:03:37
15969
8
转载 Spark应用依赖jar包的添加解决方案
在Spark应用中,我们发现,在${SPARK_HOME}\lib文件夹中添加jar包时并不起作用。那么,要如何使得我们编写的Sparky应用依赖的jar有效呢?有如下四种方案:1.使用参数–jars添加本地的第三方jar文件(运行spark-submit脚本的机器上),可以给定多个jar文件,中间用逗号隔开 bin/spark-sql --jars /opt/modules/cdh-5.3...
2019-05-23 18:36:15
11759
原创 Hive读取表数据时跳过文件行首和行尾
有时候用hive读取外表数据时,比如csv这种类型的,需要跳过行首或者行尾一些和数据无关的或者自动生成的多余信息,这里可以用tblproperties属性设置来实现,建表的时候设置如下:create external table order_products_prior(order_id string,product_id string,add_to_cart_order string,...
2019-05-23 18:27:57
928
原创 Spark Shell简单介绍
初始化Spark编写一个Spark程序第一步要做的事情就是创建一个SparkContext对象,SparkContext对象告诉Spark如何连接到集群。在创建一个SparkContext对象之前,必须先创建一个SparkConf对象,SparkConf对象包含了Spark应用程序的相关信息。每个JVM只能运行一个SparkContext,在创建另一个新的SparkContext对象前,必须将...
2019-05-17 20:54:11
4826
原创 Spark用到的集群管理器
1 集群管理器Spark 可以运行在各种集群管理器上,并通过集群管理器访问集群中的机器。如果你只想在一堆机器上运行Spark,那么自带的独立模式是部署该集群最简单的方法。然而,如果你有一个需要与别的分布式应用共享的集群(比如既可以运行Spark 作业又可以运行Hadoop MapReduce 作业),Spark 也可以运行在两个广泛使用的集群管理器——Hadoop YARN 与Apache Me...
2019-05-16 10:20:09
1201
原创 Spark应用运行架构(Driver、Executor)和提交应用(spark-submit)
1 Spark运行时的架构在分布式环境下,Spark 集群采用的是主/ 从结构。在一个Spark 集群中,有一个节点负责中央协调,调度各个分布式工作节点。这个中央协调节点被称为驱动器(Driver)节点,与之对应的工作节点被称为执行器(executor)节点。驱动器节点可以和大量的执行器节点进行通信,它们也都作为独立的Java 进程运行。驱动器节点和所有的执行器节点一起被称为一个Spark 应...
2019-05-15 16:42:10
2248
原创 Spark部署模式详解(Local,Standlone,Yarn)
1 为什么需要YarnYarn 的全称是 Yet Anther Resource Negotiator(另一种资源协商者)。它作为Hadoop 的一个组件,官方对它的定义是一个工作调度和集群资源管理的框架。Yarn 最早出现于 Hadoop 0.23 分支中,0.23 分支是一个实验性分支,之后经过了几次迭代,最后发布于 2014 年 6 月的 0.23.11 版本(该分支的最后一个版本)。在...
2019-05-15 10:25:56
2897
2
原创 Spark数据分区(partitionBy分区、partitioner获取分区方式、自定义分区)
在分布式程序中,通信的代价是很大的,因此控制数据分布以获得最少的网络传输可以极大地提升整体性能。和单节点的程序需要为记录集合选择合适的数据结构一样,Spark 程序可以通过控制RDD 分区方式来减少通信开销。分区并不是对所有应用都有好处的——比如,如果给定RDD 只需要被扫描一次,我们完全没有必要对其预先进行分区处理。只有当数据集多次在诸如连接这种基于键的操作中使用时,分区才会有帮助。Spark...
2019-05-13 15:52:25
15006
转载 Spark RDD的另类解读
1 Spark的RDD提到Spark必说RDD,RDD是Spark的核心,如果没有对RDD的深入理解,是很难写好spark程序的,但是网上对RDD的解释一般都属于人云亦云、鹦鹉学舌,基本都没有加入自己的理解。本文基于Spark原创作者的论文,对Spark的核心概念RDD做一个初步的探讨,希望能帮助初学的球友们快速入门。《Resilient Distributed Datasets: A Faul...
2019-05-11 20:40:09
173
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人