- 博客(42)
- 收藏
- 关注
转载 数据中台 -- 数据存储
针对这些复杂的场景,在大规模的数据处理下,任何一个以前认为可以忽视的小问题都有可能被无限放大,因此还像以前一样靠一种存储系统解决所有问题是不太可能的。在建设中台时,需要根据企业自身情况选择合适的存储系统组合来满足企业的数据战略和数据应用需求。为了应对数据处理的压力,过去十年间,数据处理技术领域有了很多的创新和发展。除了面向高并发、短事务的OLTP内存数据库外(Altibase、TimesTen),其他的技术创新和产品都是面向数据分析的,而且是大规模数据分析,也可以说是大数据分析。
2024-12-12 11:50:29
136
转载 数据中台建设 —— 数据汇聚于数据交换
数据存储、数据计算、网络资源都影响着数据传输的快慢,数据汇聚、同步任务也因业务的优先级、源系统的并发限制等需要调整资源占用比例。在产品中,可以调整内存的分配、运行的优先级别、传输速率等多项指标,以满足不同场景下的数据汇聚需求,同时充分利用硬件资源。
2024-12-11 20:09:03
440
原创 数据分析岗位求职攻略 —— 常见面试题目及答案
答:数据分析过程通常包括数据采集、数据清理、数据探索、数据建模、和优化模型等步骤。在这个过程中,需要运用统计学、机器学习、数据挖掘、数据可视化等技术方法分析数据的特征,实现数据服务化。
2024-12-11 10:09:16
583
转载 数据中台建设之数据采集
线上行为的主要载体可以分为传统互联网和移动互联网两种,对应的形态有PC系统、PC网页、H、微信小程序、App、智能可穿戴设备、物联网传感设备等。在技术上,数据采集主要有客户端埋点和服务端埋点两种方式。其中客户端埋点主要通过在终端设备内嵌入埋点功能模块,通过模块能力采集客户端的用户行为,并上传回行为采集服务端。线下行为数据主要通过Wi-Fi探针、摄像头、传感器等硬件采集。随着设备的升级,各种场景中对智能设备的应用越来越多,安防、客户监测、考勤等开始深入人们的工作和生活。
2024-12-10 16:18:14
633
原创 HIS(医院信息系统)中的大数据
HIS是医院信息系统(Hospital Information System) 的缩写。它是利用计算机软硬件技术、网络通信技术等现代化手段,对医院及其个部门的人流、物流、材流进行综合管理,对医疗活动各阶段产生的数据进行采集、存储、处理、提取、传输、汇总、加工生成各种信息,从而为医院的整体运行提供全面的、自动化的管理及各种服务的信息系统。
2024-12-09 13:25:20
584
原创 IT类项目实施流程
*甲方委员会确立:**指定负责人,全权负责整个项目人员、启动及时间调配、需求确定及需求变更、项目节点的验收、项目款项的支付工作。
2024-12-08 16:22:17
405
原创 Notepad++ 下载与安装教程(非常详细),从零基础入门到精通,看完这一篇就够了(附安装包)
Notepad++是一款文本编辑工具,支持27种编程语言,通吃C,C++ ,Java ,C#, XML, HTML, PHP,JS 等,该软件拥有完整的中文化接口及支持多国语言编写的功能,不仅可以用来制作一般的纯文字说明文件,还非常适合编写计算机程序代码,不仅可以语法高亮度显示,也具有语法折叠功能,并且支持宏以及扩充基本功能的外挂模组。
2024-06-06 11:09:50
395
原创 Linux操作系统:Spark在虚拟环境下的安装及部署
/ 访问Spark 集群,浏览器访问 http://localhost:8080。修改 Spark-Env 配置文件。修改 slave 配置文件。关闭 Spark 集群。
2024-06-06 10:03:19
476
原创 Linux操作系统:Redis在虚拟环境下的安装与部署
// 通过 Wget 下载 Redis 的源码$ wget http://download.redis.io/releases/redis-4.0.2.tar.gz// 将源代码解压到安装目录连接 Redis服务器。进入配置文件所在地址。停止Redis服务器。
2024-06-06 09:24:53
316
原创 Linux操作系统:Zookeeper在虚拟环境下的安装与部署
将 Zookeeper 安装到指定目录,设置Zookeeper的配置环境,启动 Zookeeper 服务。查看 Zookeeper 状态。关闭 Zookeeper 服务。
2024-06-05 16:46:41
472
1
原创 Linux操作系统:MongoDB在虚拟机环境下的安装及部署
在 mongodb 下创建 data 和 logs 目录。启动 MongoDB 服务器。停止 MongoDB 服务器。访问MongoDB服务器。在文件下增加以下配置。
2024-06-05 16:20:07
859
原创 SQL函数 - 开窗(窗口)函数
开窗函数表示对数据集按照分组用列进行分区,并且对每一个分区按照函数聚合计算,最终将结果计算按照排序用列排序后返回改行。括号中的两个关键词 partition by 和 order by 可以只出现一个。注意:① 开窗函数不会互相干扰,因此在同一查询语句中可以同时使用多个开窗函数。② 开窗函数适用于 mysql 8.0 以上版本,sql server 、 hive、oracle等。
2024-05-27 17:06:53
1588
原创 C/C++算法 -- 通讯录管理系统
把通信录抽象成一个线性表,每个通话人(包括姓名、电话)作为该线性表的一个元素。由于通信数据较多,需要频繁的插入和删除操作,故采用链式存储结构。
2024-05-23 17:03:09
472
原创 大数据实战项目 -- 论坛日志分析
日志的例子数据example_data.log,一共是10条数据,作为测试使用(访问者IP、访问时间、访问资源、访问状态(HTTP状态码)、本次访问流量(Byte))采集用户上网的操作日志信息,包括登录时间、用户编号、IP地址、登录区域等信息,使用爬虫的技术,爬取网易的访问日志数据,统计网页的浏览量,访问的用户数,访问的IP数量,跳出用户数等业务指标。建议使用的其他相关组件和工具: Kettle和IDEA编程工具,注意组件版本之间的兼容性,不建议用Sqoop,因为其不支持新版的Hadoop和Hive。
2024-05-23 14:46:57
1155
原创 大数据实战项目 -- 推文情绪分析与心理疾病预测
回顾本次项目历程,虽然我们途中遇到的困难很多,但在一次次地寻找方法解决困难的过程中,不仅锻炼了我们的意志和能力,还掌握了很多新知识、新技能。在我们的项目中,我们的数据来源于全球知名的机器学习竞赛网站,总共包含27000余条数据,除数据编号字段外,每条数据分为textID,text,selected_text,sentiment,age,sex,country,profession八个字段,分别指推文id,内容,包含情感倾向的文本,标注的情感,用户年龄,用户性别,用户国别或用户职业。
2024-05-21 16:52:07
995
1
原创 大数据实战项目 -- 家用热水器用户行为分析
一、实验内容居民在使用家用热水器的过程中,会因为地区气候、不同区域和用户年龄性别差异等原因形成不同的使用习惯。家电企业若能深入了解其产品在不同用户群中的使用习惯,从而产商便可以对不同的客户群提供最适合的个性化产品,制定相应的营销策略,开拓新市场。定义挖掘目标如下:1.根据热水器采集到的数据,划分一次完整的用水事件;2.在划分好的一次完整用水事件中,识别出洗浴事件。1.对热水器用户的历史用水数据进行选择性抽取,构建专家样本;
2024-05-21 16:19:18
1266
原创 大数据实战项目 -- 电信用户行为分析
不要在bean中声明任何有状态的实例变量或类变量,如果必须如此,那么就使用ThreadLocal把变量变为线程私有的,如果bean的实例变量或类变量需要在多个线程之间共享,那么就只能使用synchronized、lock、CAS等这些实现线程同步的方法了。如果Bean是有状态的 那就需要开发人员自己来进行线程安全的保证,最简单的办法就是改变bean的作用域 把 "singleton"改为’‘protopyte’ 这样每次请求Bean就相当于是 new Bean() 这样就可以保证线程的安全了。
2024-05-18 21:33:35
5341
15
原创 Navicat创建数据库/表基础操作
就可以看到导入的数据表了(或者关闭这个软件再打开就可以刷新了)如果要对字段进行增加修改的,都可以通过设计表打开。能表示更多的字符,如果用不到扩容去选择。能表示更多的字符,如果用不到扩容去选择。在刚刚创建好的数据库下,右键点击新建表。弹出来一个框,里面自定义这个表的名字。要对字段进行修改等操作后记得点击保存。往字段里面插入一些数据试试看,要打。:以二进制存储并且区分大小写):以二进制存储并且区分大小写)右键刚刚的新建连接---选择。点击这个打开文件夹选择自己的。右键打开新建的数据库。添加表中要定义的字段。
2024-05-17 15:22:32
8269
原创 Ubuntu环境下Hadoop安装教程(Linux可用)
的错误,那么,请到hadoop的安装目录修改配置文件“/usr/local/hadoop/etc/hadoop/hadoop-env.sh”,在里面找到“export JAVA_HOME=${JAVA_HOME}”这行,然后,把它修改成JAVA安装路径的具体地址,比如,“export JAVA_HOME=/usr/lib/jvm/default-java”,然后,再次启动Hadoop。若没有该问题,则不需要更改。在学习Hadoop过程中,即使出现“Hash校验和不符”的提示,也不会影响Hadoop的安装。
2024-05-17 15:05:47
3016
原创 Ubuntu虚拟机安装教程
然后,点击“下一步”。这时,可能在界面上无法看到“+”按钮,这是由于计算机的分辨率问题导致的,遇到这种情形时,可以按住键盘的“Alt”键,再把鼠标移动到安装界面上,点住鼠标左键不放,向上拖动界面,就可以看到其他被遮住的部分了。如下图,点击virtualbox的菜单“设备”选项,选择“安装增强功能”,系统便会自动安装好增强的功能,如果如果需要提示需要确认,输入return即可。启动后会看到Ubuntu的安装欢迎界面(如下图所示),选择操作系统语言,推荐使用中文(简体),然后,点击“安装Ubuntu”按钮。
2024-05-17 14:43:45
966
原创 大数据技术Hadoop -- Spark 初级编程实践
一、实验目的(1)掌握使用Spark访问本地文件和HDFS文件的方法(2)掌握Spark应用程序的编写、编译和运行方法二、实验平台(1)操作系统:Ubuntu18.04(或Ubuntu16.04);(2)Spark版本:2.4.0;(3)Hadoop版本:3.1.3。
2024-05-17 14:35:24
1099
原创 大数据技术Hadoop -- Hive的基本操作
(8)查询stocks表中收盘价(price_close)比开盘价(price_open)高得最多的那条记录的交易所(exchange)、股票代码(symbol)、日期(ymd)、收盘价、开盘价及二者差价。(4) 创建一个未分区的外部表dividends_unpartitioned,并从dividends.csv向其中导入数据,表结构如表14-13所示。/apache-hive-3.1.2-bin.tar.gz -C /usr/local # 解压到/usr/local中。
2024-05-17 14:20:10
1910
1
原创 大数据技术Hadoop -- MapReduce初级编程实践
现在有多个输入文件,每个文件中的每行内容均为一个整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。要求读取所有文件中的整数,进行升序排序后,输出到一个新的文件中,输出的数据格式为每行两个整数,第一个数字为第二个整数的排序位次,第二个整数为原待排列的整数。对于两个输入文件,即文件A和文件B,请编写MapReduce程序,对两个文件进行合并,并剔除其中重复的内容,得到一个新的输出文件C。
2024-05-16 15:46:43
3065
2
原创 大数据技术ubuntu -- NoSQL和关系数据库的操作比较
一、实验目的(1)理解四种数据库(MySQL、HBase、Redis和MongoDB)的概念以及不同点;(2)熟练使用四种数据库操作常用的Shell命令;(3)熟悉四种数据库操作常用的Java API。二、实验平台(1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04);(2)Hadoop版本:3.1.3;(3)MySQL版本:5.6;(4)HBase版本:2.2.2;(5)Redis版本:5.0.5;(6)MongoDB版本:4.0.16;
2024-05-16 11:28:03
1038
原创 大数据技术 -- HBase数据库操作
一、实验目的1)理解HBase在Hadoop体系结构中的角色;2)熟练使用HBase操作常用的Shell命令;3)熟悉HBase操作常用的Java API。二、实验平台1)操作系统:Linux(建议或2Hadoop版本:3.1.3;3HBase版本:2.2.2;4JDK版本:1.8;三、实验内容。
2024-05-16 10:53:13
990
原创 大数据技术 -- Hadoop入门基础操作(二):常用的HDFS操作
一、实验目的1)理解HDFS在Hadoop体系结构中的角色;2)熟练使用HDFS操作常用的Shell命令;3)熟悉HDFS操作常用的Java API。二、实验平台1)操作系统:Linux(建议或2Hadoop版本:3.1.3;3JDK版本:1.8;
2024-05-16 10:35:59
1025
原创 大数据技术 -- Hadoop入门基础操作(一)
一、实验目的Hadoop运行在Linux系统上,因此,需要学习实践一些常用的Linux命令。本实验旨在熟悉常用的Linux操作和Hadoop操作,为顺利开展后续其他实验奠定基础。二、实验平台(1)操作系统:Linux(建议Ubuntu16.04或Ubuntu18.04);(2)Hadoop版本:3.1.3。三、实验内容1.熟悉常用的Linux操作2.熟悉常用的Hadoop操作四、实验过程、内容。
2024-05-16 10:22:13
894
原创 Linux操作系统: kafka在虚拟环境下的安装及部署
时,执行topic的删除命令只是把topic标记为marked for deletion,并不是真正的删除,如果此时想彻底删除,就需要登录Zookeeper客户端进行删除。kafka的安装及使用需要用到ZooKeeper,所以需要提前安装搭建好ZooKeeper,比较早版本的kafka自带zookeeper插件。对 topic1 进行删除操作后,再次查看topic的时候,topic1 没有直接删除,而且后面出现了 “启动kafka服务!启动之前需要启动Zookeeper服务!
2024-05-15 17:21:58
677
原创 大数据技术 -- 大数据实战项目:电商推荐系统(一)
项目以推荐系统建设领域知名的经过修改过的中文亚马逊电商数据集作为依托,以某电商网站真实业务数据架构为基础,构建了符合教学体系的一体化的电商推荐系统,包含了离线推荐与实时推荐体系,综合利用了协同过滤算法以及基于内容的推荐方法来提供混合推荐。项目采用Spark Streaming作为实时推荐系统,通过接收Kafka中缓存的数据,通过设计的推荐算法实现对实时推荐的数据处理,并将结构合并更新到MongoDB数据库。项目采用Redis作为缓存数据库,主要用来支撑实时推荐系统部分对于数据的高速获取需求。
2024-05-15 16:13:38
1903
1
原创 如何使用Java连接HBase数据库
只获取一行数据显然不能满足我们全部的需求,我们想要获取表中所有的数据应该怎么操作呢?的版本,那么两种方式你都可以使用(本实训使用的。的那么你只能使用第一种方式来创建表,如果是。之后的版本中这些被弃用了,新的客户端。的数据了,亲自试试验证一下结果吧。(连接工厂)的方法我们就能获取到。要对一个表添加数据,我们需要一个。表中所有行的行名称(因为直接输出。对象就可以获取到表中的数据了。版本(18年10月发布)的,要创建表我们需要首先创建一个。对象,这个对象我们需要通过。值得咱们注意的是,如果你的。
2024-05-15 11:32:57
2143
原创 Linux操作系统:CentOS -- 管理用户和组
需要在服务器上为每个人创建不同的账号,把相同部门的用户放在一个组中,每个用户都有自己的工作目录,方便用户使用和进行统一管理。4.分别用/etc/shadow、/etc/passwd、/etc/gshadow分别查看用户和组的记录。4.更改用户user8的账户名为user08,用/etc/passwd查看用户记录。1.给组Service设置组密码123456,并用/etc/group查看组的记录。2.锁定用户user2,并用/etc/shadow查看用户记录。锁定用户 user2 的密码。
2024-05-15 11:20:28
936
原创 Linux操作系统:CentOS -- grep进行正则表达式查找
搜寻test或taste这两个单字:([] 里面不论有几个字节,他都谨代表某“一个”字节)
2024-05-15 11:12:46
579
原创 Linux操作系统:CentOS 磁盘管理disk manager
实 验 报 告Linux操作系统:CentOS 磁盘管理disk manager实验题目: CentOS磁盘管理实验内容:总的磁盘大小=primary + extendextend大小 = 所有logical分区之和步骤使用fdisk命令进行硬盘分区
2024-05-15 11:07:13
1264
原创 Linux操作系统:CentOS -- Apache实现个人主页和虚拟目录
Linux操作系统:CentOS -- Apache实现个人主页和虚拟目录实验题目: 个人主页和虚拟目录实验内容:用Apache实现用户的个人主页。步骤一、用户个人主页1.添加用户long,修改用户家目录权限
2024-05-15 10:36:46
1007
原创 Linux操作系统:CentOS 7 -- 访问Samba共享
root@localhost samba]# mkdir /opt/abc #创建目录。最后将CentOS恢复拍摄的快照状态。[root@localhost samba]# chmod 777 /opt/abc #给全部权限。[root@localhost samba]# systemctl start smb.service #开启Samba服务。
2024-05-15 10:23:56
1033
原创 Linux操作系统 :CentOS 7 -- 文件权限管理
Linux :CentOS 7 -- 文件权限管理(一)设置文件权限1.在用户主目录下创建目录test,进入test目录创建空文件file1。
2024-05-15 09:03:55
1363
原创 基于机器学习的共享单车使用量分析与预测
共享单车是当前一种流行的出行方式,它在方便人们出行的同时也促进了共享经济的发展。针对不同地区和不同时段对共享单车的需求,以kaggle公开的国内共享自行车使用情况数据集为例,用python作为数据分析和模型构建的工具,对数据集进行预处理,数据分析、特征筛选、数据集划分、回归模型建立。数据预处理包括对原始数据集进行从数据缺失值分析与填补,特征类型转化,one-hot编码,归一化处理等,再引入线性回归、弹性学习、梯度提升、决策树和随机森林等多种机器学习算法进行模型构造和预测。
2024-05-14 18:08:00
5629
8
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人