IT源哥
十多年在华为、互联网公司的经验,对CRM、大数据有着深刻的了解和实战经验,主要分享各种项目经验,包括架构、Java、大数据等文章
展开
-
AI技术填坑记1:RAG技术和实战
大家在使用大模型LLM进行对话式系统构建的时候,往往会碰到一个问题,那就是业界的大模型都是通用大模型,不包含自己公司的数据。如果要使得大模型用根据自己公司的数据进行针对性回答,则需要对大模型进行微调,这往往是耗时耗力,而且成效极差。使用RAG技术,将极大的改善这种情况。而且,在构造对话系统中,RAG远比大模型重要,但是,现在网络上的RAG各种资料,通用性介绍较多,缺乏详细指导,有种“听君一席话,胜听一席话”的感觉。原创 2025-01-20 20:04:02 · 98 阅读 · 0 评论 -
Flink SQL填坑记3:两个kafka数据关联查询
在一个项目中,实时生成的统计数据需要关联另外一张表(并非维表),需要统计的数据表是Kafka数据,而需要关联的表,由于不是维度,不能按照主键查询,所以如果放在MySQL上,将存在严重的性能问题,这个时候我想到用将两张表的数据都生成为Kafka数据,然后进行Join操作。中途发现这种性能特别差,而且表变更会产生多条kakfa记录,导致计算越来越来,最后改成upsert-kafka,下面记录下处理过程。上面这种方法,可以对重复的数据,按照主键进行去重,大幅减少生成重复的数据。原创 2024-03-26 19:52:09 · 628 阅读 · 2 评论 -
Flink Sql填坑记1:一次Flink sql性能优化经历
但是性能还是不行,这是我点击查询20个子任务的执行情况,以为发现实际上只有8个任务是真实执行的,其他任务都在空跑,通过一方检查,重要发现原先我设置的kafka topic,只设置了8个partition,导致最终只有8个任务执行。但是这种方式有个问题,就是每条数据过来,都需要需要到MySQL查询一次,由于这边的数据量非常大,可以想想,需要到MySQL查询维表的次数将非常频繁,另外,由于这边另外一张表是数据量也非常大,采用这种方式,必然会MySQL的性能造成非常大的冲击。原创 2023-03-14 20:43:14 · 695 阅读 · 1 评论 -
大数据智能分析(BI)平台设计4--SQL语句构造
根据维度信息、系统参数和字段信息,拼凑查询字段和group by字段,其中维度信息也需要提到系统参数和字段信息。根据维度信息、指标信息和数据集字段信息,构造要返回的数据字段配置List对数据集返回的sql语句,替换掉系统参数(以{{}}括起来的对象)和字段信息(以{}括起来的对象)根据过滤条件、系统参数和字段信息,拼凑where语句,其中需要替代系统参数和字段信息。根据数据集ID,获取数据集的配置,特别是对应的sql语句。根据数据集ID,获取数据集的字段信息。原创 2022-12-08 19:59:17 · 925 阅读 · 0 评论 -
大数据智能分析(BI)平台设计3--字段类型自动识别
一个数据集的查询结果,可以看做是一个个的字段,至于字段的类型,在设计时,可以通过一些正则表达式,预先判断字段的数据类型,从而提前设置好字段的类型,这样在配置的时候,就可以简化配置工作量。可以根据字段的名称,进行初步判断,一般以_id,_num等结尾的为数字;_time,_date结尾的为日期。下面是正则表达式是参考代码:原创 2022-12-06 19:52:02 · 686 阅读 · 0 评论 -
大数据智能分析(BI)平台设计2--数据集
数据集可以看做是一个数据的集合,它可以是一张数据表,也客户是一个sql语句查询出来的结果,也可以是Excel文件构成的数据。多个数据集可以进行联合查询,构成一个新的数据集。同一个数据集也可以进行聚合操作,形成一个新的数据集。一个数据集,往往包含下面3部分内容:一、数据集数据集需要有以下一些属性:二、字段字段需要有以下属性:三、表达式有些字段,不仅仅只是一个原始字段,而是一个sql表达式,这个时候就需要设置表达式了,对应的字段,可以用大括号括起来,比如说:DISTINCT_COUNT({卡号}),这里DIST原创 2022-12-06 19:48:18 · 1145 阅读 · 0 评论 -
ElasticSearch填坑记1:_uid字段排序(fielddata特性),导致内存占用,不断GC,最后OOM
在某一天,我们的系统突然异常,大面积出现白屏,搜索页面点击后,响应非常慢,大量出现响应超过4秒的情况,异常高峰期平均查询时间达到10多秒,后台不断有ES服务宕机重启,GC告警频繁,经过一阵排查折腾,发现居然是简单的_uid字段排序导致的,下面就详细的讲一下。 我们的ES搜索收到一个小小的需求,原来我们的搜索,新的结果会被放到后面去,产品经理希望能够对搜索结果进行排序,按照创建时间倒序排序。 这里自然的相对用ES系统字段_uid进行倒序排序,因为这个字段是按照创建时间生成的...原创 2021-12-21 20:10:31 · 1845 阅读 · 0 评论 -
Flink 任务远程调用Dubbo接口
在大数据中,Flink任务一般都不是基于Spring框架和Dubbo框架的,但很多业务系统采用Dubbo架构,当需要调用业务系统的接口获取数据时,就出现Flink调用Dubbo的情况了。 由于Flink架构的特殊性,按照普通的Java项目引入Dubbo架构是不行的,在本地调测可能没有问题,但一定部署到生产环境,一般都会报错。 这是因为Flink架构是分布式的,正常情况下,包含一个Client端,一个jobManager和多个TaskManager,每个TaskManager还包含...原创 2021-03-24 19:57:15 · 1559 阅读 · 0 评论 -
BitMap算法和Java的实现类BigSet
考虑下面几个应用场景:统计每天的日活(访问量、用户数等) 统计某个部门的联系客户量 对大量数据进行排序针对第一种应用场景,通常的做法就是采用明细表来记录每一个访问量,然后统计每天的用户数(用一个用户,多次访问,只算一个)。这里有个问题,就是假设用户量比较大,假设一天有1000万的请求量,一个月就有3亿的数据量,对数据库的压力比较大。这是我们就可以考虑采用BigM...原创 2019-03-25 20:13:44 · 1525 阅读 · 0 评论 -
区块链技术:天使 OR 魔鬼?
最近区块链技术在国外是一个非常火的技术,它被认为是一种颠覆性的技术,是未来的主流技术,但在国内却很少讨论,而我司研究者寥寥,这是我觉得比较吃惊的,所以决定站出来说一说。原创 2017-11-26 23:31:32 · 756 阅读 · 0 评论 -
单点登陆 SSO(Single Sign-On) 简介
转载自:http://blog.icxo.com/read.jsp?aid=30925单点登陆 SSO(Single Sign-On) 简介 -supermgr <!--google_ad_client = "pub-3508313663599945";/* */google_ad_slot = "6500382443";google_ad_wid转载 2008-02-26 16:09:00 · 2109 阅读 · 0 评论 -
单点登陆(Single Sign-On,SSO)介绍(翻译)
<!--google_ad_client = "pub-3508313663599945";/* */google_ad_slot = "6500382443";google_ad_width = 728;google_ad_height = 90;//--><script type="text/javascript"src="http://pagead2.goo转载 2008-02-26 16:06:00 · 1631 阅读 · 0 评论 -
SSO 原理浅谈
[转自:http://www.dotnet-tech.cn/post/86.html]SSO 原理浅谈 SSO 是一个非常大的主题,我对这个主题有着深深的感受,自从广州 UserGroup 的论坛成立以来,无数网友都在尝试使用开源的 CAS , Kerberos 也提供另外一种方式的 SSO ,即基于 Windows 域的 SSO ,还有就是从 2005 年开始一直兴旺不衰的转载 2008-02-26 15:50:00 · 2878 阅读 · 0 评论 -
网上银行“安全登录控件”分析
国内的一些银行的网上银行系统为了用户信息的安全,在登录页面上使用了名为“安全登录控件”的东西,取代了传统的 HTML 的输入控件(Input),下面就对用户量较大的招商银行和工商银行的登录界面及“安全登录控件”做一下对比。1、招商银行招商银行的网上银行系统做的比较早,用户也很大,深受大部分用户欢迎,其在安全控制手段上也一直比较严格。在进入正题之前,先来一点题外话:招商银行的有些安全转载 2006-11-13 23:24:00 · 18776 阅读 · 2 评论 -
杀毒软件需要改变开发模式
杀毒软件需要改变开发模式 在现在的网络世界里,各类病毒、木马泛滥,虽然有各式各样的杀毒软件,而这些杀毒软件在病毒面前,显得是那么的脆弱,无论你安装了多少杀毒软件,当你在网络世界穿行的时候,经常是不知不觉的就中毒了,而运行中的杀毒软件也经常像一只睡着的看门狗一样,对这些都毫无察觉。原创 2006-08-07 00:56:00 · 3926 阅读 · 7 评论 -
一个基于角色的WEB 安全访问控制系统
一个基于角色的WEB 安全访问控制系统 赵锐 河北工业职业技术学院计算机技术系软件专业 Email: zr04rj@hotmail.com 摘要 在WEB安全管理上访问控制是一个富有挑战性的问题。本文对基于角色的访问控制模型进行分析并对相关的概念进行了定义,给出了实现模型和算法设计;对现行的Web 安全认证和访问控制中存在的问题和隐患进行了分析,并给出了一种新转载 2006-07-13 23:07:00 · 5458 阅读 · 0 评论 -
RBAC 模型初探
RBAC 模型初探 关键词: 访问控制技术是由美国国防部 访问控制技术是由美国国防部(Department of Defense, DoD)资助的研究和开发成果演变而来的。这一研究导致两种基本类型访问控制的产生:自主访问控制(Discretionary Access Control, DAC)和强制访问控制(转载 2006-07-13 23:05:00 · 3080 阅读 · 0 评论 -
权限系统概要
权限系统概要 转贴:http://www.cnblogs.com/xspin/articles/31395.html前言:权限往往是一个极其复杂的问题,但也可简单表述为这样的逻辑表达式:判断"Who对What(Which)进行How的操作"的逻辑表达式是否为真。针对不同的应用,需要根据项目的实际情况和具体架转载 2006-07-13 23:03:00 · 2516 阅读 · 0 评论 -
角色访问控制(RBAC)
角色访问控制(RBAC)引入了Role的概念,目的是为了隔离User(即动作主体,Subject)与Privilege(权限,表示对Resource的一个操作,即Operation+Resource)。Role作为一个用户(User)与权限(Privilege)的代理层,解耦了权限和用户的关系,所有的授权应该给予Role而不是直接给User或Group。Privilege是权限颗粒,由Oper转载 2006-07-13 23:02:00 · 3387 阅读 · 0 评论 -
基于RBAC模型的权限管理系统的设计和实现
基于RBAC模型的权限管理系统的设计和实现裴辉东 梁云风 (1. 山东省烟台海颐软件股份有限公司;2山东省烟台东方电子信息产业股份有限公司) 摘要:提出了基于RBAC模型的权限管理系统的设计和实现方案。介绍了采用的J2EE架构的多层体系结构设计,阐述了基于角色的访问控制RBAC模型的设计思想,并讨论了权限管理系统的核心面向对象设计模型,以及权限访问、权限控制和权限存储机制等关键技术转载 2006-07-13 23:01:00 · 5944 阅读 · 0 评论 -
基于角色访问控制的UML表示
摘要在基于角色访问控制(role-based access control,RBAC)中,权限和角色相关,用户被当作相应角色的成员而获得角色的权限。RBAC背后的首要动机是为了简化管理。已经有文章介绍了一些基于角色系统的开发框架,但目前很少有文章使用系统开发者或软件工程师易于理解的方式来阐述RBAC。统一建模语言(UML)是一种通用的可视化建模语言,我们可以使用它阐述、可视化和文档化软件系转载 2006-07-13 22:53:00 · 4029 阅读 · 5 评论 -
开发统一的博客接口
现在博客很流行,很多人都在使用博客,有些人同时拥有几个不同的博客网站,不知你有没有这样的烦恼,就是你写了一篇文章,这时想传到不同的博客网站上去,就得打开不同的博客网页,在上面发布文章,这样很烦躁,并且做的是重复的工作。有没有可能,有没有可能写了一篇文章,在一个地方上传,就可以在不同的博客网站上面发布呢? 首先,我们需要不用打开博客网站,就可以将文章发布到这个博客网站上面去,这就需原创 2006-03-22 00:01:00 · 5149 阅读 · 9 评论 -
关于Hibernate Cache
近段时间正好在使用HIBERNATE与数据库打交道. 由于使用环境中读操作占了相当大的比例, 所以想起用HIBERNATE的CACHE功能. 在论坛里搜了一把, 发现了不少关于CACHE的帖子. 但好像都是关于JCS的, 那时似乎还没有QueryCache. 所以就把这两天自己尝试的内容记了下来. Cache In Hibernate HIBERNATE中的CACHE有两级. 一级是在Sessio转载 2005-08-05 00:33:00 · 3836 阅读 · 1 评论 -
Web缓存技术概述
Web缓存技术概述王世克 吴集 金士尧(国防科技大学计算机学院并行与分布国家重点实验室 长沙410073)摘 要 WWW是互联网上最受欢迎的应用之一,其快速增长导致网络拥塞和服务器超载,缓存技术被认为是减轻服务器负载、降低网络拥塞,减少客户访问延迟的有效途径之一。本文首先描述了Web缓存系统的基本要素及理想属性,然后介绍目前围绕Web缓存技术已经开展的研究,最后讨论Web缓存技术需要进一步研究的问转载 2005-08-05 00:26:00 · 2592 阅读 · 0 评论 -
应用OSCache提升J2EE系统运行性能
应用OSCache提升J2EE系统运行性能【大 中 小】【打印】【加入收藏】【关闭】 【收藏到新浪ViVi】【收藏到365KEY】 浏览字号:日期:2005-02-14 人气: 124 出处:http://www.j2eesp.com 文章摘要] Cache是一种用于提高系统响应速度、改善系统运行性能的技术。尤其是在Web应用中,通过缓存页面的输出结果,可以很显著的改善系统运行性能。本文中转载 2005-08-05 00:24:00 · 1598 阅读 · 0 评论 -
缓冲技术提高JSP程序性能和稳定性
缓冲技术提高JSP程序性能和稳定性http://www.webjx.com 更新日期:2005-07-14 网页教学网 浏览次数: 66 一、概述 在Web应用中,有些报表的生成可能需要数据库花很长时间才能计算出来;有的网站提供天气信息,它需要访问远程服务器进行SOAP调用才能得到温度信息。所有这一切都属于复杂信息的例子。在Web页面中加入过多的复杂信息可能导致Web服转载 2005-08-05 00:23:00 · 1602 阅读 · 0 评论 -
21种代码的“坏味道”
21种代码的“坏味道”gigix2001-12-15 00:00:002029 次浏览1.Duplicated Code 代码重复几乎是最常见的异味了。他也是Refactoring 的主要目标之一。代码重复往往来自于copy-and-paste 的编程风格。与他相对应OAOO 是一个好系统的重要标志(请参见我的duplicated code 一文:http://www.erptao.org/do转载 2005-07-21 12:20:00 · 2253 阅读 · 1 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(8)-附录
附录A 常见端口详解0 通常用于分析操作系统。这一方法能够工作是因为在一些系统中“0”是无效端口,当你试图使用一种通常的闭合端口 连接它时将产生不同的结果。一种典型的扫描:使用IP地址为0.0.0.0,设置ACK位并在以太网层广播。 1 tcpmux 这显示有人在寻找SGI Irix机器。Irix是实现tcpmux的主要提供者,缺省情况下tcpmux在这种系统中被打开。 Iris机器在发原创 2005-02-19 13:36:00 · 2712 阅读 · 0 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(7)-尚未解决的问题
五。结论和体会 六。尚未解决的问题1。因为我们无法得到对rar文件的数据进行压缩的方法,所以我们无法得到rar文件里面的内容,只能得到rar文件里面的目录名和文件名。2。我们现在只能对rar文件和zip文件这两种压缩文件进行过滤,而对其它压缩文件,我们将无法进行过滤。3。对于一些象IP欺骗等用黑客手段对服务器进行攻击,我们无能为力。虽然我们可以对象“冰河”这样的木马程序进行拦截,但我们并没有将其实原创 2005-02-19 13:34:00 · 1695 阅读 · 0 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(6)-系统效果
四。系统效果下图是本程序所使用的系统:redhat7.2,这是它的一个图形界面,叫Gnome。下图是本程序的主界面: 下图是防火墙设置里面自定义里面的规则: 下图是防火墙设置里面自定义里面的网关: 下图是防火墙设置里面自定义里面的访问限制: 下图是对网络上传输的数据包进行过滤之后所显示的结果:原创 2005-02-19 13:32:00 · 2883 阅读 · 9 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(5)-包过滤模块和内容过滤模块所采用的各种技术详述
三。包过滤模块和内容过滤模块所采用的各种技术详述3。1 module编程 module可以说是 Linux 的一大革新。有了 module 之后,写 device driver 不再是一项恶梦,修改 kernel 也不再是一件痛苦的事了。因为你不需要每次要测试 driver 就重新 compile kernel 一次。那简直是会累死人。Module 可以允许我们动态的改变 kernel,加载原创 2005-02-19 13:26:00 · 2871 阅读 · 0 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(4)-包过滤模块和内容过滤模块
二。包过滤模块和内容过滤模块2。1 技术背景采用技术 2。1。1 模块编程 2。1。2 netfilter Netfilter是linux2.4内核实现数据包过滤/数据包处理/NAT等的功能框架。它在网络上设置了五个钩(hook),我们可以在我们所需要的一个钩对数据进行过滤,在本程序中,我们对所有进入服务器的数据包进行过滤。 2。1。3 TCP/IP协议原创 2005-02-19 12:58:00 · 2391 阅读 · 0 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(3)-内容过滤防火墙系统简介
一。内容过滤防火墙系统简介1。1 技术背景(方法,软件)所采用的技术:1.1.1 模块编程 也可以叫做内核编程,因为系统对数据包进行过滤的工作量非常大,使用模块编的话,可以提高系统的效率。在本程序中,包过滤模块,内容过滤模块和数据交互模块都使用的模块编程。1.1.2 防火墙技术 作为一个内容过滤防火墙系统,具有防火墙功能可以说是必不可少的(虽然本程序主要功能是对内容进行过滤原创 2005-02-19 12:53:00 · 2719 阅读 · 1 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(2)-概要引言
概要:在Linux系统下,具有图形界面的防火墙系统很少,而包含内容过滤的防火墙系统更可以说是少之又少,本程序不仅具有防火墙功能,而且可以对rar、zip压缩格式的文件进行过滤。关键词:Linux,IPv4,内容过滤,防火墙,rar,zip引言网络安全的意义:随着现代社会不断向信息化方向迈进,各种经济和军事等活动对信息基础设施的依赖性将不断增强, 例如金融系统的资金转账、电子商业交易、电力和水等基础原创 2005-02-19 12:02:00 · 2183 阅读 · 0 评论 -
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统(1)-目录
基于linux的嵌入IPv4协议栈的内容过滤防火墙系统 目录概要………………………………………………………………………………………1引言………………………………………………………………………………………1一.内容过滤防火墙系统简介…………………………………………………………21.1技术背景………………………………………………………………………21.1.1 模块编程…………………………………………原创 2005-02-19 11:59:00 · 2016 阅读 · 0 评论