- 博客(10)
- 资源 (12)
- 收藏
- 关注
原创 (3)Canal高可用集群
在最近项目开中,为了减少前台搜索对数据库访问压力,入库的物料都需要同步一份数据到ES,让前台搜索直接访问ES,不直接访问数据库获取数据。一开始做法是代码串行先保存到数据库,再同步到ES。但是会有一个坑,如果两者其一保存数据不成功,就会导致数据库跟ES数据不一致,而且这种方式是对站点代码是有侵入式的。搜索相关资料发现阿里的canal这个增量数据订阅&消费的中间件可以无侵入式地有效解决该问题,canal伪造从库拉取mysql库每次修改binary log对象解析后,再通过MQ同步数据到ES。
2025-02-06 16:49:50
925
原创 (1)Conda安装管理与部署
Conda是一个流行的开源包管理和环境管理工具,可以快速安装、管理、运行、部署和更新Python软件包及其依赖项。Conda可以轻松地在本地计算机上创建、保存、加载和切换环境。它是为 Python 程序创建的,但它可以为任何语言打包和分发软件。它的主要优势在于跨平台性能强大(支持Windows、macOS和Linux)、易于使用的环境管理,以及支持多种编程语言和非Python软件包的管理。Conda作为包管理器可帮助您查找和安装包。
2023-12-27 14:13:17
1137
2
原创 (2)Scrapy的Spiders(蜘蛛)
这是最简单的爬虫蜘蛛(Spider)类,也是所有其他Spider类的父类。该类不提供任何特殊功能,它只是提供了一个默认start_requests()请求实现,它根据自身属性发送请求并为每个结果(response)调用Spider类的parse()方法解析数据。允许Spider抓取的域名字符串数组。Spider名称是Scrapy组件定位和实例化Spider类的方式,因此它必须是唯一的。这是最重要的Spider属性,它是必需的。Spiders(蛛蛛)文件下是定义抓取某个站点或一组站点的类。
2023-12-26 10:18:31
696
原创 (2)Canal管理后台在linux上部署
canal-admin设计为canal组件提供了配置管理、节点运维等功能的WebUI操作界面,方便用户快速操作。
2022-12-14 17:50:21
681
1
原创 (1)Canal在linux上搭建集群
官网https://github.com/alibaba/canal介绍,canal [kə'næl],译意为水道/管道/沟渠,主要用途是基于MySQL数据库增量日志解析,提供增量数据订阅和消费。从上述介绍我们可以简单认为Canal就是一个简单的增量数据同步工具。
2022-12-14 16:43:11
501
2
原创 (1)Zookeeper在linux上搭建集群
zookeeper是Apache软件基金会的一个软件项目,它为大型分布式计算提供开源的分布式配置服务、同步服务和命名注册。zookeeper的架构通过冗余服务实现高可用性。zookeeper的设计目标是将那些复杂且容易出错的分布式一致性服务封装起来,构成一个高效可靠的原语集,并以一系列简单易用的接口提供给用户使用。一个典型的分布式数据一致性的解决方案,分布式应用程序可以基于它实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、分布式锁和分布式队列等功能。
2022-12-14 14:03:18
1390
1
原创 (1)Scrapyrt安装与使用
Scrapyrt为Scrapy提供了一个调度和使用蜘蛛(spider)的HTTP接口,有了它,我们就不需要再执行Scrapy命令,而是通过请求一个HTTP接口来调度和使用Scrapy蜘蛛(spider)的任务了。Scrapyrt比Scrapyd更轻量,如果不需要分布式多任务的话,可以简单使用Scrapyrt实现远程Scrapy任务的调度。
2022-10-10 15:49:02
619
1
原创 (4)Scrapy的Item Pipeline(项目管道)
一个项目(Item)被蜘蛛(spider)抓取后,它被发送到项目管道(Item Pipeline),该管道通过几个按顺序执行的组件来处理它。
2022-08-19 12:01:00
645
1
原创 (3)Scrapy的Items(项目)
通常抓取的目标源一般都是非结构化来源,例如网页HTML等。我们需要从中提取结构化数据(解析数据)。Spider(蛛蛛)可以将提取的数据返回为Item(项目)对象,即定义键值对的Python对象。Scrapy支持多种类型的Item。创建Item时,您可以使用所需的任何类型的Item对象接收解析数据。.........
2022-08-12 14:12:53
1564
1
原创 (1)Scrapy安装与创建项目
Scrapy是一个用于抓取网站和提取结构化数据的应用程序框架,可用于广泛的有用应用程序,如数据挖掘、信息处理或历史档案。尽管Scrapy最初是为网络抓取而设计的,但它也可以用于使用 API(例如Amazon Associates Web Services)或作为通用网络爬虫来提取数据。............
2022-08-10 17:02:41
2369
1
oracle64位客户端instantclient-basic-windows.x64-11.2.0.2.0
2015-06-05
AOP_Filter
2012-11-16
Lucene.net概念介绍
2012-11-16
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人