分布式_思通数科x的博客-优快云博客

分布式

关注

文章平均质量分 84

关注数：文章数：16 文章阅读量：51977 文章收藏量：86

作者: 思通数科x

我们专注互联网开源数据智能处理，为用户提供“数据采集”、“数据标记”和“数据挖掘”三方面核心能力，以有效的方式使用互联网数据，提高生产力及决策能力。

展开

基于 ElasticSearch (ES)集群架构在舆情系统中的实践

思通舆情在线生产环境使用了24个节点的 Elasticsearch集群存储，每天在互联网上采集的2亿多条数据，每个月下来抓取的数据量2TB左右。

原创 2022-05-11 15:59:42 · 1210 阅读 · 0 评论
Java&python实现网页内容自动识别与提取技术实现

互联网数据采集的过程中大多数网站都是以标题，时间，摘要，作者，来源，正文等形式展现，但是会遇到千千万万种不同结构的网页，开发者不可能对每种不同的网页格式逐一编写代码解析，那样的话，太耗时耗力了，而且维护起来也很不方便。

原创 2022-04-22 16:09:21 · 3348 阅读 · 0 评论
国家级生物医药公共服务平台发布HLA3D数据库，技术架构分享

本系统平台有海量多维的数据，每天还有数据不断的更新以及数据的清洗，数据有结构化与非结构化的数据需要存储和检索，因此，就不能完全采集MySQL之类的数据库，我们采用了Clickhouse作为OLPA引擎，neo4j作为知识图谱可视化引擎，Elasticsearch作为全文检索索引

原创 2022-04-16 21:17:09 · 4364 阅读 · 0 评论
Cassandra在海量数据存储及大型项目案例介绍-part4

Cassandra是一套开源分布式NoSQL数据库系统。它最初由Facebook开发，用于储存收件箱等简单格式数据，此后，由于Cassandra良好的可扩展性，被Digg、Twitter等知名Web 2.0网站所采纳，成为了一种流行的分布式结构化数据存储方案。

原创 2022-04-16 20:50:57 · 1473 阅读 · 0 评论
查询Cassandra中存储了多少条(行)数据？select count(*) from 报错？

ReadTimeout: Error from server: code=1200 [Coordinator node timed out waiting for replica nodes' responses] message="Operation timed out - received only 0 responses." info={'received_responses': 0, 'required_responses': 1, 'consistency': 'ONE'}

原创 2022-04-16 20:44:10 · 2869 阅读 · 1 评论
Cassandra在海量数据存储及大型项目案例介绍-part3

国内大多数公司和开发者对Mongodb和Hbase推崇备至，这是因为MongoDB进入了国内市场并建立了中文社区，而Hbase在阿里的大范围使用和推广下培养了一大批用户和公开材料。Cassandra最近两年在大数据公司Datastax的大力培育下获得长足发展，功能和性能均大幅提升，Datastax的估值也达数亿美元。从Apache Cassandra首页来看，大概有超过1500个公司在使用Cassandra。其中除了facebook和twitter外还一些有代表性的公司列举如下： Instagr

原创 2022-04-16 20:39:35 · 1552 阅读 · 1 评论
每秒采集几十万数据的大规模分布式爬虫是如何炼成的？

在大数据时代，数据采集或网络爬虫似乎是每个程序员的必备技能，一般情况下，工程师会通过Python爬虫框架快速的编写出爬虫程序对网页数据抓取，不过在大规模数据采集的时候就不是一个简简单单的爬虫程序了。

原创 2022-04-16 20:35:40 · 4177 阅读 · 0 评论
Cassandra在海量数据存储及大型项目案例介绍-part2

网上能找到被披露的信息中奇虎360公司是国内目前 Cassandra 落地规模最大的公司。Cassandra 自2010在360开始调研技术落地；2011年使用 Cassandra 0.7.3作为基础版本应用于生产环境；2012年完善数据可靠性和安全性，实现不停机和不单纯依赖读修复的数据快速恢复；2013-2014年以节省成本为目的，实现可擦除编码技术应用于 Cassandra，在确保数据安全和可靠性的前提下实现成本降低60%；2014-2015年面对超大规模集群的超复杂性问题，实现运维自动化，集群具

原创 2022-04-16 17:37:49 · 5047 阅读 · 0 评论
Cassandra在海量数据存储及大型项目案例介绍-part1

Cassandra起源2007 年 Facebook 为了解决消息收件箱搜索问题（ Inbox Search problem）而开始设计 Cassandra 项目。当时 Facebook 遇到了传统的方法难以解决的超大数据量存储可扩展性问题。具体来说，项目团队需要处理大量的消息副本、消息的反向索引等不同形式的数据，需要处理很多随机读和并发随机写操作。在2009年3月，Cassandra 被转移到 Apache 孵化器项目，并在2010年2月17日，它被投票成为一个顶级项目。在 Apache Ca

原创 2022-04-16 17:34:44 · 4680 阅读 · 0 评论
大规模分布式爬虫系统中Kafka和rabbitMQ消息中间件的技术实践分享

一、背景描述目前后端数据引擎系统中使用了24个节点的Elasticsearch 集群，存储每天采集1.7亿条上下的数据量，具体的网页原始数据存储在 Cassandra 集群中。一个月下来抓取的数据量超过2T，同时要保证每天450台爬虫机器同时抓取数据稳定运行，这么大的数据采集量当然需要一个可靠的爬虫系统。在这个爬虫系统中抓取任务和数据处理分发的稳定中间件必不可少。在多种MQ消息中间件里面，我们经过反复的试验和论证，最后选择了Kafka和rabbitMQ两种消息中间件，在分布式爬虫系统作为不同的用途使.

原创 2022-04-16 17:28:57 · 1335 阅读 · 1 评论
StoneDT开源舆情系统大数据技术栈介绍

取之于开源,用之于开源，我们把整套系统开源出去，回馈给技术社区。同时，我们也会逐步的讲解，在这个开源舆情系统中我们是如何使用这些技术的，以及在使用中遇到的各种问题和工程师们的解决方案。

原创 2022-03-20 23:09:37 · 5842 阅读 · 0 评论
邮政快递与物流行业舆情监测系统方案

从邮政总局到地方邮局对管辖范围发生在互联网上的负面信息、突发性事件，将第一时间通过邮件、客户端、短信、微信、PC弹窗等多达5种方式，向相关负责人下发预警信息，提示其第一时间介入处理。

原创 2022-03-19 22:42:32 · 529 阅读 · 0 评论
大数据开源舆情分析系统-数据处理部分架构浅析

数据工厂，是一套多组件化数据清洗加工及数据存储管理平台，同时能够管理所有的数据库的备份方案。支持多数据源类型的数据同步实现和数据仓库其他的数据源互通。对接收数据进行解压，对外提供压缩后的数据。

原创 2022-03-16 15:16:31 · 7829 阅读 · 0 评论
全国高校大学招标公告信源地址大全分享

北京大学https://www.lab.pku.edu.cn北京大学实验室与设备管理部北京大学https://zwb.pku.edu.cn北京大学总务部北京大学http://lab.bjmu.edu.cn招标采购_北京大学医学部设备与实验室管理处中国人民大学http://cgzx.ruc.edu.cn中国人民大学采购与招标管理中心中国人民大学http://www.ruc.edu.cn中国人民大学清华大学http://sbcgczxxfb.sysc.tsinghua....

原创 2022-03-16 14:22:42 · 5393 阅读 · 0 评论
关于爬虫技术和我们的开源项目

爬虫，在很多人眼里很简单、廉价一点都不奇怪，网上有大量9.9块Python培训课，包含爬虫教学。在多数人眼里是灰色产业，这也不奇怪。中国在2019年出现了很多“大数据”公司，他们采用了爬虫技术窃取用户隐私。

原创 2022-03-14 16:45:19 · 1609 阅读 · 0 评论
我们为什么要做open-spider这个开源项目？一款开源网络爬虫

为什么要做这个开源项目？开源网络爬虫做这个开源项目我们主要想解决两个核心问题：有用的数据在哪儿？ & 怎么采集有用的数据？

原创 2022-03-13 16:20:53 · 720 阅读 · 0 评论