starrocks问题小结

20220315

在这里插入图片描述
starrocks连接hadoop源数据位置

在这里插入图片描述
colocate join 执行成功

20220314

在这里插入图片描述
集群是HA的情况下需要填

ui监控:域名:8030

在这里插入图片描述在这里插入图片描述聚合模型
rollup表索引,稀疏索引

在这里插入图片描述数据模型
明细模型相当于数据的ods,dwd

在这里插入图片描述
冷热数据
冷数据不会再被更改,不会被加载进内存

宽表都是些聚合指标不是明细数据,列可能很多,但是行很少

主键模型费内存,全部加载到内存

CREATE TABLE `tb_onekey_goods_info_manual_match_test` (
  `id` bigint(20) NOT NULL COMMENT "业务主键 自增id",
  `goods_id` varchar(200) NULL COMMENT "商品id",
  `hz_goods_id` varchar(200) NULL COMMENT "合纵商品id",
  `remarks_status` int(11) NULL COMMENT "对码方法,0:算法规则"
) ENGINE=OLAP 
PRIMARY KEY(`id`)
COMMENT "手动对码结果-商品信息表(商品粒度)"
DISTRIBUTED BY HASH(`id`) BUCKETS 4 
PROPERTIES (
"replication_num" = "1",
"in_memory" = "false",
"storage_format" = "DEFAULT"
);

创建非外部表
import pymysql
   self.config_starrocks_onekey = {
            "host": "192.168.1.112",
            "port": 9030,
            "user": "doris",
            "password": "hezong2022",
            "database": "onekey_bi",
            "charset": "utf8",
        }
self.conn = pymysql.connect(**self.config_starrocks_onekey)

starrock如果是建立在mysql的基础之上的话,大部分关于mysql的操作都可以直接使用
可以直接使用pymysql,好像没有自增功能?没有replace into?

starrocks有按主键模型的(id进行更新,覆盖)

https://mp.weixin.qq.com/s/C7UzjdAQL9PTNXeSsVRjQA
基于StarRocks的极速实时数据分析实践

### 特点 - **高性能实时分析**:StarRocks 具备高效的 MPP(大规模并行处理)架构,能够在秒级甚至亚秒级对海量数据进行实时分析。它采用了向量化执行引擎,对数据进行批量处理,充分利用 CPU 并行计算能力,大大提升了查询性能。此外,它还支持实时数据的快速导入和更新,保证数据的时效性。例如在处理实时交易数据时,能够快速响应业务人员的查询请求,提供最新的业务洞察。 - **高并发处理能力**:可以同时处理大量用户的查询请求,不会因为高并发而导致性能显著下降。这得益于其优化的查询调度和资源管理机制,能够合理分配系统资源,确保每个查询都能高效执行。适用于企业级应用场景,如电商平台的数据分析系统,在促销活动期间,大量业务人员同时进行数据查询分析,StarRocks 能够稳定应对,保证服务的可用性。 - **统一的数据分析平台**:支持多种数据模型,包括聚合模型、明细模型和更新模型等,能够满足不同业务场景下的数据分析需求。无论是预聚合的报表数据,还是详细的交易明细数据,都可以在 StarRocks 中进行统一管理和分析。同时,它还支持多种数据格式,如 CSV、JSON 等,方便与不同数据源进行集成。 - **简单易用**:提供了标准的 SQL 接口,用户可以使用熟悉的 SQL 语句进行数据查询和分析,降低了学习成本。同时,StarRocks 的部署和运维也相对简单,支持一键安装和自动化运维,减少了运维人员的工作量。 ### 应用场景 - **实时报表与监控**:在金融、电信、电商等行业,需要实时监控业务指标的变化情况,如交易金额、用户活跃度、流量数据等。StarRocks 可以实时处理这些数据,并生成相应的报表和可视化图表,帮助业务人员及时掌握业务动态,做出决策。例如,金融机构可以实时监控股票交易数据,及时发现异常交易行为。 - **交互式数据分析**:对于数据分析师和业务人员来说,需要对数据进行交互式的探索和分析,以发现潜在的业务机会和问题StarRocks 的高性能和高并发处理能力,使得用户可以快速进行数据查询和分析,进行多维度的数据钻取和切片,深入挖掘数据价值。比如,市场分析师可以通过 StarRocks 对用户行为数据进行分析,了解用户的购买偏好和消费习惯。 - **数据仓库**:作为企业的数据仓库,存储和管理企业的历史数据和实时数据。StarRocks 可以与企业现有的数据集成工具(如 ETL 工具)进行集成,将不同数据源的数据抽取、转换和加载到 StarRocks 中,形成统一的数据视图。企业可以基于 StarRocks 进行复杂的数据分析和挖掘,为企业的战略决策提供支持。 - **实时推荐系统**:在电商、社交等领域,实时推荐系统可以根据用户的实时行为和偏好,为用户推荐个性化的商品或内容。StarRocks 可以实时处理用户的行为数据,如浏览记录、购买记录等,并与用户画像数据进行关联分析,为推荐系统提供实时的数据源,提高推荐的准确性和时效性。 ### 使用指南 #### 安装与部署 - 可以通过官方提供的安装包进行安装,支持在 Linux 系统上部署。安装过程中需要配置相关的参数,如节点信息、内存分配等。也可以使用 Docker 容器进行快速部署,方便在不同环境中进行测试和开发。 #### 数据导入 - 支持多种数据导入方式,如通过 SQL 语句进行数据插入,使用 StarRocks 提供的导入工具(如 Stream Load、Broker Load 等)进行批量数据导入。例如,使用 Stream Load 可以将实时产生的数据快速导入到 StarRocks 中,实现数据的实时同步。 #### 数据查询 - 使用标准的 SQL 语句进行数据查询,支持复杂的查询操作,如多表连接、聚合查询、子查询等。可以通过命令行工具或者可视化工具(如 Tableau、Superset 等)连接到 StarRocks 进行数据查询和分析。以下是一个简单的 SQL 查询示例: ```sql SELECT category, SUM(sales_amount) FROM sales_data GROUP BY category; ``` #### 集群管理 - 可以使用 StarRocks 提供的管理工具对集群进行监控和管理,包括节点状态监控、资源使用情况监控、数据备份和恢复等。同时,还可以进行集群的扩容和缩容操作,根据业务需求灵活调整集群的规模。
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值