为什么那么多人说大数据只是写SQL?

大家好,我是脚丫先生 (o^^o)

之前发了一篇,「大数据工程师的日常工作内容是干嘛?」。

在微信公众号和优快云博客收到了很多朋友的私信,问我大数据都只是在写SQL么?

是不是传说中的SqlBoy

我也依依回复了小伙伴们。偶然间在逛知乎的时候看到一个问题?

也想把之前自己说的不足,以知乎的几个我认为不错的回答分享给小伙伴们,解惑解惑。

回答者:herain

对大多数门外汉来说:认为大数据只是写SQL无可厚非。

大数据开发同学的自嘲是谦卑、门外汉的认知是偏见。做好自己就行,不要为不理解而过多的产生不理解,加油让自己更精彩。

多年从事数据开发,sql 只是众多工具(pig、spark、shell、python…)的一种。决定工作性质的不应该是 用什么工具?,而应该是用工具做什么?

大数据开发,是组织数据(数据仓库)、是分析信息(数据分析)、是知识挖掘(挖掘)。不是简单的写sql。

就拿数仓来说,我们需要了解数据建模的方法论(ER、多维等),去建设稳定的数仓体系支持业务找数、用数。同样,我们需要基于数据构建应用,比如 数据报表、查询工具等。当然,还有治理优化的工作,如何用最少的计算资源完成数据的输出。

所以,大数据中写SQL真的是对大数据从业者最大的误解。

重要的事情说三遍:我用SQL,但我不止是写SQL的男孩!

回答者:kingGe

这样说,可能工作中sql用得最多。

毕竟,大数据,先是要会查数据,sql是首选工具。工作中常常是先出结果,再讲效率优化。而大多数人忙于先出结果,很少考虑优化。

还有大多数情况下,有结果就可以了,数据量没那么大,硬件条件很充沛,短时间内也不需要考虑优化的事。

一般能处理增量计算,数据倾斜问题的人,在小组内也是技术能力突出的顶尖人才,小兵小虾不一定能搞定。虾兵虾将多了,声量自然高了,不要怪他们这样说,因为他们看到的就是这些。高级的问题,大概率还没遇到。

回答者:金东东

大数据就是写SQL,这句话其实反映了一个普遍的社会性问题。

任何工作,复杂的、艰难的、专业的那部分,都是很少的人在做。

就和世界上80%的财富由20%的掌握一样,大多数人只是参与到了这一项工作中,做着简单和重复的工作。

因为大多数人在工作中的收获和感悟有限,所以只能得出自己认知范围内的结论,可以参考坐井观天的理解。

好,这就是为什么你听到大多数人说大数据就是写SQL。但是,还有更深入的解释。

  • 1.你自己的工作内容和环境,也是属于简单且重复工作的范围。所以你身边和你能接触到的人的理解就是这样。如果你能通过自己的学习和努力,摆脱这种环境,你的同事都是更加专业的科技人士,他们则会说大数据重要的是数据模型和分析算法的精确与高效率,以及设备性能的充分利用,甚至是跨学科数据融合的社会研究。

  • 2.不可否认的是,计算机和软件领域的王者是美国,他们 做了大部分模型与架构的研发,算法与性能的调优。落实到中国的应用层面,不需要我们去 做这些顶层和高专业性的工作,留给我们的只有重复性工作。

综上所述,既然你已经有了这样的意识,还希望你能在大数据领域进行更多专业性的顶层工作。这样的人越多,中国的科技才会越发达。

总而言之

大数据不光光是写SQL,SQL只是达到目的的方式之一。

在大数据工作中,会面临很多种情况。

如以上几个回答,大数据工作的内容,根据自己的环境和工作侧重面来决定,

越是深入到大数据知识里,就越能感受到它的高度和难度。

从数据存储到数据计算再到数据平台建设,涉及到的大数据知识以及需要用到的语言工具太广了。

当然,Hive sql,spark sql,flink sql,presto sql写好 我觉得已经很nb了。

更多精彩内容请关注 微信公众号 👇「大数据指北」🔥:


一枚热衷于分享大数据基础原理,技术实战,架构设计与原型实现之外,还喜欢输出一些个人私活案例。


更多精彩福利干货,期待您的关注 ~

<think>嗯,用户需要推荐编SQL的软件。先仔细看看用户提供的引用内容:引用[1]提到NineData支持智能提示和SQL模板;引用[2]推荐Navicat for MySQL;引用[3]提到spark-sql适用于大数据场景;引用[4]展示AI辅助SQL生成;引用[5]涉及PyHacker编SQL注入脚本。 用户的核心需求是"编SQL的软件",结合引用信息,需要覆盖不同使用场景:日常开发大数据处理、AI辅助和安全测试。考虑从四个维度推荐: 1. **可视化工具**:Navicat确实市场占有率高(符合引用[2]),适合MySQL用户;DBeaver免费开源支持数据库可作为补充推荐 2. **在线/云端工具**:NineData的智能提示和模板功能(引用[1])特别适合团队协作场景 3. **命令行工具**:spark-sql(引用[3])对大数据用户必要,psql和mysql客户端也应包含 4. **辅助工具**:AI生成SQL(引用[4])和注入测试工具(引用[5])作为补充方案 用户可能没明但隐含的需求:是否需要协作功能?是否涉及大数据平台?准备在推荐中分层标注适用场景。特别注意引用[3]提到spark-sql的"-f/-e"参数用法,这属于专业功能点需要保留。 生成的问题要延伸当前需求:工具对比、学习路径、团队协作场景都是自然延伸。注意引用[5]的SQL注入内容敏感,需转为正面的安全测试工具推荐,避免教唆倾向。 </think>以下是综合推荐的SQL软件,根据适用场景分类整理: --- ### **一、可视化SQL开发工具** 1. **Navicat系列** - 支持MySQL/Oracle/SQL Server等主流数据库 - 可视化表结构管理 + 智能代码补全 - 数据导入导出/备份同步功能完善 - *适用场景:日常数据库开发维护* [^2] 2. **DBeaver(开源免费)** - 跨平台支持Windows/macOS/Linux - 内置驱动支持80+种数据库(含NoSQL) - 提供ER图生成、数据对比等高级功能 --- ### **二、云端SQL协作工具** **NineData** - 智能语法提示(自动补全表名/字段名) - 支持SQL模板快速生成基础语句 - 在线协作编SQL脚本 - *亮点:无需安装,通过浏览器使用* [^1] --- ### **三、命令行工具(适合高级用户)** 1. **`psql` (PostgreSQL)** - 原生命令行客户端 - 支持脚本批量执行(`-f`参数) - 元命令快速查看对象信息(`\d`, `\dt`等) 2. **`spark-sql` (大数据场景)** - 直接执行HiveQL/Spark SQL - 支持脚本提交:`./spark-sql -f script.sql` - *适用:大数据ETL及分析任务* [^3] --- ### **四、AI辅助工具** - **AI SQL生成器** 输入自然语言描述 → 自动生成SQL语句(如CASE语句示例) *适用:快速构建复杂查询逻辑* [^4] ```sql SELECT id, CASE WHEN sex='F' THEN '女' WHEN sex='M' THEN '男' END AS gender FROM users; ``` --- ### **五、特殊场景工具** - **SQL注入测试工具** 自定义Python脚本检测漏洞(需Python基础) *示例库:sqlmap tamper脚本扩展* [^5] --- ### **选择建议** | 需求场景 | 推荐工具 | |-------------------|------------------------| | 图形化操作 | Navicat / DBeaver | | 团队云端协作 | NineData | | 大数据处理 | spark-sql | | 快速生成复杂SQL | AI辅助工具 | | 安全测试 | 自定义Python脚本 | ---
评论 17
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

数据Ai指北

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值