
Spark系列
文章平均质量分 66
言析数智
为公安、烟草、交警、教育教学等十多个领域提供深度数据洞察与解决方案,具有从0-1项目孵化成功经验。
自研工具:数据调研工具、AI定制算法推理工具等
技能认证:PMP认证、信息系统项目管理师、数据工程专家认证、CFA level I(passed)
工作荣誉:
2024年度-数据之星奖
2024年-数据应用模型创新大赛-单位一等奖、作品一等奖、个人一等奖
2024年-科技先进工作者、数据工程专家认证
2023年-信息系统项目管理师、PMP认证、省级评标专家库、参与4篇专利、杭E人才
2022年-攻坚克难奖
2021年-研发之星奖
2020年-优秀员工
2017年-校优秀应届毕业生
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
impala使用round函数保留小数失效
impala使用round函数保留小数失真原创 2024-04-05 21:00:43 · 491 阅读 · 0 评论 -
jupyter pyspark 开发环境搭建(在线、离线)
应用场景在Jupter中,使用 Python语言进行数据分析是一种潮流/趋势。如何在 Jupyter 中引入 Spark ,从而进行大数据清洗、挖掘等是值得研究的问题。技术方案的选择有很多,然由于多方面原因终究要探索出适合自己的~实现方案方案 1 利用 Apache Toree 在Jupyter 中引入 Spark, 从而建立Scala,PySpark,SparkR...原创 2018-04-07 18:28:51 · 4875 阅读 · 2 评论 -
org.apache.spark.sql.AnalysisException: cannot resolve '`id`' given input columns
场景描述Spark 获取MySQL数据并持久化入 json、parquet文件过程记录分析解析异常 具体原因待分析Exception in thread "main" org.apache.spark.sql.AnalysisException: cannot resolve '`id`' given input columns: [id, name, age, sex];;'...原创 2018-04-14 22:59:47 · 28810 阅读 · 1 评论 -
RDD Persistence(spark)
RDD Persistence StorageLevel describe NONE RDD不做持久化 DISK_ONLY RDD分区仅持久化在磁盘 DISK_ONLY_2 _2,即将每个分区备份到2个集群节点,其他同上 MEMORY_ONLY 默认持久化策略. 将RDD作为JAVA对象反序列化后持久化到JVM虚拟机内存中,如果内存...原创 2018-04-03 23:20:00 · 247 阅读 · 1 评论 -
jupyter spark环境配置(在线、离线均可实现)
应用场景为了能在jupyter中开发spark程序,博文记录在 jupyter 中配置 spark 开发环境过程。参考很多博客无法有效搭建 jupyter 中spark开发环境!必备组件spark 下载 spark-2.3.0-bin-hadoop2.7.tgzApache Toree Apache Toree has one main goal: provide...原创 2018-04-07 00:37:49 · 3883 阅读 · 3 评论