
python
文章平均质量分 82
大王go巡山
人生若只如初见
展开
-
jupyterlab支持spark和pyspark(跨集群)
引言:目前数据分析人员常用到jupyterlab来进行前期的数据探索,但纯净版只支持简单的python,不能满足数据分析人员的需求,如何为数据分析人员提供大数据集群下的数据访问就成了需要解决的问题。当前jupyter提供了一些官方kernel供用户使用,如最早的sparkmagic()和最近新的开源项目Apache Toree()都可以满足通过spark和pyspark方式对大数据集群数据的访问。对sparkmagic和toree调研分析后发现:sparkmagic:基于Apache livy实现原创 2021-03-15 00:02:10 · 1306 阅读 · 1 评论 -
python读取hive方案分析
python读取hive方案对比引言最近接到一项任务–开发python工具,方便从HDFS读取文件和Hive表数据。当前网上的方案大多是通过第三方python包实现,只需导入指定pypi包即可完成,这种方案虽然在功能上具有可行性,但是当数据量级增大时,读取数据效率低下,无法满足业务场景需要,为此需调研其他方案实现python读取Hive表功能。原创 2021-03-06 20:42:08 · 9013 阅读 · 0 评论 -
Python运行问题:Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.
最近更新numpy包后当导入numy和networkx包运行python会报错:Intel MKL FATAL ERROR: Cannot load mkl_intel_thread.dll.解决方法:1.更新anaconda本身conda update anaconda2.更新numpy、mkl和networkx包conda update numpyconda upda...原创 2019-05-16 11:30:32 · 1671 阅读 · 0 评论