
数据科学
birdflyinhigh
这个作者很懒,什么都没留下…
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
python如何解析复杂sql,实现数据库和表的提取
需求:公司的数据分析师,提交一个sql, 一般都三四百行。由于数据安全的需要,不能开放所有的数据库和数据表给数据分析师查询,所以需要解析sql中的数据库和表,与权限管理系统中记录的数据库和表权限信息比对,实现非法查询的拦截。解决办法:在解决这个问题前,现在github找了一下轮子,发现python下面除了sql parse没什么好的解析数据库和表的轮轮。到是在java里面找到presto-p...原创 2019-02-22 17:43:09 · 12542 阅读 · 20 评论 -
python如何优雅的将pandas的df类目由驼峰式改为下滑线式
本文用到的数据,可以加QQ跟群主获取:群名称:PYTHONERS-数据群 号:663468799学习python和数据分析推荐地方: www.lynda.com获取lynda官网会员的方式:get_lynda_com()如何优雅的将驼峰式改为下划线式命名。总所周知,当时用pandas 的df.read_csv()方法后,读取的dataframe列名很多时候有可能是使用驼峰式命名的...原创 2018-11-23 15:19:05 · 902 阅读 · 0 评论 -
python实现列表去重的方法
本文用到的数据,可以加QQ跟群主获取:群名称:PYTHONERS-数据群 号:663468799学习python和数据分析推荐地方: www.lynda.com获取lynda官网会员的方式:get_lynda.com()方法1: 使用set函数goods = ["衬衫", "羊毛衫", "雪纺衫", "裤子", "高跟鞋", "袜子","雪纺衫", &原创 2018-11-21 14:50:25 · 2331 阅读 · 0 评论 -
superset图表如何自定义输出数字
superset默认的格式化输出数字是西方习惯的千和3位分隔,并且没有保留两位小数和一位小数和整数,那么如何通过二次开发实现数字的自定义格式化呢,只需要更改一下代码:// 目录: /superset/status/assets/javascripts/explore/stores/controls.jsx const D3_FORMAT_OPTIONS = [ // 保留一位小数...原创 2018-08-27 16:33:35 · 5160 阅读 · 0 评论 -
01_Anaconda安装详细步骤
Anaconda安装步骤windows 下载地址: https://mirrors.tuna.tsinghua.edu.cn/anaconda/archive/ 选择对应windows版本打开cmd, 输入conda会有反应打开anaconda 的图形界面,点击左侧环境选项,中间出现root, 点击open terminal, 输入conda会有反应。配置国内源conda c...原创 2018-07-20 15:46:37 · 312 阅读 · 0 评论 -
用数据讲故事-如何建立自己的数据科学作品集
数据科学公司在招聘决策时越来越多地关注作品集。其中一个原因是作品集是判断某人的现实技能的最佳方法。对你而言,好消息是,作品集完全在您的控制之中。如果你把一些工作,做成一个大的作品集,会让公司印象深刻。制作高质量作品集的第一步就是知道要展示的技能。公司在数据科学家中所需要的主要技能,因此他们希望作品集中展示的主要技能是:沟通能力能够与他人合作技术能力能够推理数据主动能力原创 2017-10-05 16:17:34 · 392 阅读 · 0 评论 -
KNN(K近邻算法) 中超参数调优,如何生成所有的指标排列组合.
KNN(K近邻算法) 中超参数调优,如何生成所有的指标组合.在KNN算法中,参数的调优要么调整特征的组合,要么改变K值。一个常用但是简单的方式是,网格搜索(grid search).比如加入特征组包括:features = ['accommodates', 'bedrooms', 'bathrooms', 'beds', 'minimum_nights', 'maximum_nig...原创 2019-06-21 18:35:27 · 1367 阅读 · 0 评论