- 博客(8)
- 收藏
- 关注
原创 Linux 文件权限
你需要注意的一点是,一个目录同时具有读权限和执行权限才可以打开并查看内部文件,而一个目录要有写权限才允许在其中创建其它文件,这是因为目录文件实际保存着该目录里面的文件的列表等信息。Unix/Linux 系统是一个典型的多用户系统,不同的用户处于不同的地位,对文件和目录有不同的访问权限。所有者权限,这一点相信你应该明白了,至于所属用户组权限,是指你所在的用户组中的所有其它用户对于该文件的权限,比如,你有一个 iPad,那么这个用户组权限就决定了你的兄弟姐妹有没有权限使用它破坏它和占有它。
2025-03-04 15:04:37
473
原创 数据分析基础(楼+课程记录自己的问题)
不过,由于 JSON 支持复杂的嵌套,有时候直接通过 read_json 读取到的 DataFrame 并不是我们想要的样子,例如某个键值是以字典或列表存在。同时,数据分析师手中的数据也并不是凭空出现的,往往采集数据的工作都需要亲力亲为。但是本阶段的内容中,我们会先介绍如何读取和存储数据,再学习常用采集数据的方法。HDF5 的好处在于,你不仅可以使用 Python 存储和读取,目前还被 Java,MATLAB/Scilab,Octave,IDL,Julia, R 等语言或商业软件支持。
2025-03-03 21:01:38
1251
原创 Linux学习
或许你之前不知道 Linux ,要知道,你之前在 Windows 使用百度、谷歌,上淘宝,聊 QQ 时,支撑这些软件和服务的,是后台成千上万的 Linux 服务器主机,它们时时刻刻都在忙碌地进行着数据处理和运算,可以说世界上大部分软件和服务都是运行在 Linux 之上的。是学习 Linux 操作系统本身还是某一个 Linux 发行版(Ubuntu,CentOS,Fedora,OpenSUSE,Debian,Mint 等等),如果你对发行版的概念或者它们之间的关系不明确的话可以参看 Linux 发行版。
2025-03-03 20:10:55
863
原创 构建训练集
1、hive建表真实的生产场景涉及到大概五十张表的字段,这里全部简化流程,直接给出最终的三张表:应用词表:CREATE EXTERNAL TABLE IF NOT EXISTS dim_rcm_hitop_id_list_ds(hitop_id STRING,name STRING,author STRING,sversion STRING,is...
2018-12-29 16:30:27
1010
转载 协同过滤中用到的算法
原址https://www.ibm.com/developerworks/cn/web/1103_zhaoct_recommstudy2/index.htmlGoogle的核心:PAGERANK可以这样解释-------每个页面都是一个投票者和被投票者,pagerank通过迭代得到一个相对稳定的评分。没有复习好 跪在了ALS上协同过滤的核心:1)收集用户的偏好 2)找到相似的用户或者物品3)...
2018-12-25 21:56:16
179
转载 机器学习:余弦相似度和欧式距离的区别(面试问到了)
在机器学习中都可以用来计算相似度。欧氏距离:坐标系中的两个点,用来计算两点之间的绝对距离。余弦相似度:坐标系中的两个向量,计算的是向量的夹角。当时只说出了大概的概念意义,没有进行实例补充。网上找了个例子简单易懂例子:某Tshirt,从100块降到了50块 某西装从1000块降到了500块A(100,50) B(1000,500...
2018-12-25 18:59:38
3169
空空如也
空空如也
TA创建的收藏夹 TA关注的收藏夹
TA关注的人