
Libraries\Languages
文章平均质量分 91
编程语言或库 入门
速查文档
noobiee
一般路过的普通学生
展开
-
Git分布式版本控制系统
Git是一个开源的分布式版本控制系统,可以有效、高速地处理从很小到非常大的项目版本管理。分布式相比于集中式的最大区别在于开发者可以提交到本地,每个开发者通过克隆(git clone),在本地机器上拷贝一个完整的Git仓库。Git 是基于 Linux内核开发的版本控制工具。从服务器上克隆(clone)完整的Git仓库(包括代码和版本信息)到单机上。在自己的机器上根据不同的开发目的,创建分支(branch),修改代码。在单机上自己创建的分支上提交(commit)代码。原创 2023-06-13 18:08:18 · 1233 阅读 · 0 评论 -
PyTorch入门手册
这个包本身并不包含数据集文件本身,其工作方式是先从网络上把数据集下载到用户指定目录,然后用它的加载器加载到内存中。在训练过程中可能不能一次性将所有数据全部加载到内存中,也不能只用一个进程去加载,所以就需要多进程、迭代加载,而Dataloader就是基于这些被设计出来,Dataloader。在训练或预测时,数据迭代器能够输出每一批次所需的数据,并且对数据进行相应的预处理与数据增强操作。的值生成一个batch的数据,节省内存的同时还可实现多进程、数据打乱等处理。embedding_dim 嵌入向量大小)原创 2023-03-29 10:35:59 · 1658 阅读 · 0 评论 -
PySpark入门
1,通过pyspark进入pyspark单机交互式环境。这种方式一般用来测试代码。也可以指定jupyter或者ipython为交互环境。2,通过spark-submit提交Spark任务到集群运行。这种方式可以提交Python脚本或者Jar包到集群上让成百上千个机器运行任务。这也是工业界生产中通常使用spark的方式。3,通过zepplin notebook交互式执行。zepplin是jupyter notebook的apache对应产品。4, Python安装findspark和pyspark库原创 2022-10-13 12:13:09 · 8295 阅读 · 0 评论 -
R语言入门
rio 包支持多种文件格式,包括 SAS、SPSS、Stata、Excel、MATLAB、Minitab 等其他软件中使用的数据文件格式。工作空间(workspace)就是 R 的工作环境,所有创建的对象都被临时保存在工作空间(也可称为全局环境,.GlobalEnv)中。:即分类变量,名义型变量是没有顺序关系的分类变量,有序型变量是有层级和顺序关系的分类变量。txt或csv文件:write.table( ) 和 write.csv( )函数简化了用户导入和导出数据的工作。数据类型的判断与转换函数。原创 2022-10-07 23:24:05 · 1416 阅读 · 0 评论 -
Python可视化分析
关键词 Matplotlib、Pyecharts、Seaborn、Plotly、Bokeh 简介 - pyecharts - A Python Echarts Plotting Library built with love.Plotly'sployly常用的两个绘图模块:graph_objs(go)和express(px)原创 2022-09-28 11:29:12 · 2374 阅读 · 0 评论 -
sklearn速览
Sklearn全称Scikit-learn。它涵盖了分类、回归、聚类、降维、模型选择、数据预处理六大模块,降低机器学习实践门槛,将复杂的数学计算集成为简单的函数,并提供了众多公开数据集和学习案例。scikit-learn 是基于 Python 语言的机器学习工具简单高效的数据挖掘和数据分析工具可供大家在各种环境中重复使用建立在 NumPy ,SciPy 和 matplotlib 上开源,可商业使用 - BSD许可证原创 2022-09-19 22:16:46 · 388 阅读 · 0 评论