从零开始搭建阿里云服务器

本文详细介绍了如何在阿里云上创建并配置云服务器ECS的过程,包括账号注册、个人信息认证、远程连接服务器、新建用户组及用户等步骤。

1.注册阿里云账号

阿里云注册

2.认证个人信息

点击左上角你的用户名进入账号管理->安全设置,认证完成后可进入云服务器ECS帮助文档,根据帮助文档的内容创建云服务器,得到IP地址和服务器root用户的密码,忘记了的话可以去控制台重新设置密码。

3.通过xshell用root账户密码远程连接到服务器

xshell使用请自行百度,连接上了之后,并没有进入到根目录

1.进入服务器根目录:

cd /

2.新建用户组

groupadd hackywit

3.新建用户

useradd -s /bin/bash -g hackywit -d /home/hackywit -m hackywit

4.在sudoer中添加hackywit用户可以临时访问root的权限

chmod u+w /etc/sudoers
vi /etc/sudoers

找到这行 root ALL=(ALL) ALL,在他下面添加xxx ALL=(ALL) ALL (这里的xxx是你的用户名)
ps:这里说下你可以sudoers添加下面四行中任意一条
youuser ALL=(ALL) ALL
%youuser ALL=(ALL) ALL
youuser ALL=(ALL) NOPASSWD: ALL
%youuser ALL=(ALL) NOPASSWD: ALL
第一行:允许用户youuser执行sudo命令(需要输入密码).
第二行:允许用户组youuser里面的用户执行sudo命令(需要输入密码).
第三行:允许用户youuser执行sudo命令,并且在执行的时候不输入密码.
第四行:允许用户组youuser里面的用户执行sudo命令,并且在执行的时候不输入密码.

 chmod u-w /etc/sudoers

5.创建用户密码

passwd hackywit

4.退出root用户的登录,改为刚刚新建的用户账户名密码远程登录服务器

### 配置阿里云GPU服务器用于深度学习模型训练 #### 选择合适的GPU实例规格 在启动项目之前,需评估所需资源并选择适合的GPU实例规格。这取决于具体应用场景中的数据量大小以及所选算法复杂程度[^2]。 #### 创建ECS实例 登录到阿里云官网后,在ECS产品页面点击创建实例按钮进入向导界面;按照提示依次填写地域、网络类型等基本信息,并挑选已选定好的GPU配置项完成实例构建过程。 #### 安全组设置 为了保障远程访问的安全性,需要合理规划安全策略来允许SSH连接及其他必要的端口开放。通常情况下只需放通TCP协议下的22号端口即可满足基本需求。 #### 远程连接至新购得之主机节点 借助于诸如PuTTY这类工具实现Linux系统的命令行交互环境搭建工作,输入公网IP地址及相关认证信息成功登陆目标机器之后便能开展后续部署活动了。 #### 安装依赖软件包与框架库文件 确保操作系统处于最新状态后再安装CUDA Toolkit及cuDNN SDK组件,它们是支持NVIDIA硬件加速功能不可或缺的一部分。接着依据个人喜好下载PyTorch/TensorFlow其中一个版本作为主要开发平台[^1]。 ```bash sudo apt-get update && sudo apt-get upgrade -y wget https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/cuda-ubuntu2004.pin sudo mv cuda-ubuntu2004.pin /etc/apt/preferences.d/cuda-repository-pin-600 sudo apt-key adv --fetch-keys https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/7fa2af80.pub sudo add-apt-repository "deb https://developer.download.nvidia.com/compute/cuda/repos/ubuntu2004/x86_64/ /" sudo apt-get update sudo apt-get -y install cuda pip3 install torch torchvision torchaudio --extra-index-url https://download.pytorch.org/whl/cu113 ``` #### 数据准备阶段 将本地的数据集上传到OSS对象存储服务当中去,再编写一段Python脚本调用SDK接口读取这些二进制流加载入内存供程序调用处理。 #### 编写训练代码逻辑部分 基于前面提到过的开源框架设计神经网络结构定义损失函数优化器参数初始化等一系列准备工作完成后就可以正式开启一轮又一轮迭代更新权重直至收敛为止。 #### 启动分布式多卡并行运算模式(可选项) 如果单张显卡无法承载整个任务负载,则考虑采用Horovod或者DeepSpeed这样的第三方插件辅助实现跨设备间高效通信协作机制从而达到充分利用集群内所有可用算力的目的。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值