https://hpc.hku.hk/hpc/

提交 ppt 经过导师审批账号。申请成功会收到账号密码,和一般 Linux 使用方法相同可以拷贝 id_rsa.pub 给 HPC.

网页 dashboard

通过 module 命令加载软件,其余软件用户无法 sudo 安装,需要自己编译

#!/bin/bash
#SBATCH --job-name=CNN           # Name of the job
#SBATCH --output=CNN_%j.out      # Output file (%j will be replaced by job ID)
#SBATCH --error=CNN_%j.err       # Error file (%j will be replaced by job ID)
#SBATCH --partition=l40s		# Specify the partition (e.g., gpu)
#SBATCH --gres=gpu:1                     # Request 1 GPU
#SBATCH --cpus-per-task=12                # Request 4 CPU cores
#SBATCH --mem=16G                        # Request 16GB of RAM
#SBATCH --time=7-00:00:00                  # Set a time limit (2 hours)
#SBATCH --mail-type=ALL                  # Notify on job start, end, and failure
#SBATCH --mail-user=wulongyong@connect.hku.hk	# Your email for notifications
 
# Load necessary modules (if your cluster uses modules)
module load anaconda  # Load Anaconda module (adjust based on your system)
module load gcc/12.3
module load cuda/11.8
# Activate the Anaconda environment
source activate sympoint
 
nvidia-smi
PYTHONPATH=/scr/u/wulongy/workspace/CADTransformer CUDA_VISIBLE_DEVICES=0 ~/.conda/envs/sympoint/bin/python -u train_cad_ddp.py --log_dir cnn

异地组网

在内地由于跳转太多,tailscale 直连办公室电脑延迟较高。发现在家可以低延迟直连 azure (学生免费2核1G),所以可以将 azure 加入组网,通过 azure 代理 ssh 到办公室,延迟得到大幅下降。