【ASC】Thu培训视频笔记
本文最后更新于:3 个月前
THU培训视频
引自:
三大比赛ASC ISC SC
题目构成与评分
Benchmark基准测试程序:HPL, HPCG, HPCC
- 测试计算、通信等综合性能,超级计算机榜单的决定性指标
- 每场比赛每年规则和内容几乎相同
- 在比赛正式开始前进行(意思是:超功耗不扣分)
- 可以换配置,但是最终成绩需基于最终配置
公开题目
- 在赛前3-6个月公布大致内容,比赛开始时下发具体任务
- 赛前可与组委会就题目具体问题进行沟通,沟通内容所有参赛队伍可见
- 需要进行全面细致的优化方能获胜
- 通常由正确性分数 + 性能分数构成
神秘应用(Mystery Application)
- 在比赛开始前一无所知,所有内容在比赛开始时下发
- 拼手速 / 正确的硬件配置 / 运气
- Spack apt pip /npm
传统题(科学计算)
- 物理学
- SWIFTsim (ISC’19): 宇宙学模拟(天体相互作用等)
- ShengBTE (ASC’19): 声子Bolzmann输运方程求解
- 生命科学
- WTDBG2 (ASC’19): 基因序列片段拼接
- 地球科学
- SeisSol (Sc’18 Reproducibility): 地震模拟(印尼海啸)
- NormalModes (SC’l9 Reproducibility): 行星简正模式计算(以月球为例)
- 气候与气象学
- wRF (Weather Research and Forecasting model) (Sc’l8): 天气预报(大气动力学)
- CESM (Community Earth System Model) (ASC’l9): 复杂气候模型
- 计算机科学
- SST (Structural Simulation Toolkit) (Sc’l9): 计算机体系结构模拟
- QuEST (ASC’20): 量子电路模拟
炼丹题(人工智能)
- CV
- VGG over ImageNet (ISC’18)
- ResNet over ImageNet (SC’18)
- DeepLab Tiramisu in hurricane recognition (ISC’19)
- Facial Super-Resolution (ASC’19)
- NLP
- BERT Transformer (Cloze Test) (ASC’20)
- Pretraining BERT (ISC’20)
- M$ MARCO (ASC’18)
答辩、面试和其它迷惑环节
- ASC 答辩
- 正式比赛完成后第二天进行
- 先用10分钟时间演讲,再回答评委问题
- 各队单独进行,不能旁听其他队答辩
- ISC 面试
- 在最后一个比赛进行
- 评委走到展位前与各队进行交流,内容宽泛(diversity)
- SC 面试和Poster
- 面试与ISC类似,但评委手里有详细的打分表
- 每道题目由专门的评委进行专业面试,外加综合面试
- Poster类似学术会议上的Poster展示,也有评委
集群硬件构成
计算设备
- CPU: 双路Intel/AMD中高级服务器处理器,用于所有计算用途
- GPU: NVIDIA V100,用于大规模并行浮点计算(包括benchmark)
存储设备
- RAM: DDR4高频率(>2933Mhz) ECC RDIMM
- SATA SSD: 用于系统安装、日常文件存储
- NVMe SSD: 高性能、高功耗,用于高吞吐量程序、IO benchmark等
通信设备
- Ethernet NIC: 低功耗、稳定,用于管理
- InfiniBand(IB) NIC: 高带宽、低延迟,用于应用通信
Network Interface Card 网卡
软件基础设施
系统软件管理
- Debian Linux 操作系统,使用 SSH 连接集群
- 使用 clusterShell 进行统一控制
- 使用ZFS + NFS
- 在集群间共享文件
- 通常需要各种各样的工具和库
- 编译器: GCC / ICC /Clang / PGI
- MPI: OpenMPI / Intel MPI / Mellanox HPC-X
- 通信方式: Ethernet / IPoIB / UCX
- 数学库: CuBLAS / MKL / OpenBLAS, FFTW / CuFFTW
- 编译选项:是否启用 AVX512 指令集 / 是否开启 O3 优化
- 使用Spack统一管理各种软件的不同版本
- 自动管理软件包依赖
- 一键配置 / 清理所需环境
集群运维
体力活
- 反复装卸搬运各类硬件设备以供测试
- 赛前后组装、拆卸集群,整理线缆、布置机柜
脑力活
- 安装维护系统、修复问题
- 搭建监控系统,实时监测功耗、风扇等关键信息
- 配置网络、存储等基础设施
玄学活
在集群装好之后施法以提高散热效率???
常见并行程序框架
MPI
OpenMp
*pthread
CUDA
【ASC】Thu培训视频笔记
http://blog.itbear666.top/2022/09/27/【ASC】Thu培训视频笔记/