【ASC】Thu培训视频笔记

本文最后更新于:3 个月前

THU培训视频

引自:

THU培训视频

三大比赛ASC ISC SC

image-20220927122222896

image-20220927122258687

题目构成与评分

Benchmark基准测试程序:HPL, HPCG, HPCC

  • 测试计算、通信等综合性能,超级计算机榜单的决定性指标
  • 每场比赛每年规则和内容几乎相同
  • 在比赛正式开始前进行(意思是:超功耗不扣分)
  • 可以换配置,但是最终成绩需基于最终配置

公开题目

  • 赛前3-6个月公布大致内容,比赛开始时下发具体任务
  • 赛前可与组委会就题目具体问题进行沟通,沟通内容所有参赛队伍可见
  • 需要进行全面细致的优化方能获胜
  • 通常由正确性分数 + 性能分数构成

神秘应用(Mystery Application)

  • 在比赛开始前一无所知,所有内容在比赛开始时下发
  • 拼手速 / 正确的硬件配置 / 运气
  • Spack apt pip /npm

传统题(科学计算)

  • 物理学
    • SWIFTsim (ISC’19): 宇宙学模拟(天体相互作用等)
    • ShengBTE (ASC’19): 声子Bolzmann输运方程求解
  • 生命科学
    • WTDBG2 (ASC’19): 基因序列片段拼接
  • 地球科学
    • SeisSol (Sc’18 Reproducibility): 地震模拟(印尼海啸)
    • NormalModes (SC’l9 Reproducibility): 行星简正模式计算(以月球为例)
  • 气候与气象学
    • wRF (Weather Research and Forecasting model) (Sc’l8): 天气预报(大气动力学)
    • CESM (Community Earth System Model) (ASC’l9): 复杂气候模型
  • 计算机科学
    • SST (Structural Simulation Toolkit) (Sc’l9): 计算机体系结构模拟
    • QuEST (ASC’20): 量子电路模拟

炼丹题(人工智能)

  • CV
    • VGG over ImageNet (ISC’18)
    • ResNet over ImageNet (SC’18)
    • DeepLab Tiramisu in hurricane recognition (ISC’19)
    • Facial Super-Resolution (ASC’19)
  • NLP
    • BERT Transformer (Cloze Test) (ASC’20)
    • Pretraining BERT (ISC’20)
    • M$ MARCO (ASC’18)

答辩、面试和其它迷惑环节

  • ASC 答辩
    • 正式比赛完成后第二天进行
    • 先用10分钟时间演讲,再回答评委问题
    • 各队单独进行,不能旁听其他队答辩
  • ISC 面试
    • 在最后一个比赛进行
    • 评委走到展位前与各队进行交流,内容宽泛(diversity)
  • SC 面试和Poster
    • 面试与ISC类似,但评委手里有详细的打分表
    • 每道题目由专门的评委进行专业面试,外加综合面试
    • Poster类似学术会议上的Poster展示,也有评委

集群硬件构成

image-20220927125644592

计算设备

  • CPU: 双路Intel/AMD中高级服务器处理器,用于所有计算用途
  • GPU: NVIDIA V100,用于大规模并行浮点计算(包括benchmark)

存储设备

  • RAM: DDR4高频率(>2933Mhz) ECC RDIMM
  • SATA SSD: 用于系统安装、日常文件存储
  • NVMe SSD: 高性能、高功耗,用于高吞吐量程序、IO benchmark等

通信设备

  • Ethernet NIC: 低功耗、稳定,用于管理
  • InfiniBand(IB) NIC: 高带宽、低延迟,用于应用通信

Network Interface Card 网卡

软件基础设施

image-20220927130527005

系统软件管理

  • Debian Linux 操作系统,使用 SSH 连接集群
    • 使用 clusterShell 进行统一控制
  • 使用ZFS + NFS
    • 在集群间共享文件
  • 通常需要各种各样的工具和库
    • 编译器: GCC / ICC /Clang / PGI
    • MPI: OpenMPI / Intel MPI / Mellanox HPC-X
    • 通信方式: Ethernet / IPoIB / UCX
    • 数学库: CuBLAS / MKL / OpenBLAS, FFTW / CuFFTW
    • 编译选项:是否启用 AVX512 指令集 / 是否开启 O3 优化
  • 使用Spack统一管理各种软件的不同版本
    • 自动管理软件包依赖
    • 一键配置 / 清理所需环境

集群运维

体力活

  • 反复装卸搬运各类硬件设备以供测试
  • 赛前后组装、拆卸集群,整理线缆、布置机柜

脑力活

  • 安装维护系统、修复问题
  • 搭建监控系统,实时监测功耗、风扇等关键信息
  • 配置网络、存储等基础设施

玄学活

  • 在集群装好之后施法以提高散热效率 ???

常见并行程序框架

MPI

OpenMp

*pthread

CUDA


【ASC】Thu培训视频笔记
http://blog.itbear666.top/2022/09/27/【ASC】Thu培训视频笔记/
作者
Zane
发布于
2022年9月27日
许可协议