跳转至

B. 小北问答:超速版

分数:100分
每题 10 分,共 100 分。如一题有多空问题,全部答对才得分。

  1. 鸡兔同笼
    (填数字)
    某厂的CPU采用了大小核架构,大核有超线程,小核没有超线程。已知物理核心数为12,逻辑核心数为16,大核数量为\underline{\quad\quad},小核数量为\underline{\quad\quad}

  2. 编程语言
    (填"是"或者"否")
    C语言中,假设有函数 void f(const void **p);,我们有 void **q;,请问不使用强制类型转换,直接调用 f(q) 是否符合 C 的规范?\underline{\quad\quad\quad}

  3. CPU Architecture
    (填数字)
    ARM架构的sve2指令集具有可变向量长度,且无需重新编译代码,就可以在不同向量长度的硬件上运行。sve2指令集的最小硬件向量长度是\underline{\quad\quad},最大硬件向量长度是\underline{\quad\quad}

  4. MISC
    (填数字)
    fp4 是一种新的数字格式,近期发布的许多硬件都增加了对 fp4 的支持。SE2M1(一位符号,两位 exponent,一位 mantissa)条件下,fp4 能精确表示的最大数字是\underline{\quad\quad},能精确表示的最小的正数是\underline{\quad\quad}
    【注意,模仿IEEE风格或OCP Microscaling Formats标准的结果都视为正确答案】

  5. 储存
    (填写字母,字母之间不要空格)
    ZNS(Zoned Namespaces)SSD是一种新型储存设备,关于传统SSD与ZNS(Zoned Namespaces)SSD的行为差异,以下哪些说法是正确的?(多选)\underline{\quad\quad\quad}

    A. 当写入一个已有数据的位置时,传统SSD会直接原地覆盖,而ZNS SSD必须先执行Zone Reset操作 B. 传统SSD的FTL会维护逻辑地址到物理地址的映射表,而ZNS SSD可以显著简化或消除这个映射过程 C. 当可用空间不足时,传统SSD会自动触发垃圾回收,而ZNS SSD需要主机端主动管理并执行显式擦除 D. 传统SSD一般支持任意位置的随机读取,而ZNS SSD只支持顺序读取 E. 传统SSD通常需要较大比例的预留空间(Over-Provisioning),而ZNS SSD可以将这部分空间暴露给用户使用

  6. OpenMPI
    (填写pattern为x.y.z,版本号的前缀v省略)
    OpenMPI 是一个开源的消息传递接口 (MPI) 实现,在高性能计算领域被广泛使用。截至2025年1月18日,OpenMPI 发布的最新稳定版本为 \underline{\quad\quad\quad} ,在此版本的 OpenMPI中内置使用的 PRRTE 的版本为 \underline{\quad\quad\quad} 。大家可以了解一下PRRTE的作用,OpenMPI 4 到 5 的架构变化,还挺有趣的。

  7. RDMA
    (填写字母,字母之间不要空格)
    RDMA 是一种高性能网络通信技术,它允许计算机直接访问远程内存,从而大大降低了通信延迟和 CPU 开销。目前,主流的 RDMA 实现包括 InfiniBand、RoCE、RoCEv2 和 iWARP。下图中从左到右的四列展示了四种 RDMA 实现的架构图,请你说出按照从左到右的顺序,说出下图中的四列分别对应了什么 RDMA 的实现架构\underline{\quad\quad\quad\quad}

    A: RoCE B: RoCEv2 C: iWARP D: InfiniBand

    2nd-qa-rdma

  8. HPCKit
    (填数字序号,数字之间不要空格)
    HPCKit 是针对鲲鹏平台深度优化的HPC基础软件,请选择以下组件的具体作用。\underline{\quad\quad\quad\quad\quad}

    A. BiSheng B. HMPI C. KML D. KBLAS E. EXAGEAR

    选项:

    1.高性能数学计算加速库

    2.基础线性代数过程库

    3.高性能通信库

    4.X86到ARM的二进制指令动态翻译软件

    5.编译器套件

  9. CXL
    (填数字,保留两位有效数字)
    在传统的AI/ML计算中,模型训练和推理通常涉及大量的数据传输,尤其是在需要在CPU和GPU之间频繁交换数据时。例如,一个深度学习模型的训练任务可能包含以下步骤:

    1.数据加载和预处理在CPU上完成。

    2.预处理后的数据从CPU传输到GPU进行训练计算。

    3.训练完成后,模型更新结果传回CPU进行后续处理。

    假设有以下条件:

    • 每次批处理需要传输的数据量为1GB。
    • GPU每秒钟可以完成10次这样的批处理。
    • 传统架构下,CPU到GPU的PCIe传输延迟为50μs,传输带宽为10GB/s。
    • CXL架构下,传输延迟降至10μs,且数据访问可直接完成,无需显式传输。
    • 假设总训练任务包含10000次批处理。比较传统架构和CXL架构下完成任务所需的总时间,计算加速比(传统架构时间 / CXL架构时间),保留两位有效数字。\underline{\quad\quad\quad}

(该题基于理想化模型,与真实情况并非完全符合)

10.量子计算
(填数字,小数形式)
量子计算是一种基于量子力学原理的计算方式,它利用量子比特的叠加态和纠缠态来进行计算,被认为是下一代计算技术。加速量子计算的模拟、数据处理等负载也是目前高性能计算领域的热点之一。

初始状态为 |0\rangle 的量子比特,经过一次Hadamard门(H门)操作后,测量得到 |0\rangle 的概率是 \underline{\quad\quad} ?经过两次Hadamard门(H门)操作后,测量得到 |0\rangle 的概率是 \underline{\quad\quad}