B. 小北问答：超速版¶

分数：100 分每题 10 分，共 100 分。如一题有多空问题，全部答对才得分。

鸡兔同笼 （填数字）某厂的 CPU 采用了大小核架构，大核有超线程，小核没有超线程。已知物理核心数为 12，逻辑核心数为 16，大核数量为 $\underline{\quad\quad}$ ，小核数量为 $\underline{\quad\quad}$ 。
编程语言 （填"是"或者"否"） C 语言中，假设有函数 void f(const void **p);，我们有 void **q;，请问不使用强制类型转换，直接调用 f(q) 是否符合 C 的规范？ $\underline{\quad\quad\quad}$
CPU Architecture （填数字） ARM 架构的 sve2 指令集具有可变向量长度，且无需重新编译代码，就可以在不同向量长度的硬件上运行。sve2 指令集的最小硬件向量长度是 $\underline{\quad\quad}$ ，最大硬件向量长度是 $\underline{\quad\quad}$ 。
MISC （填数字） fp4 是一种新的数字格式，近期发布的许多硬件都增加了对 fp4 的支持。SE2M1（一位符号，两位 exponent，一位 mantissa）条件下，fp4 能精确表示的最大数字是 $\underline{\quad\quad}$ ，能精确表示的最小的正数是 $\underline{\quad\quad}$ 。【注意，模仿 IEEE 风格或 OCP Microscaling Formats 标准的结果都视为正确答案】
储存（填写字母，字母之间不要空格） ZNS（Zoned Namespaces）SSD 是一种新型储存设备，关于传统 SSD 与 ZNS（Zoned Namespaces）SSD 的行为差异，以下哪些说法是正确的？（多选） $\underline{\quad\quad\quad}$

A. 当写入一个已有数据的位置时，传统 SSD 会直接原地覆盖，而 ZNS SSD 必须先执行 Zone Reset 操作 B. 传统 SSD 的 FTL 会维护逻辑地址到物理地址的映射表，而 ZNS SSD 可以显著简化或消除这个映射过程 C. 当可用空间不足时，传统 SSD 会自动触发垃圾回收，而 ZNS SSD 需要主机端主动管理并执行显式擦除 D. 传统 SSD 一般支持任意位置的随机读取，而 ZNS SSD 只支持顺序读取 E. 传统 SSD 通常需要较大比例的预留空间(Over-Provisioning)，而 ZNS SSD 可以将这部分空间暴露给用户使用
OpenMPI （填写 pattern 为 x.y.z，版本号的前缀 v 省略） OpenMPI 是一个开源的消息传递接口 (MPI) 实现，在高性能计算领域被广泛使用。截至 2025 年 1 月 18 日，OpenMPI 发布的最新稳定版本为 $\underline{\quad\quad\quad}$ ，在此版本的 OpenMPI 中内置使用的 PRRTE 的版本为 $\underline{\quad\quad\quad}$ 。大家可以了解一下 PRRTE 的作用，OpenMPI 4 到 5 的架构变化，还挺有趣的。
RDMA （填写字母，字母之间不要空格） RDMA 是一种高性能网络通信技术，它允许计算机直接访问远程内存，从而大大降低了通信延迟和 CPU 开销。目前，主流的 RDMA 实现包括 InfiniBand、RoCE、RoCEv2 和 iWARP。下图中从左到右的四列展示了四种 RDMA 实现的架构图，请你说出按照从左到右的顺序，说出下图中的四列分别对应了什么 RDMA 的实现架构 $\underline{\quad\quad\quad\quad}$ 。

A: RoCE B: RoCEv2 C: iWARP D: InfiniBand
HPCKit （填数字序号，数字之间不要空格） HPCKit 是针对鲲鹏平台深度优化的 HPC 基础软件，请选择以下组件的具体作用。 $\underline{\quad\quad\quad\quad\quad}$

A. BiSheng B. HMPI C. KML D. KBLAS E. EXAGEAR

选项：

1.高性能数学计算加速库

2.基础线性代数过程库

3.高性能通信库

4.X86 到 ARM 的二进制指令动态翻译软件

5.编译器套件
CXL （填数字，保留两位有效数字）在传统的 AI/ML 计算中，模型训练和推理通常涉及大量的数据传输，尤其是在需要在 CPU 和 GPU 之间频繁交换数据时。例如，一个深度学习模型的训练任务可能包含以下步骤：

1.数据加载和预处理在 CPU 上完成。

2.预处理后的数据从 CPU 传输到 GPU 进行训练计算。

3.训练完成后，模型更新结果传回 CPU 进行后续处理。

假设有以下条件：
- 每次批处理需要传输的数据量为 1GB。
- GPU 每秒钟可以完成 10 次这样的批处理。
- 传统架构下，CPU 到 GPU 的 PCIe 传输延迟为 50μs，传输带宽为 10GB/s。
- CXL 架构下，传输延迟降至 10μs，且数据访问可直接完成，无需显式传输。
- 假设总训练任务包含 10000 次批处理。比较传统架构和 CXL 架构下完成任务所需的总时间，计算加速比（传统架构时间 / CXL 架构时间），保留两位有效数字。 $\underline{\quad\quad\quad}$

（该题基于理想化模型，与真实情况并非完全符合）

10.量子计算（填数字，小数形式）量子计算是一种基于量子力学原理的计算方式，它利用量子比特的叠加态和纠缠态来进行计算，被认为是下一代计算技术。加速量子计算的模拟、数据处理等负载也是目前高性能计算领域的热点之一。

初始状态为 $|0\rangle$ 的量子比特，经过一次 Hadamard 门(H 门)操作后，测量得到 $|0\rangle$ 的概率是 $\underline{\quad\quad}$ ？经过两次 Hadamard 门(H 门)操作后，测量得到 $|0\rangle$ 的概率是 $\underline{\quad\quad}$ ？