【2026年华为暑期实习(AI)-5月27日-第一题- 选择题】(题目+思路+JavaC++Python解析+在线测试) 1、Swish激活函数定义为f(x)=x·sigmoid(x)。相比于ReLU,Swish的主要特点是?{ { select(1) }}它是非单调的它是完全非负的它的计算成本比ReLU低得多它在负区间有平滑的曲线,可能保留更多信息2、在使用 ZeRO1 (Zero Redundancy Optimizer) 优化的数据并行中,每个GPU计算完局部梯度后,通过哪两个基础通信算子以实现梯度的聚合和分片?{ { select(2) }}All-Gather和BroadcastBroadcast和ReduceScatter和All-ReduceReduce-Scatter和All-Gather3、在表格数据处理中,若某列包含连续数值,另一列包含类别标签(如"男/女"),为了输入神经网络,通常的做法是?{ { select(3) }}全部归一化为0-1之间连续数值归一化,类别标签 One-Hot 编码全部转换为字符串连续数值 One-Hot 编码,类别标签归一化4、在对大模型(LLM)的权重或激活值进行INT8或FP8量化时,通常假设数据在经过Batch Normalization或大量累加后近似