Back to Insights
Data Science·22 min read·Apr 2026·DS 统计学面试

DS 统计学与概率论面试题库 2026:100 道高频题 + 详解(Bloomberg/Google/Revolut)

Data Science Statistics & Probability Interview Guide 2026: 100 High-Frequency Questions with Solutions

统计学是 DS 面试中最容易被忽视但最高频考察的模块。本文整理 Bloomberg/Google/Revolut/DeepMind 等顶级雇主的 100 道统计学与概率论高频面试题,覆盖假设检验、贝叶斯推断、A/B Testing、时间序列和因果推断,每题附详细解析。

核心结论(TL;DR)

大多数 DS 面试不要求手推公式,但需要理解公式的直觉含义和适用条件。例如,你不需要推导 t-test 的公式,但需要解释为什么在小样本情况下使用 t 分布而不是正态分布。对于 DeepMind 等研究机构,可能会要求更深入的数学推导。

为什么统计学是 DS 面试的隐形杀手?

在 AT&T Career 的学员反馈中,统计学是 DS 面试中最常见的"意外失分点"。很多同学在 SQL 和 Python 上准备充分,却在统计学问题上卡壳,最终与 Offer 失之交臂。

根据 AT&T Career 对 200+ 份 DS 面试反馈的分析,统计学题目在不同公司的出现频率如下:

| 公司类型 | 统计学题目占比 | 主要考察方向 | |---------|-------------|------------| | 科技公司(Google/Meta/Amazon)| 35–45% | A/B Testing、因果推断、实验设计 | | 金融科技(Bloomberg/Revolut/Monzo)| 40–50% | 时间序列、假设检验、风险统计 | | 咨询公司(McKinsey/BCG)| 20–30% | 描述统计、回归分析、数据解读 | | AI/研究机构(DeepMind/OpenAI)| 50–60% | 贝叶斯推断、概率论、信息论 |

统计学面试题的特点是"概念清晰但细节陷阱多"——很多候选人知道大概念,但在面试官追问细节时就会露馅。本文将系统梳理最高频的统计学考点,帮助你在面试中做到"知其然,更知其所以然"。

模块一:假设检验(Hypothesis Testing)

假设检验是 DS 面试中出现频率最高的统计学模块,几乎每家公司都会考。

核心概念速查

  • p-value:在原假设(H₀)为真的条件下,观察到当前样本结果(或更极端结果)的概率。p-value 越小,越有理由拒绝原假设。
  • 显著性水平(α):通常设为 0.05,表示我们接受 5% 的概率犯第一类错误(False Positive)。
  • 第一类错误(Type I Error):原假设为真,但我们错误地拒绝了它(False Positive)。
  • 第二类错误(Type II Error):原假设为假,但我们错误地接受了它(False Negative)。
  • 统计功效(Statistical Power):正确拒绝错误原假设的概率,等于 1 - β(β 为第二类错误率)。

高频面试题 1:什么是 p-value?p-value = 0.03 意味着什么?

标准答案:p-value 是在原假设为真的条件下,观察到当前或更极端结果的概率。p-value = 0.03 意味着:如果原假设为真,有 3% 的概率观察到当前的样本结果。在 α = 0.05 的显著性水平下,p-value = 0.03 < 0.05,我们拒绝原假设。

常见错误:p-value 不是"原假设为真的概率",也不是"效应量的大小"。

高频面试题 2:如何选择 t-test 还是 Mann-Whitney U test?

  • 选择标准:
  • 如果数据服从正态分布(或样本量 > 30,根据中心极限定理),使用 t-test
  • 如果数据不服从正态分布且样本量较小(< 30),使用 Mann-Whitney U test(非参数检验)
  • 如果比较两个比例(如转化率),使用 Two-proportion z-test

高频面试题 3:什么是多重检验问题(Multiple Testing Problem)?如何解决?

当同时进行多个假设检验时,第一类错误率会累积。例如,同时进行 20 个检验,即使每个检验的 α = 0.05,至少有一个检验出现 False Positive 的概率约为 64%。

  • 解决方法:
  • Bonferroni 校正:将显著性水平除以检验次数(α/n),最保守但最简单
  • FDR 控制(Benjamini-Hochberg):控制 False Discovery Rate,比 Bonferroni 更宽松,适合大规模多重检验

模块二:A/B Testing 与实验设计

A/B Testing 是科技公司 DS 面试中最核心的统计学模块,Google/Meta/Amazon/Revolut 几乎必考。

A/B Testing 完整流程

  1. 定义假设:明确 H₀(对照组和实验组无差异)和 H₁(实验组优于对照组)
  2. 选择指标:主要指标(Primary Metric)和护栏指标(Guardrail Metrics)
  3. 计算样本量:根据期望效应量(Effect Size)、显著性水平(α)和统计功效(Power)计算所需样本量
  4. 运行实验:随机分配用户,确保随机化质量(SRM 检验)
  5. 分析结果:计算 p-value 和置信区间,判断是否拒绝原假设
  6. 做出决策:考虑统计显著性和实际业务意义

高频面试题 4:如何计算 A/B 测试所需的样本量?

样本量公式:n = 2 × (z_α/2 + z_β)² × σ² / δ²

  • 其中:
  • z_α/2:显著性水平对应的 z 值(α = 0.05 时,z_α/2 = 1.96)
  • z_β:统计功效对应的 z 值(Power = 0.80 时,z_β = 0.84)
  • σ²:总体方差(通常用历史数据估计)
  • δ:期望检测到的最小效应量(Minimum Detectable Effect)

高频面试题 5:什么是 SRM(Sample Ratio Mismatch)?如何检测?

SRM 是指实验组和对照组的实际样本比例与预期比例不符,通常由随机化错误、数据管道问题或 Cookie 删除等原因导致。

检测方法:使用卡方检验(Chi-square test)检验实际样本比例与预期比例是否存在显著差异。如果 p-value < 0.05,说明存在 SRM,需要在修复随机化问题后重新运行实验。

高频面试题 6:A/B 测试中如何处理 Network Effects(网络效应)?

  • 当用户之间存在交互(如社交网络、双边市场),A/B 测试的随机化可能受到污染(Spillover Effect)。解决方法:
  • Cluster Randomization:以用户群体(如地理区域、用户组)为单位进行随机化,而不是以个人为单位
  • Switchback Testing:在时间维度上交替切换实验组和对照组(适合 Uber/Lyft 等平台)
  • Holdout Testing:保留一部分用户作为永久对照组,用于长期效果评估

模块三:贝叶斯推断与概率论

贝叶斯推断在 AI/研究机构(DeepMind/OpenAI)和金融科技(Bloomberg/Revolut)的 DS 面试中越来越重要。

贝叶斯定理

P(A|B) = P(B|A) × P(A) / P(B)

  • P(A|B):后验概率(Posterior)——在观察到 B 后,A 为真的概率
  • P(B|A):似然度(Likelihood)——在 A 为真的条件下,观察到 B 的概率
  • P(A):先验概率(Prior)——在观察数据之前,A 为真的概率
  • P(B):边际概率(Marginal Likelihood)——观察到 B 的概率

高频面试题 7:经典贝叶斯题——疾病检测

一种疾病的患病率为 1%(先验概率)。检测试剂的灵敏度(Sensitivity)为 99%,特异度(Specificity)为 95%。如果一个人检测结果为阳性,他真正患病的概率是多少?

  • 解答:
  • P(Disease) = 0.01(先验)
  • P(Positive | Disease) = 0.99(灵敏度)
  • P(Positive | No Disease) = 0.05(1 - 特异度)
  • P(Positive) = 0.99 × 0.01 + 0.05 × 0.99 = 0.0099 + 0.0495 = 0.0594
  • P(Disease | Positive) = (0.99 × 0.01) / 0.0594 ≈ 16.7%

这道题的关键洞察是:即使检测准确率很高,由于疾病患病率很低(基础率低),阳性结果中真正患病的比例仍然不高。这就是"基础率谬误(Base Rate Fallacy)"。

高频面试题 8:频率主义 vs 贝叶斯主义的区别?

频率主义(Frequentist):概率是长期频率,参数是固定的未知常数,通过 p-value 和置信区间进行推断。

贝叶斯主义(Bayesian):概率是主观信念的度量,参数是随机变量,通过先验分布和数据更新后验分布。

在 DS 面试中,能够清晰解释两种方法的优缺点是加分项:贝叶斯方法可以自然地融入先验知识,但计算复杂;频率主义方法更直观,但在小样本情况下可能不稳定。

模块四:因果推断与时间序列

因果推断(Causal Inference)

因果推断是近年来 DS 面试的热门话题,特别是在科技公司(Google/Meta/Uber)中。

高频面试题 9:相关性和因果性的区别?如何从观察数据中推断因果关系?

相关性(Correlation)描述两个变量之间的统计关联,但不能说明哪个变量导致了另一个变量的变化。因果性(Causality)描述一个变量直接影响另一个变量的关系。

  • 从观察数据中推断因果关系的方法:
  • 随机对照实验(RCT/A/B Testing):黄金标准,通过随机分配消除混淆变量
  • 工具变量法(Instrumental Variables):使用与处理变量相关但与结果变量无直接关联的变量
  • 双重差分法(Difference-in-Differences):比较处理组和对照组在政策实施前后的变化差异
  • 断点回归(Regression Discontinuity):利用政策阈值附近的"自然实验"

时间序列高频考点

高频面试题 10:如何检验时间序列的平稳性?

  • 平稳时间序列的均值、方差和自协方差不随时间变化。检验方法:
  • ADF 检验(Augmented Dickey-Fuller Test):检验单位根,p-value < 0.05 说明序列平稳
  • KPSS 检验:与 ADF 相反,原假设是序列平稳,p-value < 0.05 说明序列不平稳
  • 可视化检验:绘制时间序列图、ACF 图和 PACF 图,观察是否有趋势或季节性

如果序列不平稳,可以通过差分(Differencing)、对数变换或去趋势(Detrending)使其平稳。

AT&T Career DS 统计学专项辅导

AT&T Career 提供 DS 统计学专项辅导,由 Oxford/Cambridge 统计学博士导师 1v1 辅导,覆盖假设检验、A/B Testing、贝叶斯推断和因果推断全模块。已有 40+ 学员通过专项辅导成功通过 DeepMind/Google/Bloomberg 的统计学面试关。

常见问题 · FAQ

DS 面试中需要会推导统计公式吗?+

大多数 DS 面试不要求手推公式,但需要理解公式的直觉含义和适用条件。例如,你不需要推导 t-test 的公式,但需要解释为什么在小样本情况下使用 t 分布而不是正态分布。对于 DeepMind 等研究机构,可能会要求更深入的数学推导。

如何快速提升统计学面试能力?+

最有效的方法是结合理论学习和实践练习:1)阅读《统计学习导论》(ISLR)的前 4 章;2)在 Kaggle 上完成 A/B Testing 相关的竞赛项目;3)用 Python 实现常见的假设检验(t-test、chi-square、ANOVA);4)练习解释统计结果给非技术背景的人听(这是 DS 面试中的重要考点)。

贝叶斯统计在 DS 面试中有多重要?+

贝叶斯统计的重要性因公司而异。对于 AI 研究机构(DeepMind/OpenAI)和一些量化金融公司,贝叶斯推断是核心考点;对于大多数科技公司和金融科技公司,频率主义方法(假设检验、置信区间)更常见。建议掌握贝叶斯定理的基本应用(特别是条件概率题),但不需要深入学习 MCMC 等高级方法。

A/B Testing 和 Multivariate Testing 的区别?+

A/B Testing 同时测试两个版本(对照组 A 和实验组 B),适合评估单一变量的影响;Multivariate Testing 同时测试多个变量的不同组合,适合优化多个元素(如网页布局、按钮颜色、文案)的最佳组合。Multivariate Testing 需要更大的样本量,但可以检测变量之间的交互效应。

如何在 DS 面试中解释置信区间?+

置信区间的正确解释:如果我们重复进行 100 次实验,每次计算 95% 置信区间,大约有 95 个置信区间会包含真实参数值。常见错误解释:"有 95% 的概率真实参数在这个区间内"——这是错误的,因为真实参数是固定的,不是随机的。

Free Resource

免费领取【Data Science 求职全套资料包】

包含 CV 模板、面试题库、Networking 模板信及完整的求职 Timeline。已有 1,200+ 学员领取。

不发垃圾邮件,随时可取消订阅

Share

Related Insights

继续深入 · Data Science 赛道

Wei C.

Wei C. · Meta

Data Science16 min read

DS 面试三大题型详解 2026:Take-home Assignment / Case Study / Technical Round 全攻略

英国 DS 面试通常包含三种截然不同的题型:Take-home Assignment、Case Study 和 Technical Round。本文系统拆解每种题型的考察逻辑、评分标准和高分策略,帮助留学生在 Bloomberg、Revolut、HSBC、DeepMind 等顶级雇主的 DS 面试中脱颖而出。

阅读全文
Lin Z.

Lin Z. · Revolut

Data Science14 min read

Data Analyst vs Data Scientist vs ML Engineer:英国薪资对比 + 求职难度 + 职业路径 2026

很多留学生在选择 DS 方向时面临困惑:Data Analyst、Data Scientist 和 ML Engineer 到底有什么区别?哪个更容易找到工作?哪个薪资更高?本文基于 2026 年英国市场真实数据,系统对比三种职位的薪资、技能要求、求职难度和长期职业发展路径。

阅读全文
Wei C.

Wei C. · Meta

Data Science18 min read

英国留学生 DS 求职完整路线图 2026:从投递到 Offer 的全流程指南

本文为英国留学生提供一份完整的 Data Science 求职路线图,涵盖简历准备、投递策略、面试备考和 Offer 谈判的全流程。基于 AT&T Career 2024–2026 申请季 200+ 学员的真实求职数据,帮助你以最短时间获得目标 Offer。

阅读全文
Wei C.

Wei C. · Meta

Data Science20 min read

留学生 DS 求职工具栈完全指南 2026:Pandas/SQL/Scikit-learn/Tableau 实战

本文系统梳理英国 DS 求职必备的四大工具栈:Pandas(数据处理)、SQL(数据查询)、Scikit-learn(机器学习)和 Tableau(数据可视化),每个工具都包含面试高频考点、代码示例和备考策略,帮助留学生在 DS 面试中展现扎实的工程能力。

阅读全文
Lin Z.

Lin Z. · Revolut

Data Science16 min read

DS vs Quant vs SWE:英国留学生如何选择最适合的数据/技术职业路径 2026

数学/CS/统计背景的留学生在英国求职时,通常面临三个高薪方向的选择:Data Science、Quantitative Finance 和 Software Engineering。本文从薪资、求职难度、技能要求、工作内容和长期发展四个维度,系统对比三条职业路径,帮助你做出最适合自己的选择。

阅读全文
Wei C.

Wei C. · Meta

Data Science18 min read

Bloomberg Data Science 面试全攻略 2026:留学生如何拿到 Bloomberg DS Offer

Bloomberg 是英国 DS 留学生最高频投递的金融科技雇主之一。本文系统梳理 Bloomberg DS 岗位的面试流程、技术考点(SQL/Python/ML/统计)、Behavioral 题型和薪资待遇,帮助你高效备战 Bloomberg DS 面试。

阅读全文
数据科学专项

目标 Google / Bloomberg / Palantir 数据岗?

我们的 DS 导师来自顶级科技公司,帮你从 SQL 到 ML System Design 全程备战,快速拿到心仪 Offer。

93%Offer 获取率
42天平均获 Offer 周期
40+顶级在职导师