别再死记公式了！用Python和NumPy手把手带你‘猜’出模型参数（极大似然估计实战）

发布时间：2026/5/31 3:11:23

用Python实战理解极大似然估计从数据中“猜”出模型参数记得第一次接触极大似然估计时我被那些数学公式和抽象概念绕得晕头转向。直到有一天导师让我用代码实现一个简单的例子那些晦涩的理论突然变得清晰起来。这就是为什么我坚信对于统计学习方法最好的理解方式就是动手实践。本文将带你用Python和NumPy通过一个具体的例子估计正态分布的参数一步步实现极大似然估计的完整流程。我们不会死记公式而是通过代码和可视化直观地理解“模型已定参数未知”和“最大化概率”的核心思想。1. 准备工作与环境配置在开始之前我们需要准备好Python环境和必要的库。推荐使用Anaconda创建虚拟环境这样可以避免与其他项目的依赖冲突。首先安装必要的库pip install numpy matplotlib scipy这些库将帮助我们完成以下工作NumPy进行高效的数值计算Matplotlib可视化数据和结果SciPy提供优化工具和统计函数接下来我们导入这些库import numpy as np import matplotlib.pyplot as plt from scipy import stats from scipy.optimize import minimize2. 理解极大似然估计的核心思想让我们从一个简单的例子开始理解极大似然估计。假设你有一个装有两种颜色球的箱子但不知道每种颜色的数量。你连续抽取了5次结果都是红球。你会如何估计箱子中球的分布直觉告诉我们箱子中可能红球比黑球多得多。这就是极大似然估计的基本思想选择使观察到的数据最有可能发生的参数值。在统计学中这可以形式化为定义一个概率模型如正态分布写出似然函数给定参数下数据出现的概率找到使似然函数最大化的参数值对于正态分布我们需要估计两个参数均值μ和标准差σ。我们的目标是找到使观察到的数据最有可能的μ和σ组合。3. 生成模拟数据为了更好地理解我们首先生成一些模拟数据。假设真实的正态分布参数为μ5σ2np.random.seed(42) # 设置随机种子保证结果可复现 true_mu, true_sigma 5, 2 sample_size 100 data np.random.normal(true_mu, true_sigma, sample_size)让我们可视化这些数据plt.figure(figsize(10, 6)) plt.hist(data, bins20, densityTrue, alpha0.6, colorg) x np.linspace(min(data), max(data), 100) plt.plot(x, stats.norm.pdf(x, true_mu, true_sigma), r-, lw2, labelfTrue dist: μ{true_mu}, σ{true_sigma}) plt.xlabel(Value) plt.ylabel(Density) plt.title(Simulated Normal Distribution Data) plt.legend() plt.show()这段代码会显示一个直方图展示我们的模拟数据分布以及真实的概率密度函数曲线。4. 定义似然函数对于正态分布单个数据点的概率密度函数为$$ f(x|\mu,\sigma) \frac{1}{\sigma\sqrt{2\pi}} \exp\left(-\frac{(x-\mu)^2}{2\sigma^2}\right) $$对于独立同分布的样本联合概率似然函数是各点概率密度的乘积$$ L(\mu,\sigma|x_1,...,x_n) \prod_{i1}^n f(x_i|\mu,\sigma) $$在实际计算中我们通常使用对数似然函数因为乘积容易导致数值下溢而且对数转换后计算更简单def log_likelihood(params, data): mu, sigma params if sigma 0: # 标准差必须为正 return -np.inf return np.sum(stats.norm.logpdf(data, locmu, scalesigma))5. 最大化似然函数现在我们需要找到使对数似然函数最大化的μ和σ。这可以通过优化算法实现initial_guess [np.mean(data), np.std(data)] # 使用样本均值和标准差作为初始猜测 # 由于我们要最大化对数似然而优化器通常最小化函数所以取负值 def neg_log_likelihood(params, data): return -log_likelihood(params, data) result minimize(neg_log_likelihood, initial_guess, args(data,), bounds((None, None), (1e-6, None))) # σ必须为正 mle_mu, mle_sigma result.x print(fMLE estimates: μ{mle_mu:.4f}, σ{mle_sigma:.4f})6. 可视化似然函数为了更直观地理解我们可以可视化似然函数在不同参数值下的表现# 创建参数网格 mu_vals np.linspace(4, 6, 100) sigma_vals np.linspace(1.5, 2.5, 100) log_likelihood_vals np.zeros((len(mu_vals), len(sigma_vals))) for i, mu in enumerate(mu_vals): for j, sigma in enumerate(sigma_vals): log_likelihood_vals[i, j] log_likelihood([mu, sigma], data) # 找到最大值位置 max_idx np.unravel_index(np.argmax(log_likelihood_vals), log_likelihood_vals.shape) max_mu, max_sigma mu_vals[max_idx[0]], sigma_vals[max_idx[1]] # 绘制热图 plt.figure(figsize(10, 8)) plt.imshow(log_likelihood_vals, extent[sigma_vals[0], sigma_vals[-1], mu_vals[-1], mu_vals[0]], aspectauto, cmapviridis) plt.colorbar(labelLog-Likelihood) plt.scatter(max_sigma, max_mu, colorred, s100, labelMLE estimate) plt.xlabel(σ) plt.ylabel(μ) plt.title(Log-Likelihood Function) plt.legend() plt.show()这张热图展示了不同参数组合下的对数似然值红色点标记了最大值位置也就是我们的MLE估计。7. 与样本统计量比较有趣的是对于正态分布极大似然估计与样本统计量是一致的sample_mean np.mean(data) sample_std np.std(data, ddof0) # 注意这里使用n而不是n-1 print(fSample mean: {sample_mean:.4f}) print(fSample std (MLE): {sample_std:.4f}) print(fMLE estimates: μ{mle_mu:.4f}, σ{mle_sigma:.4f})你会注意到样本均值和MLE估计的μ几乎相同样本标准差使用n而不是n-1作为分母与MLE估计的σ也几乎相同。8. 验证估计结果最后让我们将估计的分布与真实分布和样本直方图进行比较plt.figure(figsize(10, 6)) plt.hist(data, bins20, densityTrue, alpha0.6, colorg, labelData histogram) x np.linspace(min(data), max(data), 100) # 真实分布 plt.plot(x, stats.norm.pdf(x, true_mu, true_sigma), r-, lw2, labelfTrue dist: μ{true_mu}, σ{true_sigma}) # MLE估计的分布 plt.plot(x, stats.norm.pdf(x, mle_mu, mle_sigma), b--, lw2, labelfMLE est: μ{mle_mu:.2f}, σ{mle_sigma:.2f}) plt.xlabel(Value) plt.ylabel(Density) plt.title(Comparison of True Distribution and MLE Estimate) plt.legend() plt.show()从图中可以看到我们的MLE估计非常接近真实分布验证了方法的有效性。9. 扩展到其他分布虽然我们以正态分布为例但极大似然估计可以应用于任何参数化概率分布。例如对于泊松分布# 生成泊松分布数据 true_lambda 3 poisson_data np.random.poisson(true_lambda, 100) # 定义泊松分布的对数似然函数 def poisson_log_likelihood(lam, data): if lam 0: return -np.inf return np.sum(stats.poisson.logpmf(data, lam)) # 最大化对数似然 result minimize(lambda lam: -poisson_log_likelihood(lam, poisson_data), x0np.mean(poisson_data), bounds[(1e-6, None)]) mle_lambda result.x[0] print(fTrue λ: {true_lambda}, MLE estimate: {mle_lambda:.4f})10. 实际应用中的注意事项在实际应用中使用极大似然估计时需要注意以下几点初始值选择优化算法对初始值敏感选择合理的初始值如样本统计量可以避免收敛到局部最优。数值稳定性对于小概率事件直接计算似然可能导致数值下溢因此总是使用对数似然。边界条件确保参数在有效范围内如标准差必须为正。样本大小MLE在大样本下表现良好但在小样本中可能有偏差。模型误设如果模型假设不正确MLE估计可能不准确。11. 进阶使用自动微分简化计算对于复杂模型手动推导导数可能很困难。我们可以使用自动微分工具如JAX# 需要先安装JAX: pip install jax jaxlib import jax import jax.numpy as jnp from jax.scipy import stats as jstats def jax_log_likelihood(params, data): mu, sigma params return jnp.sum(jstats.norm.logpdf(data, locmu, scalesigma)) # 计算梯度和Hessian矩阵 grad_func jax.grad(jax_log_likelihood) hessian_func jax.hessian(jax_log_likelihood) # 在MLE估计点评估 params jnp.array([mle_mu, mle_sigma]) gradient grad_func(params, data) hessian hessian_func(params, data) print(fGradient at MLE: {gradient}) print(fHessian at MLE:\n{hessian})这种方法特别适用于复杂模型可以避免手动推导的繁琐和错误。12. 与Scipy内置函数比较最后我们验证一下我们的结果与Scipy内置的拟合函数是否一致scipy_mu, scipy_sigma stats.norm.fit(data) print(fOur MLE estimates: μ{mle_mu:.4f}, σ{mle_sigma:.4f}) print(fScipy fit results: μ{scipy_mu:.4f}, σ{scipy_sigma:.4f})你会发现两者结果几乎相同这进一步验证了我们实现的正确性。

别再用MNIST了！用路透社数据集实战多分类，解决新闻主题自动归类问题

告别MNIST：用路透社新闻数据集打造专业级多分类模型当你已经能在MNIST上轻松达到99%准确率时，是否感觉这些"玩具数据集"越来越像舒适区？是时候挑战一个真实世界任务了——新闻主题自动分类。路透社数据集提供了46个新闻类别&#x…

2026/5/31 3:11:23 阅读更多

手把手教你用Docker Compose一键部署WVP-PRO+ZLM+录像服务（含Nginx反代）

基于Docker Compose的GB28181视频平台全栈部署指南在视频监控与物联网应用快速发展的今天，GB28181标准作为国内安防领域的通用协议，其重要性日益凸显。本文将带您从零开始，通过Docker Compose编排技术，构建一个包含WVP-PRO、ZLMED…

2026/5/31 3:11:23 阅读更多

别再傻傻分不清了！一文搞懂DDR ECC的四种类型：Side-band、Inline、On-die和Link ECC

DDR ECC技术全景解析：从原理到选型实战在服务器崩溃的案例中，近40%的硬件故障与内存错误直接相关。这个数字对于任何一位硬件工程师来说都足够触目惊心——当我们讨论DDR ECC技术时，本质上是在探讨如何构建更可靠的计算基石。不同于普通消费…

2026/5/31 3:11:23 阅读更多

双系统党必看：一个Python脚本，彻底解决Win10与macOS时间不同步的烦恼

双系统时间同步终极方案：Python自动化脚本全解析每次切换Windows和macOS系统时，右下角的时间总是莫名其妙地快了或慢了8小时？访问银行网站时突然提示"证书无效"？这些困扰双系统用户的典型问题，根源在于两大操…

2026/5/31 3:52:06 阅读更多

基于小程序的论坛网站毕设

博主介绍：✌ 专注于Java,python,✌关注✌私信我✌具体的问题，我会尽力帮助你。一、研究目的本研究旨在构建一个基于小程序的论坛网站系统，以解决传统论坛平台在移动端交互体验不足、信息传播效率低下以及社区活跃度难以维持等问题。随着移动互…

2026/5/31 3:52:06 阅读更多

基于小程序的网上摄影工作室的开发与实现毕业设计源码

博主介绍：✌ 专注于Java,python,✌关注✌私信我✌具体的问题，我会尽力帮助你。一、研究目的本研究旨在构建一个基于微信小程序平台的智能化网上摄影工作室系统，以解决传统摄影服务模式中存在的资源分配不均、服务效率低下以及用户体验碎片化等…

2026/5/31 3:52:06 阅读更多

保姆级教程：用Ansys Workbench给BGA焊点做‘体检’——从建模到模态/随机振动分析全流程

从零开始掌握BGA焊点可靠性分析：Ansys Workbench全流程实战指南在电子封装领域，BGA（球栅阵列）焊点的可靠性直接决定了整个封装结构的寿命。想象一下，当你设计的电路板在高温环境下工作，或者经历运输途中的持…

2026/5/31 3:51:46 阅读更多

NeuroGaze：EEG与眼动追踪融合的VR免手交互系统

1. 项目概述NeuroGaze是一种创新的混合交互系统，它巧妙地将脑电图（EEG）和眼动追踪技术结合起来，为虚拟现实（VR）环境提供了一种全新的免手操作方案。作为一名长期关注人机交互领域的研究者，我对这…

2026/5/31 3:51:26 阅读更多

免费实时屏幕翻译神器Translumo：游戏外语对话和视频字幕的终极解决方案

免费实时屏幕翻译神器Translumo：游戏外语对话和视频字幕的终极解决方案【免费下载链接】Translumo Advanced real-time screen translator for games, hardcoded subtitles in videos, static text and etc. 项目地址: https://gitcode.com/gh_mirrors/tr/Transl…

2026/5/31 3:49:45 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

Realtek 8188GU网卡驱动故障深度修复指南：从原理到实战当设备管理器里那个顽固的黄色感叹号挥之不去，而你已经尝试了所有"标准操作"——Windows自动更新、第三方驱动工具、甚至重启大法——却依然无济于事时，是时候换个思路了。这篇…

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

AnolisOS 8.8安装源配置实战指南：从诊断到解决方案的全流程解析当你在安装AnolisOS 8.8时遇到"设置基础软件仓库时出错"的提示，这通常意味着系统无法访问或识别安装源。这个问题看似简单，但背后可能涉及网络配置、镜像选择、启动参…

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

1. 项目概述与核心思路最近在整理工作室的电子元件，翻出来几个闲置的街机按钮和一块树莓派Pico，灵机一动，决定做个简单又有趣的反应速度测试游戏。这个项目非常适合想入门嵌入式开发的朋友，它不涉及复杂的传感器和通信协议&#x…

2026/5/31 0:03:49 阅读更多

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

2026/5/31 0:02:08 阅读更多

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

2026/5/31 0:02:08 阅读更多

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

2026/5/31 0:03:49 阅读更多

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案【免费下载链接】MPC-BE MPC-BE – универсальный проигрыватель аудио и видеофайлов для операционной системы Windows. 项目地址:…

2026/5/30 3:46:38 阅读更多

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南【免费下载链接】STL-Volume-Model-Calculator STL Volume Model Calculator Python 项目地址: https://gitcode.com/gh_mirrors/st/STL-Volume-Model-Calculator 你是否曾经为3D打印项目…

2026/5/30 3:48:20 阅读更多

通过Taotoken CLI工具一键配置团队开发环境与模型密钥

通过Taotoken CLI工具一键配置团队开发环境与模型密钥 1. CLI工具安装与基本使用 Taotoken提供的CLI工具可通过npm全局安装或直接使用npx运行。对于需要频繁使用CLI的团队，推荐全局安装： npm install -g taotoken/taotoken对于临时使用或项目级配置&a…

2026/5/30 22:39:05 阅读更多

相关文章

别再用MNIST了！用路透社数据集实战多分类，解决新闻主题自动归类问题

手把手教你用Docker Compose一键部署WVP-PRO+ZLM+录像服务（含Nginx反代）

别再傻傻分不清了！一文搞懂DDR ECC的四种类型：Side-band、Inline、On-die和Link ECC

双系统党必看：一个Python脚本，彻底解决Win10与macOS时间不同步的烦恼

基于小程序的论坛网站毕设

基于小程序的网上摄影工作室的开发与实现毕业设计源码

保姆级教程：用Ansys Workbench给BGA焊点做‘体检’——从建模到模态/随机振动分析全流程

NeuroGaze：EEG与眼动追踪融合的VR免手交互系统

免费实时屏幕翻译神器Translumo：游戏外语对话和视频字幕的终极解决方案

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

Win10/Win11下Realtek 8188GU网卡驱动感叹号？别急着扔，试试这个手动安装的野路子

AnolisOS 8.8安装源配置踩坑实录：从‘设置基础软件仓库时出错’到成功联网的保姆级指南

基于树莓派Pico的反应速度测试游戏：从GPIO编程到状态机实战

MPC-BE：基于DirectShow架构的专业级开源媒体播放解决方案

如何快速计算3D模型体积和重量：STL-Volume-Model-Calculator终极指南

通过Taotoken CLI工具一键配置团队开发环境与模型密钥