深入理解随机梯度下降：SGD对比BGD, MBGD, SGD的数学原理与应用

在线计算网 · 发布于 2025-02-18 17:03:03 · 已经有3人使用

深入理解随机梯度下降：SGD对比BGD, MBGD, SGD的数学原理与应用

引言

在机器学习和深度学习中，优化算法是核心之一。本文将深入探讨随机近似与随机梯度下降（SGD）及其变体（BGD, MBGD, SGD），帮助读者理解其数学原理和应用。

什么是梯度下降

梯度下降是一种优化算法，用于最小化目标函数。其基本思想是通过迭代更新参数，使目标函数值逐渐减小。

批量梯度下降（BGD）

BGD在每次迭代中使用全部训练数据计算梯度，更新参数。公式如下：

\theta = \theta - \alpha \cdot \nabla J(\theta; X, y)

优点：稳定，收敛性好。缺点：计算量大，速度慢。

小批量梯度下降（MBGD）

MBGD每次迭代使用一部分训练数据（小批量）计算梯度。公式与BGD类似，但数据集为小批量。优点：平衡了计算量和收敛速度。缺点：需选择合适的小批量大小。

随机梯度下降（SGD）

SGD每次迭代只使用一个样本计算梯度。公式如下：

\theta = \theta - \alpha \cdot \nabla J(\theta; x^{(i)}, y^{(i)})

优点：计算量小，速度快。缺点：波动大，收敛不稳定。

数学原理对比

BGD

BGD的梯度计算基于全数据集，确保了梯度的准确性，但计算复杂度高。

MBGD

MBGD的梯度计算基于小批量数据，兼顾了计算效率和梯度准确性。

SGD

SGD的梯度计算基于单个样本，计算效率最高，但梯度波动大。

示例代码

以下是一个简单的Python示例，展示SGD的应用：

import numpy as np
生成数据
X = np.array([[1, 2], [2, 3], [3, 4]])
y = np.array([3, 5, 7])
初始化参数
theta = np.zeros(2)
alpha = 0.01
SGD迭代
for epoch in range(100):
for i in range(len(X)):
gradient = X[i] * (np.dot(X[i], theta) - y[i])
theta -= alpha * gradient
print("Optimized parameters:", theta)