Sigmoid

针对线性模型的优化

我们可以使用Sigmoid Function来表示下面的函数

image.png

$$ y = c \frac{1}{1 + e^-(b + wx_1)} \\ y = c \ sigmoid(b + wx_1) $$

image.png

改变w可以影响中间段的宽度 改变b可以使函数左右横移 改变c可以改变函数的高度

然后比起Linear Model,我们提出了一种更加flexible的函数表达

$$ y = b + wx_1 \\ turns \ to\\ y = b + \sum \limits_{i}c_i \ sigmoid(b_i + w_ix_1)

\\

y = b + \sum \limits_{j} w_jx_j \\ turns \ to\\ y = b + \sum \limits_{i}c_i \ sigmoid(b_i + \sum \limits_{j} w_{ij}x_j)

$$

损失函数计算与参数优化

image.png

我们现在定义了gradient梯度,依然是基于梯度去更新参数

然后实际我们的标注数据是很大的,不会一次性使用所有数据来计算L,因此我们会分Batch

image.png

  1. 用第一个batch的数据算出当前损失函数的值,基于这个值算出第一个梯度,然后用这个梯度去更新损失函数的参数。
  2. 再用第二个batch的数据算出当前损失函数的值,……
  3. ……
  4. 使用最后一个batch的数据算出当前损失函数的值,……
  5. 一轮下来所有Batch数据使用完,称为一个epoch