我们可以使用Sigmoid Function来表示下面的函数

$$ y = c \frac{1}{1 + e^-(b + wx_1)} \\ y = c \ sigmoid(b + wx_1) $$

改变w可以影响中间段的宽度 改变b可以使函数左右横移 改变c可以改变函数的高度
然后比起Linear Model,我们提出了一种更加flexible的函数表达
$$ y = b + wx_1 \\ turns \ to\\ y = b + \sum \limits_{i}c_i \ sigmoid(b_i + w_ix_1)
\\
y = b + \sum \limits_{j} w_jx_j \\ turns \ to\\ y = b + \sum \limits_{i}c_i \ sigmoid(b_i + \sum \limits_{j} w_{ij}x_j)
$$

我们现在定义了gradient梯度,依然是基于梯度去更新参数
然后实际我们的标注数据是很大的,不会一次性使用所有数据来计算L,因此我们会分Batch
