0%

科普二(NTD+STUMIS+过拟合+ABC)

WHAT IS NTD ?

通常 NTD 是指新台币,New Taiwan Dollar。

WHAT IS STUMIS ?

Student Management Information System 学生管理信息系统

过拟合

过拟合(Overfitting)是机器学习中的一种现象,指模型在训练数据上表现得非常好(即误差很小),但在测试数据或新数据上表现得很差。换句话说,模型过于“记住”了训练数据的细节和噪声,而没有学习到数据的总体规律或本质特征。

过拟合的表现

  1. 训练集误差很小:模型在训练集上的预测表现非常好。

  2. 测试集误差很大:模型在测试集上的表现却很差,无法很好地推广到新数据。

  3. 对噪声过于敏感:模型可能学习到了训练数据中的噪声和异常值,而不是数据的真实模式。

为什么会发生过拟合?

  1. 模型太复杂
  • 模型的自由度过高(如神经网络的层数或参数过多),能够拟合训练数据中的每个细节。
  1. 训练数据不足
  • 训练数据量过少,使得模型容易记住数据,而不是泛化规律。
  1. 训练时间过长
  • 模型训练时间过长,逐渐对训练数据“死记硬背”。
  1. 数据噪声
  • 数据中包含较多的噪声或无关特征,模型将这些噪声也视为模式。

如何防止过拟合?

  1. 增加数据量
  • 收集更多的训练数据,帮助模型更好地学习数据的总体分布。
  1. 简化模型
  • 减少模型的复杂度(如降低神经网络的层数、减少参数数量)。
  1. 正则化
  • 添加正则化项(如L1或L2正则化),限制模型参数的大小,防止过于复杂。
  1. 使用验证集
  • 在训练过程中通过验证集监控模型性能,防止训练时间过长。
  1. 提前停止(Early Stopping)
  • 在验证集误差开始增大时停止训练。
  1. 数据增强
  • 使用数据增强技术生成更多变种的训练数据(如图像旋转、裁剪等)。
  1. Dropout(神经网络中常用):
  • 随机丢弃一部分神经元,防止网络过于依赖特定节点。

过拟合的简单例子

假设你要用一个模型拟合一个散点图(如预测房价):

  • 欠拟合(Underfitting):模型是一个简单的直线,未能捕捉数据的非线性关系。
  • 正常拟合(Good Fit):模型是一条合理的曲线,能较好地预测数据趋势。
  • 过拟合(Overfitting):模型是一条非常复杂的曲线,完美拟合了每一个点,但在新数据上预测效果很差。
    通过平衡模型的复杂度和训练数据量,同时引入合适的正则化手段,可以有效地减轻过拟合问题。

ABC : American-born Chinese

“ABC” : American-born Chinese

美国出生的华裔