WHAT IS NTD ?
通常 NTD 是指新台币,New Taiwan Dollar。
WHAT IS STUMIS ?
Student Management Information System 学生管理信息系统
过拟合
过拟合(Overfitting)是机器学习中的一种现象,指模型在训练数据上表现得非常好(即误差很小),但在测试数据或新数据上表现得很差。换句话说,模型过于“记住”了训练数据的细节和噪声,而没有学习到数据的总体规律或本质特征。
过拟合的表现
训练集误差很小:模型在训练集上的预测表现非常好。
测试集误差很大:模型在测试集上的表现却很差,无法很好地推广到新数据。
对噪声过于敏感:模型可能学习到了训练数据中的噪声和异常值,而不是数据的真实模式。
为什么会发生过拟合?
- 模型太复杂:
- 模型的自由度过高(如神经网络的层数或参数过多),能够拟合训练数据中的每个细节。
- 训练数据不足:
- 训练数据量过少,使得模型容易记住数据,而不是泛化规律。
- 训练时间过长:
- 模型训练时间过长,逐渐对训练数据“死记硬背”。
- 数据噪声:
- 数据中包含较多的噪声或无关特征,模型将这些噪声也视为模式。
如何防止过拟合?
- 增加数据量:
- 收集更多的训练数据,帮助模型更好地学习数据的总体分布。
- 简化模型:
- 减少模型的复杂度(如降低神经网络的层数、减少参数数量)。
- 正则化:
- 添加正则化项(如L1或L2正则化),限制模型参数的大小,防止过于复杂。
- 使用验证集:
- 在训练过程中通过验证集监控模型性能,防止训练时间过长。
- 提前停止(Early Stopping):
- 在验证集误差开始增大时停止训练。
- 数据增强:
- 使用数据增强技术生成更多变种的训练数据(如图像旋转、裁剪等)。
- Dropout(神经网络中常用):
- 随机丢弃一部分神经元,防止网络过于依赖特定节点。
过拟合的简单例子
假设你要用一个模型拟合一个散点图(如预测房价):
- 欠拟合(Underfitting):模型是一个简单的直线,未能捕捉数据的非线性关系。
- 正常拟合(Good Fit):模型是一条合理的曲线,能较好地预测数据趋势。
- 过拟合(Overfitting):模型是一条非常复杂的曲线,完美拟合了每一个点,但在新数据上预测效果很差。
通过平衡模型的复杂度和训练数据量,同时引入合适的正则化手段,可以有效地减轻过拟合问题。
ABC : American-born Chinese
“ABC” : American-born Chinese
美国出生的华裔