谭升
非主流人工智能科学家 我和外面那些妖艳的货不一样

训练数据选择血泪史

训练数据选择血泪史


这一幅图就能完整说明整个训练过程,说明
从左到右,从上到下的顺序,表明整个训练
>

  1. 图一中黑圈绿点是目标pattern或者feature的真实(ground truth)分布(应该是更多维我只能画二维的)
  2. 图二红色点是训练时选出的训练样本,可见其覆盖不广泛
  3. 图三是训练过程,蓝色实线代表分类器(线性的,也可以是非线性的)
  4. 图四到图八是完整的训练过程
  5. 图九为最后训练结果,包括recall部分,missing的部分,以及false的部分

整个过程最直观的外在表现就是随着训练不断深入,模型的在测试集上的Recall逐渐变差
如果继续复杂化训练模型,会产生严重的过拟合

解决方法:

  1. 样本复杂化,尽量覆盖整个分布
  2. 更多样本
Share

You may also like...

说点什么

avatar
  Subscribe  
提醒

由于博客移至wordpress,部分公式和代码显示不正常,博主正在努力修改,如发现公式显示错误,请及时在文章下留言,感谢您的帮助,尽请原谅!