2019-01-31 “人工数据合成”(artificial data synthesis)

人工数据合成的概念通常包含两种不同的变体:第一种是白手起家创造新的数据;第二种是已经有了一小部分带标签的训练集,然后扩充为一个大的训练集

人工数据合成
人工数据合成

字符识别的更大的训练集: 现代计算机通常都有一个很大的字体库,库中有很多不同类型的字体,然后将字体粘贴到其他随机的背景图像前面(第一种)。然后模糊操作让图像变形,比如均匀等比例缩放或者一些旋转操作等等(第二种)。

语音识别的更大的训练集:自动地为纯净的音频片段添加这些不同的背景声音(高斯随机噪声 )

人工数据合成

建议:

1.产生大量人工训练样本之前,通常最好应该先保证你已经有了一个低偏差的分类器,这样得到大量的数据才真的会起作用

2.考虑要付出多少工作量来获得10倍于我们现有的数据量

3."众包"(crowd sourcing),雇佣标记人帮你为数据加上标签

建议
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:作者翻译论文仅为学习,如有侵权请联系作者删除博文,谢谢! 翻译论文汇总:https://github.com...
    SnailTyan阅读 14,293评论 1 27
  • 关于Mongodb的全面总结 MongoDB的内部构造《MongoDB The Definitive Guide》...
    中v中阅读 32,126评论 2 89
  • 今早看了一篇微文——《你的孩子不需要一个完美妈妈,他们更需要一个快乐妈妈》,妈妈是一个能量场,所言所行对孩...
    灵妹妹1026阅读 910评论 0 0
  • 越是碎片化的时代,越需要系统学习——特训营第三天。不同于之前,今天有充足的时间可以留给特训营。躺在床上,回...
    cium_ead3阅读 1,280评论 0 0
  • 相知相许,志趣相投,十年通信与苦恋,终于赢来短暂的恩爱缠绵。然而,幸福的时光太短,贫病交迫的生活,竟导致朱生豪撒手...
    后羿不射日阅读 5,054评论 0 36