博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
深度学习训练中如何处理NaNs
阅读量:4069 次
发布时间:2019-05-25

本文共 1715 字,大约阅读时间需要 5 分钟。

NaNs问题(Dealing with NaNs)

相信很多自己实现过深度学习模型或者训练过深度学习模型的人都会知道,产生NaNs或者Infs是一件特别常见的事情。但是NaNs的问题又往往很棘手,因为出现NaN的原因可能有很多,诊断起来并不容易。

这可能是因为模型中某个地方设置的不是特别合理,或者代码中出现了Bug。也有可能是出现了数值不稳定,数值不稳定问题会进行单独说明。甚至也可能是你的算法出了问题,下面将介绍几种出现NaNs的场景以及如何进行诊断并处理模型训练过程中出现的NaNs。

超参数的设置以及权重初始化(Check Superparameters and Weight Initialization)

通常情况下,尤其是你使用深度学习库训练时,原因大多是超参数设置问题。

最可能是就你的学习率设置过大。一个过大的学习率可能在一个epoch里就让你整个模型产生NaN的输出,所以首先检查学习率,最简单的办法就是设置一个小的学习率。

其次,你的模型里有正则化项吗?看正则项是否设置合理,选择一个大的正则项系数来训练几个epoch看下NaNs有没有消失。

还有一些模型可能对权重的初始化十分敏感,如果权重没有采用合理的初始化方法,或者合适的初始化范围,模型可能会产生NaNs。

关于数值稳定(Numerical Stability)

如果你最终诊断发现是在某个公式计算时产生的NaNs,可能的原因就是这个公式存在数值稳定问题,通常发生在你自己实现的某个公式,例如Softmax,因为深度学习库通常会帮助解决公式中的数值稳定问题。

举个列子:一些nodes在某些输入下产生一个很小的p(x)。

在反向传播时,正确的类别所得到的概率非常小(接近零)的话,这里会有 overflow 的危险。

更加详细的数值稳定讲解参照这篇Blog:

如果上述方法都不适用,那可能是你的算法出了问题,回头去检查数学公式的实现来确保所有的计算和推导是正确的。

Using Theano

Run in NanGuardMode, DebugMode, or MonitorMode

如果你使用Theano,你可以通过Theano的NanGuardMode来寻求帮助。NanGuardMode会监控每个结点所有的输入和输出,如果发现了NaNs就会报错。

具体用法参照:

使用 optimizer_including=alloc_empty_to_zeros 结合NanGuardMode对于检测NaN很有帮助,具体看下面 NaN Introduced by AllocEmpty的介绍。

DebugMode 也很有帮助。 通过flag mode=DebugMode,DebugMode.check_py=False来运行debugmode。 这样可以看出那个运算造成了这个问题,进而深入地查看这个运算。

具体用法参照:

Theano 的 MonitorMode 可以用来单步调试function的执行,可以通过它来查看执行function时每个node的输入和输出。

详细用法参照:

NaN Introduced by AllocEmpty

很多运算用到AllocEmpty,例如没有适当地清理前分配内存,分配的内存随后会被重写。之前这块内存里的数据和运算有时会导致产生NaN。例如,在运算前使用乘法来使内存清零,当之前内存中是Nan时, 0 * NaN => NaN。

使用optimizer_including=alloc_empty_to_zeros 来代替AllocEmpty的Alloc{0},对诊断NaNs的出处很有帮助。需要注意的是NanGuardMode中,这个flag默认是不开启的,所以同时用NanGuardModeoptimizer_including=alloc_empty_to_zeros会比较好。

CUDA Specific Option

Theano的这个设置 nvcc.fastmath=True可能产生NaN,所以在debugging NaN时不要设置这个参数。

转载地址:http://bnoji.baihongyu.com/

你可能感兴趣的文章
mongoDB简介
查看>>
Redis持久化存储(AOF与RDB两种模式)
查看>>
memcached工作原理与优化建议
查看>>
Redis与Memcached的区别
查看>>
redis sharding方案
查看>>
程序员最核心的竞争力是什么?
查看>>
Node.js机制及原理理解初步
查看>>
linux CPU个数查看
查看>>
分布式应用开发相关的面试题收集
查看>>
简单理解Socket及TCP/IP、Http、Socket的区别
查看>>
利用HTTP Cache来优化网站
查看>>
利用负载均衡优化和加速HTTP应用
查看>>
消息队列设计精要
查看>>
分布式缓存负载均衡负载均衡的缓存处理:虚拟节点对一致性hash的改进
查看>>
分布式存储系统设计(1)—— 系统架构
查看>>
MySQL数据库的高可用方案总结
查看>>
常用排序算法总结(一) 比较算法总结
查看>>
SSH原理与运用
查看>>
SIGN UP BEC2
查看>>
S3C2440中对LED驱动电路的理解
查看>>