路由模型的深度和多样性研究
本文是Google Brain对路由模型异构结构和不同深度的研究,收录于ICLR2019。本文对topk选择的一些看法对开关变压器的后续研究有一定的影响。可以说,这是谷歌大脑的大佬们在路由模型探索上的一些中级思维。
论文题目:“基于实例的路由模型的多样性和深度”
地址:组件简化建模,提高模型效果。
在不同的数据集上做了额外的消融实验,最后的结果很一般。最终结果对不同数据集的影响不同,和数据大小关系不大。作者在本文中的结论是,通过添加不同的操作,添加重要操作的副本,是提高模型效果的直接途径。其实这个地方我也不太懂。可以看出只用3×3卷积核的效果很好,异构专家层的效果相当,但是多样性&个人觉得这个结论有点牵强。
布线深度:
本文给出了对CIFAR-10的影响。这样一来,似乎路由模型效果更差了。例如,在cell nums=6,filters nums=64的配置下,路由模型的效果相当于all-on C=6,F=32的效果,但计算量是2倍,甚至是搜索到的单次模型的3.5倍。而当c增加到12时,效果甚至变差。笔者认为复杂的路由优化导致效果变差,像嘈杂的top-k门控这种路由器方法是经验性的,无法学习到强解。
结论:
在结构非均质性方面,这个实验在模型的最终效果上取得了重要成果?当时路由深度的优化还不确定。
作者认为路由模型有必要开辟静态模型的痛点领域。并预言非常大规模的任务是路由模型领域(switch transformer两年后会不负众望),看好路由模型的优化。