什么是IDEA

什么是IDEA

大部分初次接触到科研的人,都会很困惑,什么叫IDEA,怎么样才算是找到了创新点,能够写一篇文章。读文章感觉别人都很高大上,都做得非常完美了,那我们要如何对它提出改进呢?

今天跟学生开会时,又一次聊到这个话题。因为一聊到文章的主要贡献,学生立马就开始说这文章用了什么网络,做了什么模块。于是乎,琢磨了一个例子来说明,什么是IDEA,以及如何去思考和改进IDEA。


想象一下,如果要设计一个应用:text-to-speech,用语音来读一段文本,应该如何思考呢?

我最常收到的反馈是:我们可以使用一个RNN模型,blablabla。这种沟通感觉是无效的,应该我不知道为什么RNN模型就能够完成这个任务,如果RNN是万能的,我们真的啥都不用去做了。我期望的思路是:

1、最简单可行操作是:为每一个单词配音,然后根据用户给出的句子,将对应配音拼接起来。这个是从逻辑层面而不是操作层面更不是模型层面去提出解决方案,直觉上就感觉可行。当然操作层面,可以有多种选择和实现方式。例如一个人完成所有配音,多个人共同完成配音,配一部分再生成一部分配音等等。不管哪种方式,都是按照配音然后拼接来解决问题。

2、上述可行操作可以生成语音,但是会有各种各样的问题,例如:多音字的问题,拼接时候衔接的自然性问题,重读轻读的问题,词语间连读的问题,等等。每一个小问题都可以引伸出一个小研究方向,形成多篇论文。因为一般情况下,一篇论文没法完美解决,需要不断的改进,进步,最终形成优秀的解决方案。

3、上述问题解决后,TTS问题就解决了吗?NO!为了实现更好的TTS,我们要考虑语音的情感,语音的音色。这些将从应用层面提出各种各样的问题,如何解决?当然是引入上下文情景介绍、文本情感分析、参考音色。这很convincing。具体如何操作,可以有多种选择,但他们的重要性相对来说就没有那么大了。

4、上述的问题都比较大,那方法是否都一次解决了呢?例如上述引入上下文情景介绍的方法,可以是手动指定,通过词语指定,通过句子指定,还可以自动分析内容形成相关情景摘要。这每一个点,都会成为一个研究内容,有各式各样的解决方案。

5、经典问题,一定存在大量的解决方案。这些解决方案中,一定还存在不足。我们不能说:为了改进结果,我们设计了什么模块来解决问题。因为大家做工作都是为了改进结果,你没有任何理由的改进,更像是在刷performance。所以研究的IDEA,一定是建立在现有工作的不足之上的。这个不足可以是:参数过多容易过拟合(CNN改进MLP的理由),单词(如it)的含义常源于其上下文(Transformer的理由);也可以是:文本和图像中的噪声过多,应当相互应证,提取有效信息(cross-attention的理由)。只要这个理由找得好,大概率是能够做出很好的performance,也就可以形成相应的研究论文了。

6、上述是一般性思路,通过在领域内的学习、对相关文献的调研,能够快速跳过前几个步骤,进入到深入的思考。但有的时候也可以回归到前几个步骤从问题本初出发,重建思考。例如Diffusion扩散模型在很多年前就已经提出,在多年之后结合神经网络被发扬光大。

综上,一定不要张口就说我们提出了一个什么模型,而是要从现有方法的不足着手(分析任务、提出问题),提出逻辑层面的改进意见(设计方案),再详细描述提出的方法是如何对应这些改进意见的(实施方案),最后通过实验论证,确实是因为我们的改进方法,使得预测结果得到了有效的提升(验证方案)。这才是一套完整的IDEA。