如何最快入门自然语言处理?

作者:刘志远

链接:/question/19895141/答案/24710071。

来源:知乎。

版权归作者所有。商业转载请联系作者授权,非商业转载请注明出处。

昨天一个刚加入实验室的学生给我发邮件,问我怎么找学术论文,这让我想起了我读研究生的时候的情况:看着学长讲领域动态,不知道怎么入门。接触研究生几年,终于可以自信地知道去哪里了解最新的科研动态了。我觉得这可能是初学者的困惑。与其只告诉一个人,不如把这些民间知识写下来,为更多人减少麻烦。当然,这个总结只是一家之言。只希望有人能从中得到一点好处。由于个人认知,难免挂漏,望大家指正。

1.国际学术组织、会议和论文

自然语言处理与计算语言学在很大程度上是一致的。和其他计算机学科类似,NLP/CL有自己最权威的国际专业学会,叫做计算语言学协会(ACL,URL:ACL Home Page)。这个协会举办过NLP/CL中最权威的国际会议,即ACL年会,ACL学会也会在北美和欧洲举办年会,分别称为NAACL和e ACL。此外,ACL Society还有几个特殊兴趣小组(SIGs),聚集了NLP/CL不同子领域的学者,性质类似于大学校园里的兴趣社团。其中比较著名的有Sigdat(基于语言数据和语料库的自然语言处理方法)和SIGNLL(自然语言学习)。这些SIG还会举办一些国际学术会议,其中比较著名的有SIGDAT组织的EMNLP(关于自然语言处理的智能方法会议)和SIGNLL组织的CONLL(自然语言学习会议)。另外,还有一个老牌的NLP/CL学术组织叫做国际计算机化物流委员会,每两年组织一次国际会议叫做国际计算机化物流会议(Colin),这也是NLP/CL的重要学术会议。NLP/CL的主要学术论文在这些会议上分发。

作为一个NLP/CL领域的学者,最大的快乐就是ACL Society网站设立了一个名为ACL选集(URL:ACL选集)的页面,支持该领域大部分国际学术会议论文的免费下载,甚至包括其他组织赞助的学术会议,如COLING、IJCNLP等。,并支持基于Google的全文搜索功能,可谓一站在手,我有NLP论文。因为这个论文集合非常庞大,可以开放访问,所以很多学者也基于它开展了研究,提供了更丰富的检索支持。具体条目请参考ACL选集页面顶部搜索框右侧的不同检索按钮。

和大部分计算机学科类似,由于技术的快速发展,NLP/CL更重视学术会议论文的发表,因为发表周期短,可以通过会议进行交流。当然,NLP/CL也有自己的旗舰学术期刊,发表过很多经典的学术论文,就是《计算物流》(URL: MIT press journals)。本刊每期只有几篇文章,平均质量高于会议论文,在时间允许的情况下值得及时跟踪。另外,ACL学会为了提高自己的学术影响力,刚刚成立了《ACL汇刊》(TACL,URL:计算语言学协会汇刊(ISSN: 2307-387x)),值得关注。值得一提的是,这两种期刊也是开放存取的。此外,还有一些与NLP/CL相关的期刊,如ACM Transactions on Speech and Language Processing,ACM Transactions on Asian Language Information Processing,Journal of Quantitative Linguistics等。

根据谷歌学术Metrics 2013对NLP/CL学术期刊和会议的评价,ACL、EMNLP、NAACL、COLING、LREC、计算语言学位列前五,基本反映了学者对该领域的重视程度。

NLP/CL是一门交叉学科,其相关领域也值得关注。主要包括以下几个方面:(1)信息检索和数据挖掘。相关学术会议主要由美国计算机学会(ACM)主办,包括SIGIR、WWW、WSDM等。(2)人工智能领域。相关学术会议主要有AAAI和IJCAI,相关学术期刊主要有人工智能和AI研究杂志;。(3)在机器学习领域,相关学术会议主要有ICML、NIPS、AISTATS、UAI等。,相关学术期刊主要有《机器学习研究杂志》(JMLR)和《机器学习》(ML)。例如,最近出现的知识图研究论文,有相当一部分发表在人工智能和信息检索领域的会议和期刊上。事实上,中国计算机学会(CCF)制定了《中国计算机联合会推荐的国际学术会议和期刊目录》(CCF推荐排名)。通过这个列表,可以快速了解各个领域的主要期刊和学术会议。

最后,值得一提的是美国的Hal Daumé III维护了一个自然语言处理博客,经常评论最新的学术动态,值得关注。经常看他参加ACL、NAACL等学术会议的想法和对论文的评论,很有启发。此外,ACL Society还维护了一个Wiki页面(ACL Wiki),里面有很多关于NLP/CL的信息,比如著名的研究机构,历届会议的就业率等。,都是居家必备产品,值得深挖。

2.国内学术组织、会议和论文

和国际上类似,中国也有一个NLP/CL相关的学会,叫中国中文信息学会(URL:China Chinese Information Society)。通过研究所(中国中文信息研究所)所长名单,基本可以了解国内从事NLP/CL的主要单位和学者。该学会每年组织多次学术会议,如全国计算语言学会议(CCL)、全国青少年计算语言学研讨会(YCCL)、全国信息检索会议(CCIR)、全国机器翻译研讨会(CWMT)等,是中国NLP/CL学者学术交流的重要平台。特别值得一提的是,全国青年计算语言学研讨会是专门针对国内NLP/CL研究生的学术会议,从组织到同行评议都是由该领域的研究生举办。很有特色,也是NLP/CL学生学术交流和快速成长的好地方。值得一提的是,2010在北京举办的COLING和2015将在北京举办的ACL是主承办方,这也在一定程度上反映了学会在国内NLP/CL领域的重要地位。此外,自然语言处理和中文计算会议(NLP & amp;CC)也是最近兴起的一个重要的学术会议。由中国信息学会主编的《中国信息学报》是国内该领域的重要学术期刊,发表了多篇重量级论文。此外,NLP/CL论文经常发表在《中国计算机报》、《软件学报》等国内著名期刊上,值得关注。

在过去的几年里,水木社区BBS上开设的AI和NLP页面一度是中国NLP/CL领域在线交流和讨论的重要平台。近年来,随着社交媒体的发展,越来越多的学者转移到新浪微博上,新浪微博具有很强的交流氛围。找到这些学者的一个简单方法是,在新浪微博搜索的“找人”功能中搜索“自然语言处理”、“计算语言学”、“信息检索”、“机器学习”这几个词,你将可以与过去只在论文中看到名字的老师和学生交流。还有一个办法。清华大学梁斌开发的“微博寻人”系统(清华大学信息检索群)可以检索每个领域有影响力的人,因此也可以用来寻找NLP/CL领域的重要学者。值得一提的是,很多在国外任教的老师和学生也活跃在新浪微博上,比如王威廉和李牧,经常在业内爆料,值得关注。还有NLP/CL在国内比较有名的博客是52nlp(我爱自然语言处理),影响很大。总之,学术研究既需要努力,也需要与人交流。所谓说者无心,听者有心。也许别人的一句话就能唤醒你思考了很久的问题。毋庸置疑,微博等博客提供了很好的交流平台,当然也要注意不要沉迷。

3.如何快速了解某一领域的研究进展?

最后简单说说快速了解某领域研究进展的体会。你会发现搜索引擎是查阅文献的重要工具,尤其是谷歌提供的谷歌学术。由于其庞大的指数,它将是我们克服困难的利器。

当你需要了解某个领域的时候,如果能找到这个领域最新的研究总结,会省很多力气。最方便的方法是在谷歌学术搜索“域名+调查/回顾/教程/总结”。还有一些出版社专门出版各个领域的综合性文章,比如NOW Publisher出版的《基础与趋势》系列,mor gan & amp;Claypool出版社出版的人类语言技术系列综合讲座等。他们发表了很多热门评论,比如文档摘要、情感分析与观点挖掘、学习排序、语言模型等等。

如果方向太新,又没有相关综述,一般可以查阅该方向最新发表的论文,阅读其“相关工作”章节,按照所列参考文献,基本了解相关研究脉络。当然还有很多其他方式,比如去看著名学者在各大学术会议或者暑期学校做的辅导报告,直接咨询这方面的研究者等等。