如何写论文:论文的起点

这篇文章的作者,是时任台大资管系主任庄裕泽教授,在看过研究所同学的论文proposal之后,有感而发对实验室同学写下的信。当年这封信只在实验室同学、学弟妹、好友间辗转流传,而现在这篇文章的刊出,已经过老师的同意,用意是希望与更多朋友分享。文章最后改了一点字句,主要是实验室的相关细节资讯,删去与本文主旨无碍。本文转引自:MMDays

---------------------------------

Dear all:

今 年的proposal我用较高的标准来衡量,因此大部份的人都得再花一点时间修正。我的用意是与其等到四、五月你们写论文时再要求你们改进,不如利用这个 寒假好好督促你们把论文的前三章写得完整。我大致翻了所内今年提出的proposals,我们实验室的成员大部份只在平均附近(或者低些)。我想如果再不 严格督促你们,我们以后恐怕无法再以LAB成员自豪。

我大概跟你们提过如何写proposal,但可能不是很有系统。为了让你们能把proposal及论文写好。我花了一点时间整理自己的心得,供你们参考。

论 文大致上有五、六章。第一章是Introduction,这一章通常只佔论文整体篇幅的十分之一,却是最关键的一章;它就像一个物品的包装一样,即使结果 再好,但包装差,也会让整篇论文顿时失色。在国际会议论文的审稿过程中,很多委员往往仅从Introduction中评断论文是否值得接受。 Introduction要如何写好是需要一些天份与努力的,基本上它就像在写作文一样,要有强而有力的开头,在前一、二段就能带领读者进入你要研究的领 域。接下来的几个段落,你必须替读者建立足够的background,让他们了解你论文的研究背景。Background建立好之后,你必须点出整个研究 的动机,这是最关键的地方,动机不足,无法显示你研究的重要性,变成无病呻吟,甚至连呻吟的声音都听不到,不晓得你到底要做什么。动机点出来之后,通常就 会说明你的研究成果及主要贡献,也就是论文的价值之所在。在Proposal阶段,这部分会以预期的方式来呈现。最后,你会花一段文字来说明整个论文的架 构,并做为第一章的总结。

除了动机要强之外,第一章一般比较容易犯的毛病是研究背景给的不充分,以及与研究动机没有连贯性,研究背景漫无 边际的讨论,然后“天外飞来”你的研究动机。切记一点,写研究论文逻辑一定要清晰,整个章节的构思逻辑是什么、为何这个句子要承接上个段句子、这个段落要 承接上个段落等等,一定要清楚的思考过。许多论文的败笔在于论文东一段、西一段,段落之间没有逻辑关联,让论文整体杂乱无章。如何避免这样的问题,如果你 没有天份的话,只好靠后天的努力:对于论文返覆的读取,不厌其烦的思考句子、段落之间是否有逻辑上的问题。我个人的经验是,我自己写过的文章,每读一次都 有新的体会与修正。一篇论文写完之后,我都会再从头到尾读一次,修改到我最近一次读过后没有新的修正为止。这样通常会经历四、五回合以上。我最不喜欢见到 的是学生论文写完之后,从头到尾连一次都没看过就送给我,里面错误百出,甚至连基本的连结 (cross reference)都错,好像要我帮他校稿一样。你们有些人也有这样的毛病,这样的毛病不改是做不好学问的。以后我看到这样的论文马上就退。我以前念书 的时候跟指导教授meeting讨论论文时总是战战兢兢,在给他看我的论文时我自己会来回看好多次,深怕犯一些明显的文法或逻辑错误,或他曾经指正过我的 错误,我也藉此训练出比较独立的研究能力。这里我感觉大多数的学生都比较缺乏独立的研究能力,有些则完全依赖指导教授替他修改论文,甚至觉得理所当然,这 是相当不正确的研究态度。

第二章是文献探讨。在写这章前一定要仔细思考你要探讨哪些相关文献,这些相关文献如何分门别类,然后在第二张开 头以约一页的篇幅描述你要survey的内容、范围与架构。当然,你得提供充分的理由说明为何你要做这样的组织分类。文献探讨要做的好是一门学问,它并不 是把一些相关的文献看过,然后对每个文献作摘要即可。把相关文献做一个有系统的分类,本身就是一种贡献。一般而言,每个研究领域都可以拉的很广,你在有限 的空间内不可能全部涉猎,因此,你得设定一适当的焦距,决定文献探讨的领域范围。

在你设定的范围内一定有许多文献要探讨,你得将这些文献 分门别类,每一类别选定一个最具代表性的文献做这个类别的开端。接下来你得摘要这篇文献的主要内容与贡献,并且用比较简单浅显的方式让读者了解关键的技 术。一般而言,这篇代表性的文献后续多少有些follow-up继续改进前人的结果。这时你大致不需要针对每个follow-up做仔细讨论,只要用一、 二句话摘要出每个follow-up改进之处即可。把比较重要的follow-up说明之后,你应该以一段话做为这个类别的结论。这一段话必须评论目前在 这类别的研究成果大致如何,还有那些不足的地方,以及与你的研究有何关联(如你会采用那些既有的技术,你的研究方法或成果与它们有何差异,你的研究对这个 领域的贡献是什么)。

很多人的文献探讨只摘要了别人的成果,却少了最后这一段,无法让人了解你的survey与你的研究议题有何关联,也 不晓得你对前人的成果看法为何。另外一个比较常见的问题就是survey不深入犀利,讲得都是很表面得东西,让人家觉得看你的survey对这领域一点帮 助都没有。

对每个类别survey完之后你必须对这整个章节做一个结论。在这个总结里,你必须汇整出这个领域里目前的研究进展,还有那些不足的地方,并且从此支持你在第一章提到的研究动机,以承接下一章节。

第 三章基本上是要描述你的研究议题与方法。你必须清楚的描述及定义你的问题。有些时候,问题与定义会牵涉到你的系统或演算法所植基于的model,因此你也 必须定义你用的系统model是什么,有那些假设的前题。接下来就是说明你的研究方法,所须的定义与所用的核心技术。接下来就是提出你对问题的解决方桉, 并分析讨论它的优劣。在proposal的阶段基本上不必具体的提出解决方法,只要讨论你大致将采用的措施即可。但即使如此,在proposal的阶段这 一章也不能马虎的做表面的探讨。一定要具一定的深度,才可以让committee 的成员相信你对于你的研究议题有足够的了解。这一章写深入,你未来修改甚至更换研究题目的机率就低。

第四章通常是对于你在第三章提出的问题解决方桉做一实证,如系统模拟,比较你的方法效能为何、与既有的方法有何差异。

第五章就是对论文做一结论,在这里你必须重覆你整个研究的动机,再叙述你的成果,然后说明你的研究价值与贡献。每项研究总有不尽完美之处,你的大概也不例外。因此,接下来你就要讨论你的研究成果或系统还有那些可以改进之处,据此引出未来研究方向。

第四、五章在proposal阶段是不必要有的。另外,根据研究议题的差异与研究成果的大小,有些论文(特别是博士论文)在讨论其研究成果时会分成两个以上的章节来说明,因此论文总体而言会有五章以上。

论 文最后必须附上参考文献。这是大多数人最容易忽略的地方。因此,研究态度严不严谨也很容易从这个地方看出。我已经告诉过你们参考文献要如何编排,应该会有 那些栏位。你们要确实且详尽的去建立每笔参考文献。另外,参考文献的数目应该要适中。硕士论文我认为应该在30笔到40笔之间。博士论文可能多达四、五十 笔以上。但也不要过度夸大,把许多不相干的都放进来。当然,这些数目都不是绝对的,它会随研究领域和议题有所差异。

我再花点时间跟大家谈谈怎样做好survey的工作。(我用了约一天的时间整理这些东西,我的中打不好,昨晚打字打到清晨4点,只打了2/3,所以请你好好的看完!)

Survey 是做好论文的第一步,也是关键的一步。Survey的目的大家都知道,就是要对研究的议题有个深入且广泛的了解,这样才知道目前在这领域里研究的进展已经 到什么地步,state of the art是什么,有那些的子题及技术已经被探讨,从而也可以知道那些还可以开发,那些技术可以被你的研究议题拿来应用。Survey 做的不好,最致命的打击就是在你对你的研究议题一头埋入,花了许多心血,好不容易熬出一些成果之后,突然才发现别人早已经发表同样或类似的成果。

怎 样才能把survey做的深入且广泛呢?我的方法是你要知道在这领域里主要的国际会议是什么,然后把这些会议近几年来(至少三年)所发表过的论文的 title及abstract浏览一次,找出跟研究议题比较相关的论文(注意:是「议题」,不是「领域」)。这样初步找出来的论文大概从十来篇到二、三十 篇,甚至也可能更多。接着,你得把这些论文的Introduction看一遍,对它们做个初步的浏览,然后把这些论文依它们与你的研究议题的相关性做个大 致的排序。接下来就是依序把这些论文仔细的研读,每篇论文的重点是什么,关键的技术又是什么,都得弄得很清楚。我的经验是:因为刚开始对研究议题较不熟 悉,前面几篇念起来通常较吃力。可是随着研读的论文愈多,你就会发现愈来愈轻松。

在这个阶段,你每篇研读的论文大概都是够水准的论文(因 为他们是发表在主要的国际会议)。在研读这些论文的时候,你得看它们探讨那些相关的文献,这些文献你大致都得知道,并且就其中与你研究议题最相关的论文, 你也得找出来仔细的研读,并且重覆这样子的工作一直追溯下去。你不用担心这样做会无止无境,因为当你从最近的一篇论文开始往前追朔,大概不超过三、四代, 你就会发现不必再追朔,因为再往前追朔,你会发现它们要么与你的研究议题愈来愈远,要么就是你研究领域的基本知识。如果是你研究领域应具备的基本知识,而 你还不了解,那你应该回头再修一些课把基础打好,不该这么早就进入你想研究的议题上。

根据这个经验法则,你会发现你在survey的阶段 只要把握一个原则:把与研究议题相关的最近几篇论文拿出来,看看这些论文所引用的文献有没有你不知道的,如果没有,那么比这些论文早的文献你大概都没遗漏 了。如果有,就把它们找出来仔细的研读。随着你研读的论文愈多,你的功力就愈增加。当你发现拿到一篇新论文时只要看完它的Introduction之后, 你就知道这篇论文的重点及猜出它用的主要技术之后,你的功力已经提升到可以进入研究议题的阶段了。在这个阶段,如果论文的研读够深入及广泛,你往往也可以 发现新的研究议题。

你的survey还不能在这里停止,因为你的触角可能尚未含盖所有关于研究议题的文献。你目前只有survey与研究 议题相关的主要国际会议(以及会议论文所引用到的相关文献),这些会议通常不超三到五个。目前的国际会议相当多,而且有些会议的研讨议题又广,因此有可能 两个会议的主轴不一样,但却含盖类似的子题。举例来说,假设你要研究的是peer-to-peer系统上的资讯搜寻,你大概会找专门探讨peer-to- peer系统的国际会议。这个目前大概有二、三个。可是你知道那里还有呢?我告诉你至少还有二、三十个可能:专门讨论分散式系统里的国际会议(这至少有五 到十个,其中first tier的约三、四个,其余为second tier),讨论平行运算的国际会议(这至少也有五个),讨论网路与通讯系统的国际会议(这至少十个以上),讨论资料库与资讯检索的国际会议(这至少也有 五个),相信了吧!而且还有好多新的workshop你从未听过的。

你一定会问:一、我怎么知道有那些可能相关的国际会议;二、我怎么有办法消化完这些会议的论文?

第一个问题得从你第一阶段的论文研读着手。在研读这些论文的时候,你得注意它们发表在那里,从而知道有那些可能相关的国际会议。

第 二个问题:如何消化与你的研究议题可能相关的国际会议内的论文?你把与研究议题相关的最近几篇论文找出来,看它们是在那一年发表的。如果你研究的是热门议 题,你找到的应该是去年或今年的论文;如果你的议题冷门,那最近一篇论文有可能是好几年前的事。不过不管是冷是热,你都只需把相关的国际会议最近一、二年 的会议议程拿来看看,有没有与你的研究议题相关的论文发表,有的话把论文找出来仔细研读一下这篇论文有什么突破,另外,也注意一下这篇论文引用的参考文献 有没有你尚未读过的,没有的话表示你前阶段的survey做的很仔细,有的话你就得把这些遗漏的论文找出来研读,并且用前面提到的方法再去追朔这篇论文 三、四代以内的参考文献,以及论文出处,找出是否还有其他的相关国际会议,并且一样得把这些会议近一、二年的议程拿来看看是否有相关的论文发表。这些过程 一定会收敛的,而当你发现没有新的论文被你找出来之后,你的survey工作大概已经做的差不多了,可以准备收工全心投入研究议题上。通常而言,你在第二 阶段找到的论文不会太多,大多数的论文在survey的第一阶段都会看到。收工之前,为防万一,你再到Google、Siteseer及几个主要的 digital library,如IEEE,ACM,Springer等去search一下,确定没有漏网之鱼。如果你survey的深入,你应当知道要下那些关键字去 查询。这个步骤也可以确保如果你研究的是冷门议题,在你看到的最近一篇的论文,到近一、二年的国际会议这期间,有没有其他的论文你没有注意到的(因为你最 后一阶段的survey工作只注意相关会议最近一、二年的议程,而你看到最近的论文可能是好几年前的东西)。

在这里我好像都没提到期刊论 文。一般而言,期刊论文通常比较完整,但刊登的结果往往是二、三年前的东西。就资讯科技而言,二、三年内的研究进展可能很大,因此比较新的结果通常先发表 在国际会议上,发表之后,经过几回合的修正才会投稿到期刊。所以你survey的论文比较新的东西很少会在期刊上发现。但反之,比较久的成果,有可能已整 理发表于期刊上。如果是如此,那你在研读这个成果时,最好是找已发表于期刊上的论文研读,这样会得到比较完整清楚的资讯。

整个survey的阶段会看完几篇论文?这当然看你的研究议题而定。但三十篇以上是跑不掉的。如果加上你只浏Introduction的部分,那可能在五、六十篇以上。
最后,我要你们做一件事情:

在一星期之内,把survey的工作按照我上面讲的步骤重做一次。星期六之前,请你整理一个清单摘录下列资讯,并email给我 (记住:做完整之后再email给我;我不要片段片段的接收你们的资讯):

1. 与你研究议题相关的国际会议及期刊有哪些。
2. 你找到哪些论文,论文格式请整理成bib档格式(记住:我要的是bib档格式,且要非常完整正确。如何做到,可以问实验室学长。我也会请他整理一份心得告诉大家。)
3. 在你找到的论文里,请用另一份表格整理下列资讯:请就这些论文依其与你研究议题的相关性分成三类:密切相关、相关、略为相关。同时请标记哪些是你已经仔细 的研读过的,哪些是你只浏览Introduction ,但有把握住整篇论文的重点。若有尚未看完的论文,也请标记。
4. 请把你列出来的所有论文电子档以下列方式命名:

年代-会议或期刊缩写(若不知,请以第一作者的Last Name代之)-Title的摘要。
例如:2003-SIGCOMM-Peer-to-Peer Information Retrieval Using Self-Organizing Semanticverlay Networks.pdf

然后请你上传这些档桉到ftp,你的个人目录底下的paper 子目录内。我会就你整理的清单去判断你的survey是否足够,再来决定你的proposal及论文应该还要做哪些工作。

Joung

---------------------------------

关于庄裕泽教授的情况,请查看:http://joung.im.ntu.edu.tw/joung/