论文搜索复用什么算法?

知网查重的算法是

要用计算机进行知网查重和识别的研究,首先要对数字文档进行分析和处理,数字文档可分为两类,即自然语言文本和形式语言文本。正式语言文本通常是计算机程序源代码。抄袭案例虽多,但由于其语法和句子结构规范,分析处理相对容易,对这类抄袭识别的研究较早。而自然语言文本(如论文)的拷贝检测原理比程序拷贝检测晚出现了20年。

②1993亚利桑那大学的Manber提出了“近似指纹”的概念,在此基础上提出了sif工具,通过字符串匹配的方式来度量文件之间的相似性。美国斯坦福大学的布林等人首先提出了COPS系统和相应的算法,后来提出的SCAM原型对其进行了改进。SCAM借鉴了信息检索技术中的向量空间模型,使用基于词频统计的方法来度量文本相似度。香港理工大学的Si和Leong使用统计关键词的方法来度量文档的相似性,建立了CHECK的原型,首次将文档的结构信息引入到相似性度量中。2000年,Monostori等人利用后缀树搜索字符串之间的最大子串,建立了MDR原型。在此之前,美国各地的教育工作者现在都知道如何综合利用课堂写作段落样本、互联网搜索工具和反抄袭技术来遏制欺骗的源头。

③中文论文抄袭认定难度加大。汉语不同于英语,它以文字为基本书写单位,词与词之间没有明显的区分标志。因此,中文分词是中文文档处理的基础。中文文本抄袭识别系统首先需要分词作为其最基本的模块,因此中文文本自动分词的质量在一定程度上影响了抄袭识别的准确性。同时,计算机在自然语言理解上有所欠缺,抄袭不仅限于抄袭,很难做到准确的抄袭识别。所以不能完全照搬国外的技术来解决中国论文的抄袭鉴定问题。北京邮电大学的张焕炯用编码理论中的海明距离公式来计算文本相似度。中科院计算所基于属性理论,计算向量之间的匹配距离,从而得到文本相似度。程玉珠等人基于汉字的数学表达理论,将文本相似度的计算转化为空间坐标系中向量夹角余弦的计算。Xi交通大学的宋帅宝等人开发了CDSDG系统,使用基于词频统计的重叠度量算法,计算不同粒度下的整体语义重叠和结构重叠。该算法不仅能检测出数字文本的全部非法拷贝行为,还能检测出子集拷贝和移位局部拷贝等非法拷贝行为。金的基于上下文框架的相似度计算算法考虑了对象之间的语义关系,从语义的角度给出了文本之间的相似度关系。大连理工大学的金波、和滕根据学术论文的独特结构对其文本结构进行分析,然后通过数字指纹和词频统计的方法计算学术论文之间的相似度。张明辉针对重复网页提出了一种新的基于段落的近似图像算法。包等基于网格的文本复制检测系统提出了语义序列核方法的复制检测原理。金波、、滕给出了基于语义理解的抄袭检测系统架构,其核心是基于知网的词语相似度计算,并将应用范围扩展到段落。聂规划等基于本体的论文查重系统利用语义网本体技术构建论文本体,计算论文相似度。

请继续关注学校。检查复印纸(),更多关于纸张测试的信息在里面。