智能校对-文本自动校对调研

编辑:pitaya02        日期:2020-09-08

智能校对系统的技术指标主要有:校对准确率和误报率,词库的组织结构和词组数量,校对速度,可识别的文件格式,系统使用是否方便等。

这一制度可能会:

提高自适应能力:能适应各种排版命令和编辑;

②系统词库组织更合理、更有效:将词库划分为一般类(存放常用词组,可由用户修改;

提高速度的方法包括读取内存)、专业词库(存储专业词汇,用户可以自己修改和添加)和使用

用户定制词库(用于存储名字和缩写等临时词汇)。确保每次速度由用户或自我学习的方法重

新建了三层,以提高精度和速度;

c.语法鉴别能力和自学能力;

可选择不同的校验等级和校验重点;

⑤ Windwos版

引用:

[1]文本自动校对技术研究综述张仰森俞士文

1.关于自动查错的研究

我国目前在文本查错方面主要采取三种方式:

局部语言特征,如词性、同现性或相互依存性,甚至包括字形特征等,利用语篇中的转变概率来分析相邻词之间的连用关系,如语法规则、词搭配规则等。

微软研究——基于多种特征的中文自动校对方法,主要是以上的1)

参考文献:Mutifeature-based Approach to Automatic Error Detection and Correction of Chinese Text  lei zhang Ming zhou

哈尔滨工业大学将根据校对过的句子中的每个字词寻找可能的候选字,形成句子的字词候选矩阵,在此基础上,利用语言本身所具有的结构特征和统计特征,从候选矩阵中选择句子的最佳字词候选序列,将其与原句对照,找出错误的字词,通过第一候选来纠正。语体结构特征提取则采用 t元规则对语体候选格进行拼接和剪枝,生成语体结构元素,并生成语体元素格图,再利用文本统计特征,运用 Markov模型从语体结构元素格图中找出一条最优路径,也就是从候选格中找出要校对的语句的最优句子。(目前只适用于校对拼音输入法生成的文本)

引用:多特征中文文本校对算法研究. pdf

词类匹配与语法分析相结合的校对方法

参考书:中文自动校验系统的研究与实现

二、自动查错修正建议

基于似然匹配的山西大学纠错建议集生成算法,对于漏字、多字、易位、多字替换等错误类型的纠错能力大大增强

引用:中文校对系统中错误纠正知识库的构建和错误纠正建议的生成算法

基于散串思想:当多个单子连续出现时,系统认为可能出错,然后根据所设计的算法判断错误位置和候选词

实施办法:(针对拼音输入法)

中文分词,经分词后,形成以词和散串为单位的文本散串处理,错误定位,在字典中模糊查找,返回候选串,选择拼音相同、匹配成功的高阶单词

(临时词库:用于存储新单词;学习词库:用于存储系统使用期间用户添加的新词;单个子词词库:用于存储单个子词)

规定:

分词=数词+量词分词+姓+最多三个汉字分词=称谓词或者分词=姓+称谓词分词=叹词:如果分词是一种叹词,并且是在句末,那么它可以丢掉,比如:海啊,我的家乡。

候选词查询

3.改进领域

加强对句法、语义层面上的校对策略的研究,结合当前研究较多的词汇层面上的校对策略,可以对以前无法发现的错误进行校对。

二、查错后的纠错处理是校对系统中的一个重要环节,目前关于如何生成纠错候选词以及如何对纠错候选词进行排序的研究还不多。

三、加强自然语言处理基础理论研究

四、从语言知识库中加强自动查错文本知识的机器学习方法研究

常用文字错误:

系统接口

一种基于n-gram和依赖关系的中文自动错误查找方法

一场比赛,一场比赛

火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代

智能校对-当前计算机校对技术的现状与不足