智能校对-当前计算机校对技术的现状与不足

编辑:pitaya02        日期:2020-09-08

AI是一门新的技术科学,其研究发展的理论、方法、技术和应用系统可以模拟、扩展和扩展人的智能,旨在使智能机器能听(语音识别、机器翻译等)、能看(图像识别、文字识别等)、能说(语音合成、人机对话等)、能思考(人机对弈、证明定理等)、能学习(机器学习、知识表示等)、能行动(机器人、自动驾驶汽车等)。a JeffreySington及其合作者完善了深度学习算法,为人工智能的商业应用奠定了基础,从而推动了人工智能研究和应用的热潮并持续到今天。

鉴于人工智能广泛的应用前景和强大的产业驱动力,包括美国、日本、欧洲等世界主要发达国家都纷纷从国家战略高度出发,在产业政策上大力培育人工智能技术。2017年7月,中国还发布了《新一代人工智能发展规划》,提出了“三步走”发展人工智能的战略目标。全国性的扶持和投入,极大地促进了人工智能的基础研究和商业应用,成为未来人工智能技术发展和普及的重要保证。

AI应用领域非常广泛。在新闻出版领域,人工智能已经开始尝试写作、组稿,比如腾讯的 Dreamwriter,华盛顿邮报的 Heliograf等等。b校对是新闻出版领域的一项基础工作,本身就具有相对客观性和规范性,相对于写作和组稿来说,更容易实施人工智能技术。关于智能编校,一些最新的文献以及相应的数字出版产业年度报告都有提到,但是没有进行深入的分析,也没有看到实际的应用。由此可见,人工智能在校对领域的应用还没有得到普及。伴随着人工智能研究的深入与应用,未来计算机校对将从目前的自动化阶段发展到智能化阶段,大大节省人力资源。

目前市场上的电脑校验软件很多,既有文字处理软件自带的简易校验模块,又有功能较强的专业校验软件。在中文校对方面,主要有两种产品,即技术比较成熟的黑马校对和方寸校对。现有的校对软件主要依靠手工维护的词库或文法库,通过软件的比对识别,找出错误并提出纠正意见。该模式主要围绕词、句展开,对整个句子进行语义解读与校对,并存在词库扩展后误报增多等固有缺陷。所以这只能叫做自动化,而不能叫做智能化。尽管黑马校对和方寸校对两种主流软件在产品宣传中都宣称运用了人工智能技术,但作者在实际使用过程中感觉到的效果并不明显,如文字、词语的校对没有把一些常见错误过滤掉,整句点校仍然很弱,数据库的更新仍然主要依靠人工维护,使得时效性显得不足。目前校验软件普遍存在的不足主要表现在五个方面:

第一,整体错误率高。因为校对软件主要是根据自己的数据库和待校文稿的内容进行比对实现校验,对发现的不一致点缺乏进一步的校验机制,造成误报现象比较普遍。由于软件本身的数据库规模越来越大,常伴随着误报率的增加。据经验评估,首次使用黑马校对时报红(软件认为肯定有错误)的准确率在50%上下,而报粉(软件认为可疑)的准确率在50%左右

通过手工添加目标专业字库和对常用字进行维护,报红准确率达到70%以上,报粉准确率达到20%以上。c考虑到这一点,大多数出版社在实际工作中采用人工校对和软件校对相结合的方式。

第二,对整个句子的错误修正较少。软体通常只能简单的比对词库,在语义层面上无法具体的分析具体的问题。例如,在一篇关于资产减值的文章中,作者连续五次输入五个字,其中一个字“计提了不低于监管标准的差额准备”,其中的“差额”应该是“减值”,但是检查软件无法根据上下文提示该错误。也如,对于以拼音输入法输入的“曹操亲军与六军交锋”,“六军”是“刘备”错的,校对软件同样没有任何错误提示。而且相似的输入法错误在稿件中经常出现。

第三,古籍整理整理能力不足。因古书中文言文用字较少,语法结构复杂,并涉及错别字,现有的校对软件基本上不能有效地识别错别字。

第四,科技名词(专业术语)的错误纠正能力较弱。科学技术名词是汉语词汇中较为特殊和专业的部分词汇,通常由西文翻译而来,同一概念在同一书稿中往往出现不同称呼的情况。黑马校对对科技名词几乎没有作用;方寸校对有一定的术语识别能力,但仍然很弱。

第五,图表、公式和排版整理能力较弱。当前校对软件对图表、公式等的校对只停留在文本的层次上,其他常见问题,如图(表)顺序错误、图表设计不合理、各级标题的排版等,基本上只能依靠人工校对。

火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代

错别字-人工智能中文纠错算法到底有多牛?