错别字-人工智能中文纠错算法到底有多牛？

编辑：pitaya02 日期：2020-09-08

信息制作的门槛，的确越来越低；能写出“快而准”的文章，也的确越来越难。有成千上万的内容制作坑，这其中，要数让用户怒点负反馈，狂扣编辑鸡腿的“错别字”最让人头痛。

为抓取烦人的“错别字”，火龙果的写作机器人火龙果写作再扩充功能项，想要用 AI算法将采编助手的工作加到其中。本期的全媒体人就如何运用 AI纠错算法来治愈编辑部的“手癌”一事采访了项目的幕后团队。

人工智能中文纠错算法到底有多牛？

要让电脑进行中文纠错，不如人类在语文考试中用火眼金睛的笔“抓虫”那么简单。

开始拼写检查：如何应用英文领域

对于微软 Word中的红绿波浪线，你应该不会陌生，它是最常见的拼写检查软件之一。微软的 Word6.0在1993年推出了自动拼写校正功能，至今已有25年的历史。在英文拼写检查方面，人们的实践早已取得了很好的成绩，无论是搜索工具还是文档处理软件，英文错误的识别都是快速而准确的。

细致地分析英文拼写错误，可分为两类：

其中之一是英文单词不合法拼写(Non-Word Errors)，导致错误的“单词”在字典中没有相应的单词(Word)，例如将 artificial拼写为 artificel；

另外一种是拼写合法的词，但是在上下文中出现了错误(Real-Word Errors)，例如将 be interested in写为 be interest in。这种错误比拼写违法更难被改正。

前一种方法通常使用上下文无关(Context-Independent Methods)的方法来确定，后一种方法通常使用上下文相关(Context-Dependent Methods)的方法来确定。

视频：算法是怎样识别拼写错误的？源： NBC

2:35

中文版纠错的复杂性？

在中文世界里，错误纠正仍然是一个危险的环节，因为许多中文错误都不会发生在英文语境中。原因在于，英文是由单个字母组成的，没有“输入法”的概念，最小处理单元就是一个“单词”；而对中文来说，我们要依靠输入法来输入，而电脑显示的汉字字形是预先设定好的，不会出现字形“无中生有”的情况，所以，纠错处理单元所针对的中文“单词”，相当于英语的“单词”。

在中文语境中，常会出现错字：有输入法联想错误，导致其他同音词的输入，由此产生的搭配不当；有发音不正确，导致拼音错误；有形近字，几乎是约定俗成的错字等等，这些都很难形成一个成熟规则，一网打尽。由于汉语表达主观性和多样性，如果没有大量的语料来训练模型，实验就很难取得效果。

所以，可以说，汉语中“抓虫”的难度远远高于英语。

鹅厂算法查勘能力全透视

自今年春节后启动，到六月在腾讯新闻 CMS系统全面上线，实现新闻各个信息品类的全面覆盖，火龙果写作的勘误算法能力可谓历尽艰辛。本文采用腾讯新闻自研的人工智能算法模型，以权威词典资料为基础，运用强大的深度学习算法，通过编辑反馈自我提升，根据上下文语义解析进行自我修正，实现错别字的勘误与更正。

CMS反馈接口

项目团队从技术到产品，投入了大量的精力，不断地判别错误，修正错误，然后对模型进行优化，才达到了现阶段比较成熟，理想的效果。

由于不断报错，团队成员还对模型雏形阶段的实验方向是否正确产生了怀疑。市场上可供选择的东西很少，这条路只能自己摸索。

核心攻坚点：根据背景，区分搭配失误

要想解决这个问题，最困难的是如何区分上下文语法和搭配错误，这需要使用数亿个数据语料来训练模型。机器只有不断地调试，才能建立对新闻语法表达的概念。

与传统纠错方法相比，该方法采用最先进的 AI算法，利用海量语料训练深度学习模型，使模型能够对多种错误进行纠错。

基于深度学习的核心算法建立了多种不同的模型，每一种模型都能理解各自特有的语义。模式通过语料学习，语义理解深入到单词和单词。它的核心技术是多种深度学习模型的融合，多个模型的协同决策。在语句中出现错误时，模型发现错误与上下文不匹配，从而触发报警，给出正确的写法。

例如我们判断文字是否写对或写错，其实基本的思路是，写错的情况出现的情况比较少，出现的可能性较低。有的情况比较简单，就像高考经常考的那一类，错误的方法很常见，比如‘文雅’就写为‘杉杉’，这类问题可以用现在常见的错误算法来解决。工程技术人员解释说，“而我们这套算法的最大亮点，就是通过判断上下文背景，找出搭配错误。用前和后两个字，预测这个字在中间出现的概率。假如说，这个词在中间出现的可能性很小，和它相近的一些词出现的可能性更大，那么我们就认为它很可能是写错了。

”“我们还发现了一些非常规错误。就像上一次 case报告的‘飞机坠毁’，漏掉了‘坠毁’的提手，这种错误非常少见，但是机器也能认出。

技术员也会举一些例子，例如：

郑爽成铁甲女超能手，成功脱管->脱颖而出一群罗威纳小狗打架，场景感忍->感人无控->控制你有一封信：失忆男字->男人找不到的女孩，没想到真的找到了！

机器学习之真谛

这种算法能力的发展过程还有一个特点，那就是从头到尾不使用人工来进行智能数据标注。

技术员介绍说：“一般而言，做这种纠错算法需要很多人对数据进行标注，告诉机器它是什么，不是什么，都需要人工进行标注，这是很费力的。这次，不用人工标注，直接让机器来学吧。”

运算性能迭代

现在，这套纠错算法已经可以识别出许多类型的错误，包括同音、近义、易错和语境搭配错误，识别率达到90%以上，应用于腾讯新闻图文、视频等场景。另外，它还有一个“举一反三”的超强大脑，不仅能识别错误，而且能快速记录对错误的反馈并进行干预，自我反复，使算法能力调试得更精确。

如今，这套算法仍然在学习中进化。随着信息爆炸的今天，新闻更新速度异常快，“神马”、“外来者”等新名词层出不穷，算法也可以通过积累语料，快速实现对这些热门新词的覆盖。

前景：更大的能力+开放的合作

现在，团队想要继续优化模型，并提高整体水平；此外，要做好通用性，将算法作为工具为更多用户服务。

运算能力项目扩展

已有的算法能力，尽管相当出色，但对漏字，多字和更复杂的句子，却无能为力。技术员坦白说，这也是今后努力的突破方向。例如《我在读书》和《我在读书》，前者多了一个“在”字，后者漏掉了一个动词“看”字，看似简单的错误，如何通过 AI “查漏补缺”，是急需攻克的难题。

团队除了纠正错误之外，还有更大的抱负。该产品经理介绍说，“纠错只是目前算法能力的一个方向，后续还将推出更多技术，希望能够赋能更多合作伙伴。”

开放性合作解放“手癌”

他说：“我们做这种算法能力的初衷是，不仅可以应用到“抓虫”上，还可以让更多的多媒体从业者受益，帮助大家高效地勘误，少出错。这个项目的产品经理介绍说，“虽然这个功能的实现是一个长期的、并且需要不断更新的过程，但我们认为，为了能够给用户提供一个纯净、清晰的文字环境，还是非常有意义的。”

目前，该小组正着手建立对外应用展示平台，非常欢迎更多有此需求的媒体和个人，利用鹅厂的算法工具，希望一是能帮助大家发现和解决工作中存在的问题，二是能通过吸收更多真实的“养分”，帮助 AI更加聪明、更智能，未来识别得更准确。

谈到 AI，人们往往会嗅到它的颜色变化，唯恐因为它的入侵而取而代之。而且作为内容生产者，我们完全可以合理地使用 AI，承担那些产出投入比低的工作，减少内容管理中的风险。聪明地运用科技，增强人类不可替代的核心能力，才是媒体人在技术快速变革的潮流中，缓解工作焦虑的首要法则。

火龙果智能写作是全球第一款中英双语语法检查校对产品，运用火龙果智能写作技术进行错别字文本校对，除错别字校对以外，还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化，才能更好的应对这个时代

智能校对-当前计算机校对技术的现状与不足