错别字-检测长文中的错别字,用它就对了!

编辑:pitaya02        日期:2020-09-14

不管是学生还是办公室职员,我们都不必在学习和工作时写更长的文档。当撰写此类文档时,错别字是我们最大的敌人,如果文章中有很多错别字,那么读者会觉得这个文档写得不够严谨,不够严谨,质量也不高。

因此在撰写文件时,要尽量找出文章中出现的错别字和一些语病,使其行文尽量通畅,用词尽量准确。但是,如果我们仅仅依靠眼睛和大脑来做这些工作,那么面对一段千字、万字的长文字,整个过程就会非常费时费力。

据作者所知, NLP技术目前在计算机领域的发展非常迅速,特别是深度学习热兴起之后。利用目前的技术,完全可以开发出一套处理中文文本,特别是错别字和语病的系统。

作者在撰写公众号文章时也曾被错别字所困扰,曾用过不少错别字检查插件等等,但效果都不太理想,一方面是严格模式下的误报率很高,另一方面是一些很明显的错别字会被系统遗漏。

这个时候让笔者很头疼,文章明明是检测系统过了一遍,但是最后还是出现了错别字,这很明显是作者不想看到的结果。因为方案可以代替人来完成这样的工作,所以我们自然希望方案的实际效果能够接近完美。

作者经过一番搜寻,终于找到了一套比较好的错误检测系统—— 火龙果智能错误检测系统。

作者当初就用它来作为自己的作品使用,随着检测系统的不断进步,作者开了一家名为“火龙果智能”的公司,开发了这套系统的企业版,接了不少政府、企业的订单。

自由使用者在使用时会有次数和字数的限制,即每天只能检查3次,每次只能处理2000字。而且专业版可以不限次数的使用,一次最多可以提交50000字,而且还具有推荐词汇,行业强化等功能。

自由版更多的是为了让大家体验,测试,你可以用一段文字来测试这个系统的效果,而专业版则更适合日常使用。与同类产品相比,专业版的费用非常低廉,仅30元/年,这是一个任何人都能支付得起的价格,因此您也可以直接支付30元的费用,以获得为期一年的专业版体验。

从作者个人使用经验来看,该系统比同类产品的误报率要低得多,同类产品中有不少采用了收录、比对错别字词条的方式来识别错别字,即使开发人员对识别引擎进行了优化,其识别的误报率仍然很高,许多原本没有错别字的地方也会被报错。

该系统采用了 NLP技术,可以非常精确地抓取文本中的错别字,单错别字这个项目,如果没有严格的模式化,错误率也不会很高。因为目前这种软件没有一种方法可以完美地解决错误报告的问题,所以错误报告多少都是有的,但如果错误报告特别多,那实际上反而会降低用户校对文档的效率。

因此,对这样的软件进行低误报率的测试是非常必要的。

除误报率外,还有一个非常重要的问题就是漏报,没有用户希望文档在经过这样的系统之后还会有一些漏网的错别字,因为在使用这样的系统时,我们优先考虑信任它,认为它可以将文档中的错别字逐个抓取出来,但如果最终我们发现文档中有错别字,而且这样的文档可能已经被发送,那么这种错别字检测系统将给用户留下一个比较严重的负面印象。

现有的错字检测系统基本上都是宁可误杀千人也不放过一人的感觉,在尽量避免漏报的同时,还能提高漏报率。

错别字检测与 火龙果智能有不同之处,它能在极低误报率的情况下做到普通模式基本不漏报,严格模式基本不漏报。笔者在日常使用中一般都是采用普通模式,漏报的情况在笔者印象中也有出现,但次数不多,而且这套系统还处于较早阶段。

当前开发人员应该对系统的算法做更多的优化,笔者近期用它没有遇到过漏报的情况。

值得注意的是,笔者这里所说的错误检出率,仅仅是指日常使用中的错误检出率,用简单的错误大全来检测,是达不到100%的,这主要是因为错误大全并非真的“文件”,在分词方面会出现错误。

对于辨认出的错别字,它能非常精确地给出修改建议,在辨认出错别字后,我们也不必再去查找这些字的正确写法,而检测系统可以直接为我们提供正确写法。

只要回到文档中,找出相应的字词来修改就可以了,使用起来很方便。

更奇怪的是,像腾讯、阿里这样的大企业,它们拥有先进的 AI技术和完善的基础设施,但是在自然语言处理领域,它们所提供的开放服务都更加注重情感分析、分类、关键词提取,而它们并不能为媒体行业等提供类似的查错别字服务。

作者认为,如果这些大企业能够投入到这一功能上来,那么它们生产出的产品一定会更加稳定,更加有效,毕竟它们在技术上的天花板要比个人开发者和小型企业高出很多。

由于像火龙果智能这样的小公司可以做这样一个系统,这些大公司自然也可以做得更好。

现在, 火龙果智能的错误检测还有进一步优化的空间,比如进一步降低误报等。从目前笔者的实际经验来看,这套检测系统已经相当不错了,笔者每天的公众号文章已经基本依靠这个系统来查错了,毕竟用它查错要比我自己人工查错效率高很多。

火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代



错别字-看完这些错别字,我可能是个丈(文)育(盲)