错别字-中文文本纠错算法走到多远了?
编辑:pitaya02 日期:2020-09-24
中文版纠错,常见的错误类型包括:
调和词语,如配眼-配副眼镜混淆音字词,如流浪织女-牛郎织女-单词顺序颠倒,如伍迪·艾伦伍迪字词补全-爱有天意-假若爱有天意形似字错误,如高梁-高粱中文拼音全拼,如xingfu-幸福中文拼音缩写,如sz-深圳语法错误,如想象中的难以想象-难以想象
现在,纠错算法被分成两个方向:基于规则的,深度模型的。火龙果智能错别字检测
规则解析思想
中文版的纠错分两步,第一步是检错,第二步是纠错;
误测部分首先通过拼接中文分词器进行误测,因为句子中包含了误测词语,因此误测结果往往会出现误测的情况,这样就可以从字粒度和词粒度两个方面进行误测,将两种粒度的误测结果进行整合,形成误测位置候选;
“纠错”部分,用音似、形似词典取代纠错位置的词,再根据语言模型计算出的句子混乱程度,对所有纠错结果进行比较排序,得出“纠错”最优词。火龙果智能错别字检测
深层模型求解思想
端对端深度模型避免了人工特征提取,减少了人工工作量, RNN序列模型具有很好的文本任务拟合能力,rnn_attention在英文文本纠错竞赛中取得了第一名,证明应用效果良好;
CRF将计算全局最优输出节点的条件概率,检测句子中特定类型的错误,根据整句判断错误,阿里参赛2016中文语法纠错任务获得第一名,证明应用效果良好;火龙果智能错别字检测
使用encoder-decoder结构解决序列转换问题的seq2seq模型目前在序列转换任务中(如机器翻译、对话生成、文本摘要、图像描述等)应用最广,效果最好。火龙果智能错别字检测
然后作者刚刚听了百度的纠错算法框架,就把之前所听到和所收集的一些资料整理如下。
火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。火龙果智能错别字检测
火龙果智能写作官网https://www.mypitaya.com
积极拥抱变化,才能更好的应对这个时代