智能写作-智能写作能代替人工写作吗

编辑:pitaya02        日期:2020-08-28

使机器像人一样表达和创是人工智能的一个重要景,实现这一景的一个核心技术领域是智能写作。近几年来,智能写作不仅在技术上得到了快速的发展,而且在应用中越来越重要。

百度创始较早,在技术和应用积累了一定的经验。本文从智能写作的常见应用形式及实出发,结合百度实践经验,介绍智能写作的核心技术,并人机协作智能写作的发展方向进行了探讨

1

智慧写作是什么?

一种创造性的脑力劳动,用语言符号反映客观事物表达思想传递知识信息。

,智能写作也是基于人工智能技术,帮助人写作的效率和质量。

按照不同的应用思路,可以将智能写作分为“自动写”和“辅助写”两应用形。“自动写作”是指人工智能算法自完成写作任务,写作过程不需要人工干预。助写作是指人工智能算法在人类写作的整个过程中,为人类提供各种辅功能,帮助人类完成写作任务。

接下来的两节通过实例分别介绍自动写作和辅助写作。

2

应用形式--自动化写作的智能写作

自动写作技术允许机器自完成文章写作。电脑已能自动撰写新闻快讯热点组稿春联等类文章。下面的表提供了三自动写作的典型

的例是一百度财经新闻自动写作的例子,这自动写作一般都是以结构化数据为输入,智能写作算法则是用人类惯的方式描述包含在数据中的主要信息。因为机器处理数据的速度远人类,所以它很善于完成时新闻的报道任务,这种自动写的典型例子地震快讯财经快讯体育战报等

面这个是一组稿写作的热点案例,这型的自动写作通常基于大根据应用需要的线索(如事件、人物等等)筛选合适的内容,然后根据内容的分析出所关注的信息,最后根据写作逻辑组织篇章结果。因为机器能快速处理海量数据,所以很擅长挖掘包含在大数据中的分布、关联等信息。这自动写作的典型例子热点组稿、事件脉络、顺序盘点等。

的例是百度 NLP的智能春联,在这型的自动写作任务中,机器基于足够的训练数据,训练模型并得创作能力,能够按照人的指令,出符合特定格式要求的创作结果。模式输出的结果超出了人们的预期,所以它出具有与人类文字创作似的创造性。这自动写作的典型例子智能诗智能对联,等等。

3

应用形式-辅助写作的智能写作

助写作的目是为了帮助人类写作过程。辅助写作主要从四个方面来帮助人们完成写作:写什么,怎么,怎样写好,以及如何更好地传播

人类写作面临的第一问题是“写什么”,算法可以通过当前热点事件和话题的分析,推荐适合作的热话题。写作过程中,算法提供多角度的帮助,如提供写作材、写作风格、写作内容建议等。写完后,算法从多个角度提供意见,如纠错,配图,排版等,帮助作者完善写出的结果。写完并不意味着内容创作的结束写完了要把内容提供给合适的使,满足使的需求。通过个性化推荐,算法可以标记出写作内容,并将内容推送到兴趣相关内容用户前。

对写作过程辅助来说是辅助写作的一个重要部分,这里展开,列举一些常见的写作过程辅助算法

自纠:人工智能模型通过学习大量已知的错别字错别字搭配等语料,写作的文章提供实时错误检测和修改建议;

写联想:人工智能模型通过学习大量文章,可以从统计概率角度推测未完成句的后续部分,或者是已完成句的下一句,这样的书写联想能够在特定领域(如法律文书)的写作中有效提效率;

文字推荐:在写作过程中,辅助写作可根据人在写什么,推荐与之相关的实用信息和材料,如热点、事件发展脉络等,节作者搜整理材的时间,提高写作验的一致性;

推荐:题对于重要,但构思一个吸引的题不容易,算法可以在大量学习高质量题的基础上,为作者推荐吸引的优质题

4

慧书核心技术

理解了智能写作的各种应用形后,我们继续探智能写作背后的核心技术。智能写作自然语言生成、自然语言理解、知识图谱、多模算法等各人工智能算法有的联,百度智能写作实践中,往往根据实际需求将多相关算法集成具体的解决方案。接着,本文介绍了几种在各种智能写作中占核心地位的核心算法:经典自然语言生成算法神经网络序列生成算法文本分析技术。

经典自然语言生成算法

传统的自然语言生成(NLG, Natural Language Generation)算法[1]可以在深度神经网络算法出现之前被抽象流水线,包括三个核心步骤:篇章规划、微观规划和表实现。百度自动写的关于中超足球比赛战报,描述NLG的经典算法过程。

第一-篇章规划:这一步解决“写什么”的问题,对于一场足球比赛来说,有大量的比赛数据技术统计文字实况等等,只有最重要的部分才能体现在最终的写作结果中。

所以段落规划步骤需要定标题段落布局,以及每一段文章对应的输入素材。就本而言,一完整的战报可分四段:

述:包括比赛时间地点数,双方结果历史战绩等

半场:包括半场重要比赛

半场:包括下半场重要比赛

技术统计:包括重要技术统计和双方的对比

第二-微观划:这步骤解决“如何写”的问题,使用输入材料来具体生成句子,在经典 NLG算法中,是使用模板(Template-based Generation)来完成这步骤。训练数据不足,或对写作结果可控性要求很高时可以根据人工挖掘的模板或定义的模板,结合数据得写作结果。虽然最简单的模板可是句子+空格的组合,但通常需要形式语言技术的帮助下根据语法树定义对模板进行标准化,以支持模板写作的多种多样和丰富的结果。

第3-实现:微划的结果通常不是自然语言,而是语法树等包含语法结构信息的结果。“表实现”步骤就是要解决“如何形成符合人类习惯的自然语言”的问题。来说,将微观划结果直接转为自然语言,往往留下一些算法痕迹,即不完全符合人类写作习惯的细节,如:“特谢拉接到队友传”、“特谢拉右脚推射破门”等,都是由数据材生成的正确句子,但如果把它们直接组合成一个长句就会出现问题。

并且在表层实现,要根据人类表达习惯,把已经产生结果进一步完善。根据要处理的问题,表层实现步骤对应着许多具体算法,其中比较典型的一个例子是指代生成(Referring Expression Generation),这方法可以识别需要代词取代的实体,从而更符合人的写作习惯。

传统的 NLG算法用于自动写的几种应用形尤其是结构化数据写,由于它具有良好的可解释性和可控性,是前工业生产环境最常用的自动书写方法。

2.神经网络序列生成算法

深度学习技术给人工智能带来了技术上的变革,智能写作技术集中体现为神经网络序列生成算法(以下简称:神经网络序列生成算法)算法能有效利用包含在语料中的统计规律,根据具体要求出符合人类语言特的文本结果。简单地说,以文、图片、视频等为输入,以文字作为输出的场景,都可以使用序列生成算法进行尝试,因此它在智能写作中实际应用形式很多下介绍三种智能写作中用的序生成算法:智能诗歌生成算法标题自动生成算法,摘要自动生成算法。

一种常用的机器创作方式,也是一种序列生成算法的典型例子,如下图:

该图取自发表于学术会议 COLING 2016的百度 NLP学术论文[2],从图中的流程可以看:算法在扩展了一组关键字之后,根据关键生成的句逐句生成诗歌,其中每的生成过程,即应序列生成算法的一实际执行。

面的详细说明是序列生成模型,在生成诗歌的过程中关键词和句的信息进行循环神经网络结构计算,作为诗歌生成的依据。大量诗歌语料的学习模型概率统计意义上输出“像诗的字序列”的能力,这就是对应机器创作智能写作,可以根据需生成诗歌。尽管机器的创作“思人类有本质区别,但机器生的诗歌却相当于类所写的诗,因而可以帮助人类分担相应的工作量。

在辅助写作中,标题生成广泛的应用:写作完成后,如果能速确定一个的标题,不仅省去了作者的人力投入,而且还有利于结果的分使结果更碰到应需求和兴趣的读者。

百度百家号创作大脑中标题生成算法的示意,标题生成也是一序列生成模型,但与诗的序列生成模型有几点不同:

要处理长的输入:产生标题的输入是章,长的输入序列长度序列生成模型的循环神经网络结构带来很大的挑战。技术上说,可以通过内容选择、层次结构等方式改变输入端的序列生成模型,提高文本输入的理解能力。通过使用内容选择机制图中的示例,对原文计算内容权重概率分布,帮助模型从长篇大论的内容中选择核心内容并体现在标题中。

有必要保标题原文相关性:序列生成的本质是一种不受控制的概率模型,模型会产生概率意义上“安全”的结果,从而导致生成的标题原文关性弱甚至偏离原文。针对问题,本文引入了图中例 Copy机制,利用复制替代了中最关键的基于词表概率预测的生成。

在序列生成中,自动摘要是一个比较困难的问题,因为自动摘要算法通常需要处理长篇大论的输入,而输出比上面提到的标题诗句长。这就需要更多的技术手段解决这些题,下图介绍了百度 NLP发 EMNLP 2018会上的两个自动摘要算法探索[3][4]。

上左图论文提出的方法,强了摘要生成过程中结构信息刻画。具体地说,首先将输入的篇章看作是一组句子集合,设计了两种摘要生成的约束条件:一是每个摘要结果的句子,应能与原文本的某个句子集合相对应;二是摘要结果的不同句子,应覆盖原文不同句子集合。对于编码器和解码器的序列生成模型,采用了层建模方法通过对模型中句子层次注意力分布的分析可以看基线分析相比,强化结构信息约束的方法预测的注意力分布更接近实情况。

面的法是右图论文所介绍的,摘要生成中选择信息作为目标。具体地说,可从全局语义和局部语义两个层次对信息选择进行优化:一是在全局语义层筛选不重要的信息;二在生成每个摘要句时,增加了局部信息选择的网络层,利用注意力机制计算信息应注的原句集合及其权重。

根据其核心思想,自动摘要算法分为两类:抽取式摘要(Extractive Summarization)和生成式摘要(AbstractiveSummarization)。生成摘要是指对原本进行建模后,通过语言生成模型逐生成结果,优点是更接近人的摘要思路,追求更好的整体效果,但生成的句子可能会有通顺、语义变等问题。提出的自动摘要算法代表了生成式摘要算法的前沿研究方向。同时,在实际应用中,经典的抽取摘算法仍能取得好的可控效果。节将结合文本分析技术介绍抽取式摘要的应用场景。

3.文本分析

传统的 NLG算法和序列生成算法都把焦点放在人类语言的“输出”但是智能写作技术不仅把焦点放在了输出,而且把焦点放在了作为素材的“输入”。对各料来说需要使用文本分析技术来提取关键、标签、情感倾向、摘要等写作信息作为一个例子,对于热点事件组稿自动化编写,我们可以设计这样的编写逻辑:

将突发的热点事件为触发条件,按照以下方收集相关材

关键线索是事件“火箭锁定季后赛”

针对核心线索,从内容库中获取与事件相关的内容

用事件分析、事件聚技术,将内容成多个聚类簇,如核心战报、主帅角度分析、历史回顾等

维选原文,使用自动摘要算法提取核心信息,构成写作结果

述过的关键步是自动摘要,由于的内容素材是存较长文本的文本段不能直接用于组稿,所以需要使用自动摘要算法提取长文本中的核心信息,作为最终写结果的组成

另一抽取式摘要算法从原文中选择适的句子并拼接摘要结果,其要优点是摘要结果中的语句直接来源于原文,不存在句子本身的通顺性问题,缺点是摘要结果受原文句子集合的限制,容易产生一致性问题。抽象性摘要可以抽象条流水线,文档分析句子排序句子选择摘要生成,实现理想效果的关键是如何准确地预测句子重要性。

火龙果智能写作是全球第一款中英双语语法检查校对产品,运用火龙果智能写作技术进行错别字文本校对,除错别字校对以外,还可以对语法、标点等进行校对。

火龙果智能写作官网https://www.mypitaya.com

积极拥抱变化,才能更好的应对这个时代


智能协作-智能写作时代全面到来!一键自动生成文章已见怪不怪!