AI有声书有“灵魂”吗

AI有声书的“灵魂”问题本质上是技术与人文的平衡问题。

文|王亚楠

今年,大家谈论最多的话题,离不开春晚跳舞的机器人、DeepSeek、“杭州六小龙”等,对于它们的“爆红”,我们必须承认科技时代已经来临,人工智能(AI)已经进入我们生活的方方面面。

作为一名数字出版领域的有声书编辑,我更深刻地领略到这一点。随着人工智能技术的快速发展,AI有声书逐渐成为数字出版领域的新趋势。然而,AI有声书是否具有“灵魂”呢?本文将结合我的工作经验,从技术、艺术和人文三个角度探讨这一问题,分析AI有声书的现状、优势与局限,并展望其未来发展。

 

AI有声书的技术基础

AI有声书的核心技术主要包括自然语言处理(NLP)、自动语音识别(ASR)和文本转语音(TTS)。近年来,深度学习和大数据技术的进步极大地推动了TTS技术的发展。基于神经网络模型,如Tacotron模型和WaveNet模型,能够生成更加自然、流畅的语音。这些系统通过大量语音数据的训练,学习到了人类语音的复杂特征,包括音调、节奏和情感变化,从而生成高质量的语音合成效果。

为顺应时代的发展,我们也开始尝试使用AI制作有声书。实践证明,AI制作有声书确实在一些方面展现出了显著优势。

首先,它可以快速生成大量音频内容,大大提高了有声书的生产效率。以前我们制作一本有声书,要先根据书的内容选择合适的配音员进行录制,配音员在录制过程中可能会因为生病、嗓音状态不好等而使录制时间延长;录制完成后有声书编辑要开始审听语句、字音的对错,以确保有声书的内容质量达标,如有错误还需要配音员返工;音频确认后开始剪辑、配乐,制作完成后在平台上线。这个过程有时需要1~2个月,甚至半年,效率较低。而使用AI技术,几分钟就可以把一本书的音频合成,节省了大量时间。

其次,AI语音可以轻松调整语速、音调和音量,满足不同听众的个性化需求。以前制作有声书,不同的配音员,语速、音调和音量是不一样的。同一本书,不同的人录出来的感觉是不同的,如果想要满足不同听众的个性化需求,就需要重新找人录制,耗时耗力。而AI可以高效解决这些问题。

再次,AI技术还能实现多语言、多方言的有声书制作,突破了人类配音员的语言限制。这一点非常重要,以往制作对话丰富的有声书,不同的角色有不同的地域背景、音色和语言特色,需要找很多不同的配音员录制,非常烦琐且耗时。尤其是多语言、多方言的作品,很难找到合适的配音员。然而,通过AI,我们可以便捷地选择不同语言、方言、性别、年龄、音色、情绪的声音,简单且高效。

最后,AI大大降低了有声书的制作成本。我们在为有声书爱好者制作精美内容的同时,也需要考虑经济效益。以往录制有声书,省级和国家级的播音员录制费用不一,级别越高,费用越高。不管是何种级别,录制一本书的费用都是不低的。如果投入与产出不成正比,我们就会处于被动位置,久而久之就失去了制作有声书的能力与动力。而AI有声书,在给相关公司一定的软件使用费后,所有的声音可以随意使用,这也成为当下用AI制作有声书的最大便利。

在具有这些明显优势之后,AI语音就可以完全代替人类配音员了吗?现状表明,AI语音在情感表达的细腻度和自然度方面仍存在局限,难以完全模拟人类配音员的独特音色和情感变化。

 

AI有声书与艺术创造力的关系

艺术创造力是人类有声书配音的核心价值之一。优秀的配音员能够深入理解作品内涵,通过声音塑造生动的人物形象,传达复杂的情感。他们可以根据自己的理解和经验,对文本进行二次创作,赋予作品独特的艺术魅力。这种创造力源于人类丰富的生活体验、情感认知和艺术修养,是AI难以复制的。以我们制作的有声书《骆驼祥子》为例,众所周知,《骆驼祥子》是老舍所著长篇小说,以旧北平为背景,讲述了一个年轻好强、充满生命力的人力车夫祥子三起三落的人生经历。录制这本有声书,要求配音员既要有极强的专业能力,又要有阅历、有积淀。于是我们邀请到中国中央电视台中国电视剧制作中心导演、演播艺术家李野默先生录制这本有声书。李野默先生播讲过多部长篇小说,比如《平凡的世界》《白鹿原》《北京人在纽约》《活着》等,而且李野默先生出生于北京,是地地道道的北京人,对北京的历史文化、人文积淀、民俗民情有深刻的感悟。在李野默先生的演绎下,这本有声书非常生动,听来如身临其境一般,让读者不由得跟着故事情节落泪、拍掌叫好。

相比之下,AI有声书在艺术创造力方面存在明显局限。虽然AI可以模仿人类语音的某些特征,但它缺乏真正的情感体验和艺术直觉。AI无法像人类配音员那样深入理解作品的文化背景、情感内涵和艺术价值,也难以进行真正的艺术创新。

 

AI有声书的人文价值探讨

有声书不仅是一种信息传播方式,更承载着重要的文化传承功能。人类配音员通过声音传递情感、思想和文化,与听众建立深层次的情感联系。这种人文价值体现在对作品的个性化诠释、情感共鸣和文化传承等方面。优秀的配音能够唤起听众的共鸣,激发想象力和思考,成为连接作者、作品和听众的桥梁。叶圣陶先生曾说:“读书让生活有温度,让灵魂有湿度,让生命有深度。阅读是一门技术,也是一门艺术。”现在的人,迫于生活压力,每天忙忙碌碌,很难有时间静下来读书,所以有声书便成为大家利用碎片时间来提升“生活温度”“灵魂湿度”“生命深度”的有效途径。于是我们邀请到许多优秀的配音员,录制了一大批经典的文学佳作,配音老师们用自己的声音对作品进行了生动的阐释,赋予了文字新的生命力,也让听众在零碎的时间里实现了对艺术的追求。

而AI有声书在人文价值方面既有潜力也面临挑战。一方面,AI技术可以扩大有声书的覆盖范围,让更多人接触到优质的文化内容;它还可以通过个性化推荐和交互功能,增强听众的参与感。另一方面,AI有声书可能缺乏人类配音所特有的情感深度和文化理解,难以完全替代人类在文化传承中的独特作用。比如我们用AI制作了有声书《西游记》,它的艺术呈现就差了很多。《西游记》作为我国四大名著之一,它的故事早已家喻户晓,许多经典的影视化呈现也让我们对其相关的展现形式有更高的期待。《西游记》角色众多,性格鲜明,而AI难以准确传达角色的情感变化,听众感受不到角色的喜怒哀乐,从而降低了故事的感染力。AI在区分不同角色的声音时表现有限,尤其是当角色众多时,声音的个性化不足,听众可能难以区分对话,影响对作品的理解。AI对《西游记》中的文化背景、成语、诗词等理解有限,导致发音或语调不准确,影响听众对内容的准确理解,尤其是传统文化部分。对于这样一部内容较多的作品,AI语调单一、缺乏变化的问题可能让听众在长时间聆听后产生疲劳感,难以保持兴趣。相对于真人演绎的《西游记》,AI版本确实逊色很多。所以,如何在技术发展中保持和提升人文价值,是AI有声书面临的重要课题。

通过对AI有声书的技术、艺术和人文维度的分析,我们可以得出以下结论:AI有声书在语音合成技术和生产效率方面具有显著优势,但在艺术创造力和人文价值方面仍存在局限。AI有声书的“灵魂”问题本质上是技术与人文的平衡问题。未来,AI有声书的发展应注重技术与人文的融合,在提升技术的同时,保留人类艺术的独特价值。■

(本文作者单位为山东教育出版社)

Read Previous

人工智能赋能下经典IP的融合出版探索

Read Next

浅谈普通人家书的出版与传播

Leave a Reply

Most Popular