你好,游客 登录
背景:
阅读新闻

VocaliD 语音库:造福言语障碍人士,让霍金摆脱机器人声音

[日期:2018-01-31] 来源:36Kr   作者: [字体: ]

对于那些失去言语能力的人来说,能拥有个性化的声音是一件神奇的事情。

 

编者按:与年龄、性格、或者种族完全脱离的数字化声音会让言语障碍人士感觉十分挫败,如果能为他们中的每个人定制一个独一无二的、更像他们自己的声音,那是否能够解决这些人的烦恼所在呢?

去年 11 月,31 岁的伦敦电影制片人 Joe Morris 发现自己舌头上有个地方很疼。开始他以为是自己在睡梦中不小心咬了一下,所以并没有放在心上。直到圣诞假期过了一半,他发现舌头还是会痛,于是他在 Google 搜索栏中输入“舌头破皮不愈合”这几个字,在浏览了关于口腔癌的几页医疗信息之后,他决定打电话给自己的医生。

他的舌头应该没什么问题,Joe 对这一点非常肯定,因为他的家族没有癌症史,并且他也不吸烟。但他还是预约了医生,只是以防万一。

他的医生说,我认为你的舌头没什么问题,因为你不抽烟,并且你只有 31 岁。但以防万一,你还是找专家看一下。

这位专家说我肯定你的舌头没问题,因为你没有其他的高危因素,但以防万一,我们会给你做一个活检。

活检结果一出,提示癌细胞呈阳性,专家说肯定是实验室做的不对,然后进行了第二次活检。这次结果回来之后,专家吃了一惊,癌细胞仍然呈阳性。之后,Joe 被转移到了伦敦 Guy’s Hospital,那里有英国最好的口腔癌治疗团队之一。

Guy’s 医院的肿瘤学家再次向 Joe 保证:癌症部位很小,因为舌头部位的癌症细胞通常是从表面开始向内部生长,像 Joe 这样小的癌症部位剔除之后对舌头其他部分并不会造成多大的损害。他们接下来会安排 Joel 进行核磁共振检查,确保没有任何内部增长的癌细胞,然后就会安排手术。

核磁共振结果显示 Joe 舌部的肿瘤就像冰山一样,深深扎根于他的舌头根部,并向上、向外蔓延,尖端则穿透了舌头表面,也就是 Joe 感觉疼痛的位置。Joe 在去年夏天给我的邮件中写道:“医生告诉我这个消息的时候,我正在为一封工作邮件而心烦。他在向我解释说我将要失去我的舌头时,我还在想着那封邮件,在心里起草着回复内容。”

“你将会失去三分之二的舌头,”医生告诉他,“这会严重影响到你的进食,还有说话。”

Joe 想知道这一手术会怎样影响到说话,他会变得口齿不清吗?

医生犹豫了一下,然后看着他的手说:“你的家人仍然能听懂你说的话。”

手术前一周,Joe 开始感到恐慌:他意识到自己可能再也无法说话了。即便他还能说,也不会再像以前的自己了。他知道自己即将失去这一个很大的身份要素,于是请朋友来为他拍摄一个视频,以便永久记录他的声音。

在录制视频的过程中,Joe 说起话来已经开始受影响了:他有点发音不清,不得不经常喝水,时不时的休息一下才能承受舌头讲话时的压力。他穿着一件黑色针织 V 领衫,坐在窗户旁边。当时正是黄昏时刻,透过窗户,你可以看到夕阳映衬下这个城市的轮廓。Joe 脸色苍白,眼窝凹陷,头发有些蓬乱,脸上的胡茬已经三天没刮了。他看上去不是很好,有点伤心,有点不安,好像对于镜头中的自己并没有什么信心。他一直低着头,有时透过窗户望向远处,有时开几个玩笑。当我问他手术定在哪天时,他很正式的回答道:“手术日期应该是公元 2017 年 2 月 24 日。”

Joe 对着镜头,很努力地表达自己对于永远失去声音这件事的一些感觉。“我并不是一个虚荣、肤浅的人,”他平静的说道,“我往往一天都不怎么照镜子。我不在乎这些(表面的东西)。”他顿了顿,继续说道:“但我是个人,想到我再也不是原来的那个我,至少听上去再也不是那个我了……就会感觉很恐怖。”他咽了口唾沫,微微一笑,感慨道:“还有我的工作,我的生活,都需要沟通,需要讲话,我也喜欢讲话,我还有些话需要说。”

视频拍摄后不久,负责拍摄视频的这位朋友为 Joe 带来了一个新消息。他找到了一家名为 VocaliD 的公司,这家公司可以帮助那些使用设备来讲话的人定制数字化声音。他们可以利用 Joe 的录音在电脑上为他重现自己的声音,并可永久保存及使用。

于是,他们联系了 VocaliD 的创始人,一位名叫 Rupal Patel 的语言病理学家。这位创始人解释说,如果在手术前 Joe可以“存储”自己的声音,那就有机会数字化重建他的声音。但这意味着 Joe 在手术前需要复读 VocaliD 为捕捉英语中的所有音位而开发的几千个句子。

Joe 表示自己愿意尝试一下,他先是复读、记录了几百个句子,之后意识到了这个任务的力度,又停了几天想让自己缓一缓。他在给我的邮件中写道:“这是我可以自由讲话的最后一周,我有很多事要做,很多人要见,还要享受当下的生活(吃牛排)。”手术前两天,他又开始进行句子的录音工作。他的声音听上去缓慢而痛苦,那时,他已经要忍受着剧痛才能说话,他正在尽最大努力让自己说的尽量清晰。手术前一天晚上,他一直记录到了深夜。

第二天上午,Joe 回到了医院,进行了手术,加入了不能讲话的人群行列。

“我为什么就不能拥有自己的声音呢?”

令人感到惊讶的是,言语能力的缺失方式有很多。有音节混杂在一起所出现的口吃或言语失用症,有能够剥夺清晰言语表达所需肌肉控制的运动神经元病和脑瘫,有创伤性脑损伤、中风、像 Joe 这样的手术切除、多发性硬化症以及自闭症。在美国,有 200 多万人需要“适应性替代交流”(AAC,也称辅助性沟通)方法技术的帮助来弥补自身言语方面的缺陷。据残疾人慈善机构 Scope 在 2008 年发布的一份研究报告显示,有 1% 的英国人使用或者需要 AAC 技术。

现代适应性替代交流往往都包括斯蒂芬·霍金所使用的那种设备类型—一台能够将所输入的文字大声播放出的小型电脑或平板电脑。第一台现代文本转语音交流设备是出现于 1969 年,在此之前,有言语障碍的人只能使用一种通过吸管一吸一呼控制操作的打字机。到 1986 年,霍金开始使用语音设备,AAC 技术有了显著的提高。他使用的程序被称为“均衡器”,可以通过按压开关在台式计算机上选择单词或短语,之后这一设备演变成了安装在他轮椅上的一台小型计算机。

2014 年上映的《万物理论》(The Theory of Everything)是讲述霍金青年时代的一部传记片,在影片中,我们就能看到 AAC 技术目前正在试图去修正的一个缺陷。当霍金和他的第一任妻子 Jane 第一次听到自己的新声音时,二人都惊呆了。在片刻的沉默之后,Jane 弱弱地抗议道:“这是美式英语。”影片中的这个桥段是为了博观众一笑,但这也揭示了一种创伤。我们的声音承载着他人可以辨识的信息:年龄、性别、国籍、家乡、性格以及情绪等,另外也承载着我们自己才会明白的信息。当声音不再是英式英语,那作为英国人的霍金又失去了什么呢?

霍金可以说是通过声音塑造身份的一个最显著的例子。虽然一开始,他这种数字声音所呈现出来的机器人式的特点让人感觉很突兀,但这也成为了他的一个标志。他开始围绕着这一新声音来重塑自我,多年后,有人提议可以为他提供一种更为流畅、更自然的英式英语新声音时,他拒绝了。因为,现在这种机器人式的声音听上去就是“霍金”。

这一“霍金式声音”并不仅仅属于霍金。自这项技术出现以来,无论是小女孩还是老年人,或者来自不同国家、具有不同民族背景的人都在使用这同样的声音。这是依赖 AAC 的人群世界中一个奇特的现象:数以百万的人分享着有限的几种声音。虽然现在选择性比以往增多,但也只有几十种声音可供大多数言语障碍的人挑选,其中大部分是成年男性的声音类型。

VocaliD 创始人Rupal Patel 告诉我说:“如果你到那些有语言障碍的孩子上课的教室去,你会发现围绕在你周围的几乎是完全一样的声音。”十年前,她在一次言语障碍主题会议上看到一位小女孩和一位五十多岁的男性正在使用他们的 ACC 设备进行对话。但是,这样性别不同、年龄差距甚大的两个人用的竟是同样的成年男性的声音,这令 Patel 感到十分震惊。她对我说道:“对于那些不能说话的人来说,这就像是在进一步剥夺他们的尊严。”

电影评论家 Roger Ebert 因癌症原因下巴被切除,他在 2009 年的一篇文章中表达过对于自己只能选择这种通用声音的沮丧之情:“我听上去就像是机器人 Robby(《禁忌星球》中的角色)一样,至于抑扬顿挫的语调或者是想展示一下口才更是不可能的事情。”他在谈话中往往会被忽略,这让他心生厌倦,他也受够了自己被人看上去像“白痴”一样。他在文中提到:“我们都能把人送上月球,人们对于这样的愿望也总是津津乐道,那我为什么就不能拥有自己的声音呢?”

VocaliD 的语音库如何解决问题

这正是 Patel 早已开始着手解决的问题。2007 年,她开始研究相关技术,希望能够为言语障碍人群定制更能展示他们自己、更加自然的数字声音。到 2014 年,Patel 带领团队创建出了他们口中的世界上第一个“语音库”(Voicebank)。这是一个在线平台,无论身处何方,只要能联网的人都可以通过录制自己大声朗读的内容,将自己的声音“捐献”给 VocaliD 的语音库。程序设置的朗读内容都是一些特殊设计的句子,能够捕捉到英语语言中所有的音位。(早期的捐献者需要上传 3487 个句子;现在,VocaliD 的研发总监 Geoff Meltzner 可以只用 1000 个句子就能制作出新声音,当然材料越多,最后出来的声音效果也更加自然。)

每笔“捐献”内容都会被编入一个声音库,供 VocaliD 为新客户制作新声音时用。公司通过将客户自己的声音与某位捐献者的词汇结合到一起,为客户提供 BeSpoke(全定制西服,区别于半定制西服和成品西服)式全定制的声音。这样一来,如果是一位十几岁的青少年,那他就可以用他哥哥捐献的声音,或者是语音库中某位合适的陌生人的声音,以最接近他们自己设想的声音质量为准。(像 Joe 这样的客户预先存储声音,以供自己后续使用,VocaliD 将这种称为“声音遗产”:先记录下自己的声音,之后时间一到,他们就可以收到自己声音的数字版本。)

像这样创建一个新的数字声音需要将人类声音分解为两个要素:声源和滤波器,这两个要素在实际中往往是同时运作。“声源”这一术语是用来形容声带、喉和喉部肌肉这些在我们笑、叫喊或说话时,负责发出声音的身体部位。正如 VocaliD 研发部门副总裁 Geoff Meltzner 所解释的那样,你的声源就像是一个指纹,“每一个声源都有足够的身份信息,能够让它在众多声源中成为独一无二的存在。”声音的“滤波器”是指将这些声音塑造成离散、可辨别词语的肌肉(舌头、嘴唇和咽等)。

VocaliD 技术的工作原理是从接收者处捕捉几秒钟的元音(声源),并将其应用于捐献者提供的滤波器中。这样的组合就可以产出一个大部分是“属于”接收者的声音。除此之外,Meltzner 也可以通过调整算法来制作“更温暖”(更多的鼻音)、“更权威”(音调低)或者是“更清亮”(音调偏高)的声音。

新声音制作完成后,会以插件形式添加到接收者使用的任何语音设备中。最近,VocaliD 在他们的 app 中添加了一个新功能,用户可以利用这一功能调整他们的声音,以获取自己想要的音色和音量。系统的设计是为了满足用户的便利性需求,但偶尔也会出现故障。有一次,一位十几岁的客户惊慌地呼叫 Patel,因为她刚刚更新了 iPhone 上的软件,却发现找不到自己的声音了。

捐赠你的声音通常需要几天的时间,但与捐赠肾脏这样的器官不同,在捐赠声音过程中你是处于全程清醒的状态。捐赠过程不需要筛选,所需的条件也只是笔记本电脑和网络连接而已。在去年冬天一个慵懒的日子里,我决定捐出我的声音,接下来的我身体倾斜向我的笔记本电脑,嘴对着内置麦克风的位置,重复着:“That tiramisu is to die for! That tiramisu is to die for!”

VocaliD 的人类语音库支持网络浏览器运行,看上去有点像视频游戏:靛蓝色的背景色凸显出一个看上去非常活泼的有胳膊有腿的卡通嘴形象。它的旁边就是需要你朗读的文本内容,录制并且感到满意之后,你可以点击将句子上传到语音库,然后会出现新一行的文本。屏幕底部会有一栏用来显示你的录音进度。

因为要录制的句子有很多,捐献者一般每次只做几个小时,要完成整个过程通常需要几天甚至几个周的时间。为了让漫长的录音过程变得有趣一些,你可以根据自己的兴趣选择阅读材料,像诗歌或者科幻小说等。我读过的句子有谚语内容(“It ain’t over till the fat lady sings!”)、有平常用语(“Did you see it on Twitter?”)、也有紧急事件用语(“This is an emergency. Get help now”)。有些人会感觉这太私密,因为身体的任何部位都属于个人。这其实也反映了我们欣赏自我价值的一个核心所在:我们都是独一无二的自己。声音也是属于个人的一个独特的礼物,它既是具体的,又是抽象的,是肉体的自我与这个世界之间交流的使者。

当“I love you”这句话出现的时候,我突然感觉有些微的手足无措,我一遍又一遍的录制这句话。(我了解到有些人在录制到这里的时候,留下了眼泪。)这是一种怎样的我-爱-你呢?是对爱人、对父母还是对自己的宠物说呢?这个我爱你是从容不迫抒发自己的感觉(“I love you”)还是为了证明什么呢(“I love you!”)?是像初恋那样害羞的表白还是像母亲对孩子说晚安一样的日常表述?我有些微微冒汗,最终将这句话以一种温暖而又中立的语气进行了录制,希望在播放时不会显得太突兀。之后,我紧闭双眼,按了提交,这也是我那天提交的最后一句话。

“大声说出的话能够让我们的主观想法变得更加真实”

在我进行声音捐献后不久,我就到地处波士顿西郊的 VocaliD 办公室拜访了 Rupal Patel。Patel 个头小巧但充满活力,眼眸清澈明亮,留着长及下巴的短发,说起话流利而清晰。她非常清楚,对于那些失去言语能力的人来说,能拥有个性化的声音是多么神奇的一件事。她向我解释说,当那些人出现言语沟通障碍时,他们很有可能会被工作单位辞退、在社交生活中被隔离,或者是被误认为认知障碍,导致隐形的歧视。

人类对其他人的声音会给出特别的关注,产生同理心,并且会不自觉地将说话的能力等同于大脑思维能力。2010 年,人类学家 Mary Wickenden 针对青少年 AAC 用户发表了一篇题为《青少年世界,不同的声音》(Teenage Worlds, Different Voices)的论文。她在论文中指出:“如果你不能说话,那可能就很难证明你的(所思所想)……大声说出的话能够让我们的主观想法变得‘更加真实’。”

不能说话的人会不断接收到来自社会的一种信号,让他们更加意识到自己在社会眼中的“不真实”。VocaliD 在第一年总共制作出了七个声音,其中有六个是提供给患有脑瘫的儿童或青少年。他们常常抱怨,陌生往往会完全忽视他们,是直接同他们的父母交流,或者在同他们说话的时候,会把他们当作刚会走路的孩子一样对待。

根据个人用户需求的不同,文本输入-语音播放技术的具体应用也存在很大的不同:能够控制手指肌肉的人可以在传统键盘上打字,然后文本内容会通过扬声器进行语音播放。最常见的是另外一种版本:在用户控制的最好的肢体部位附近设置操作杆或开关,来让他们选择屏幕中所需要的单词、短语或符号。那些无法使用操作杆的用户需要的则是能够追踪眼球运动的屏幕,当用户盯着屏幕某处内容的时间达到一定长度,程序就会自动开始播放这些内容。

但是,即便是对于那些能够熟练使用这种文本输入-语音播放技术的用户来说,这些设备也很有可能会让他们感到受挫。因为通常,在你找到需要的字符或符号之前,可能需要先等上十几个字母或符号从屏幕上滚动而过,一旦错过,就必须等待再一次的循环滚动。一直到前不久,许多设备甚至都没有用来表示女性生殖器官的单词或符号,这就意味着用户无法与朋友或伴侣坦率地谈论性这一话题,也无法提醒护理人员自己有类似尿路感染这样的生殖器官疾病。

预先制作好的声音往往与用户的年龄不符,或者听上去是令人顿感沮丧的机器人声音。Patel 向我讲述了她的一位客户,一位叫 Sara Young 的女孩。在 VocaliD 为她定制新声音之前,Sara 一直使用的是与她母亲的 GPS 导航和一些银行的自动取款机提示音相同的声音(“Heather”)。在 Sara 学校,有几位言语功能障碍的女孩使用的也是这个声音,这就意味着在小组讨论的环境中,除非你仔细观察,否则你根本不可能区分出是谁在说话。Sara 也会像许多伙伴那样,经常在自己的设备中选择不同的声音,挨个试用上一两天。有时她也会选择用成年男性的声音,逗自己笑一下,但是那种沮丧的感觉仍然挥之不去。在我拜访 VocaliD 之时,Patel 和 Meltzne 正在对 Sara 的定制声音做最后的调试。这个声音的制作结合了 Sara 录制的几个“ahhh”的声音以及另外一位捐赠者的声音,他们希望能在圣诞节前最终完成这一声音的制作。

在拜访 Patel 的第二天,我陪她一起去马萨诸塞州列克星敦的 Cotting School 参加一场技术展览会。Cotting School 是一所面向特殊需求学生开放的私立学校,其中有几名学生是 VocaliD 的客户。VocaliD 经常在学校举行外展服务活动,一方面将他们的产品介绍给使用 ACC 的儿童,另一方面也是为招募新的声音捐献者,因为公司语音库一直都缺少年轻捐献者的声音。这次的技术展览会上有很多患有脑瘫的儿童以及家长,其中就包括 Sara。像许多的脑瘫儿童一样,Sara 个头相对年龄来说不成比例,因为进食需要肌肉控制,但她在这方面存在缺陷。Sara 留着一头黑色的卷发,有几缕挑染成了深青色,我们见面时她穿着一件浅粉色的长袖衬衫,轮椅边挂了一个粉红色的小包,她用来控制轮椅的脚上(在 Sara 的四肢中,唯一能够很好控制轮椅的就是她的左脚)穿的也是粉色的运动鞋。

对于患有运动或肌肉障碍的人来说,身体往往会发生痉挛,Sara 也是这样。她的脖子呈扭曲状态,手臂蜷曲无法伸展。如果没人帮助,那她无法进食、淋浴或者是去卫生间。她使用硅质吸管喝水,因为在她吸吮时会不受控制的下口咬,普通的吸管根本受不了。(Sara 父母在想到用硅质吸管之前,是将鱼缸用水管剪短给她用。)Sara 用左脚在 iPad 上做家庭作业,说话则是通过安装在她轮椅上的 AAC 设备,感知眼球运动,替代打字输入的方式。

Sara 的身体状态乍看上去就像小孩一样,但其实她的心理已经是典型的青少年状态。她安静地坐在轮椅上,偶尔会无精打采地前后晃动,好像有人在前后摇动她的轮椅一样。她戴了一个蓝粉色相间的鼻环,并表示对于自己用的那部过时的手机感到非常厌恶。(“黑莓太烂了”,她告诉我说。)

因为 Sara 非常善于交流,现在她已经成为所在 AAC 社区的形象大使。在这次的技术展览会上,Sara 和她的母亲 Amy Young 一起登台发表了主题演讲。Sara 先讲了几句,她将想说的话提前“写入”了设备中,现场播放即可。她的声音听上去确实像一台自动取款机的提示声,“大-家-好,我-是-Sara,今-年-16-岁。在我没用这台设备之前,人们在跟我说话时都把我当作婴儿一样,或者他们就直接跟我的妈妈交流。有时,我说的比较慢,他们就会抢先替我说出来,他们根本不会去等我自己说出来。”

在之后进行的提问环节,我们也体会到了 Sara 所说的那种经历。有人问她,平时都用 iPad 干什么,Sara 开始专注地盯着屏幕,尽力控制自己的头部不受颈部痉挛的影响,以保持视线始终对准屏幕。30 秒过去了,然后 60 秒过去了。大家都静静地坐着,看着她。90 秒之后,电脑流畅地“说”道:“HWFACEBOOKIGSNAPCHATMUSIC”。

Amy 翻译道:“Homework, Facebook, Instagram, Snapchat and music。”(做家庭作业,上 Facebook、Instagram、Snapchat,还有听音乐。)

在长达一个小时的问答环节,Sara 总共“说”了不到 30 个单词,Amy 负责大部分的演讲内容,部分原因可能是为了时间,另外也是因为 Sara 通常需要依靠 Amy 来传达自己的一些非语言暗示。Amy 后来向我解释道:“这对她来说是一股强大的力量,虽然我们鼓励人们直接同她交谈,但有时她会直接看着我,那意思就是‘你能替我回答这个问题吗?’”

Sara 有一种狡黠的幽默感,但是由于她的说话风格和语速问题,所以她更多地会在其中穿插使用感叹词。在 Amy 详细解释为什么苹果的蓝牙系统与电动轮椅不兼容的过程中,Sara 插了一句,更简明扼要地说道:“IDIOTS。”有时她也会用自己的声音发出一些简短的呼喊:“Yeah”,对她母亲的发言表示喝彩。其实在日常生活中,当她和那些已经适应她讲话方式的人一起交流时,谈话更加自然而流畅。问答环节结束后,Sara 和学校一位年轻的护理人员一起翻看 Instagram,她发出了一连串愉快的声音。她的护理看着屏幕,不以为然地摇了摇头,说道:“你们班太疯狂了!”

Sara 笑了起来,“说”道:“只有你猜不到,没有你想不到。”(“YOU DON’T EVEN KNOW.”)

Sara 话语中想表达的意思与交付这些话语的机械式风格之间存在的这种脱节让人感觉有些落差。Amy 表示:“这种数字语音确实让人感觉有些失落,当我们听到关于 VocaliD 的消息时,我们就想,‘如果制作出来的声音更加自然那该有多棒!’Sara 还没有体验过拥有符合自己年龄的声音是怎样的感觉,这对她来说真的很酷。如果声音更自然,传达出来的效果应该会更接近她真正想表达的意思。”

当我将她的话转述给 Patel 的时候,她的眼里顿时泛起了亮光,“我真的希望人们不仅能听到 Sara,也能听懂她真正想表达的意思,看到她的情绪,体验她的感受。如果能将她自己发出的“Yeah”或者“No”或者其他任何单词的声音实现到她设备的过渡,那交流起来会让人感觉更自然也更流畅,这岂不是很棒?在理想世界里,她甚至都不需要用到这些设备,她只要戴一副眼镜,就能表达任何信息。对于言语障碍人群来说,讲话不再是一种痛苦的感受,他们也不会再被看作是“另类”的交流者。这是未来发展的方向所在。”

“这就相当于是我的‘魂器’”

对于 Joe 来说,从原来身体以及言语功能健全到现在的身体残疾甚至神智也不健全(在有些存心的人看来)的这一转变让人感到难以接受,并且非常痛苦。当他手术后醒来之时,也是他第一次真正的感到无语。医生已经切除了他绝大部分的舌头,他后来对我解释道:“你要知道,我们舌头有很大一部分是看不到的,位于喉咙处的那部分舌头根本就看不到。”医生从他的股四头肌提取了一块肌肉,将其连接到喉咙处所剩的舌头上。他们希望 Joe 有朝一日能运用新舌头,并且用它来发音、说话。

在术后长达一周半的时间里,他的颈部一直放置着气管套管,负责将他气管内的空气抽取出来。这种情况下,即便他想要说话,也根本发不出任何声音。他在给我的一封电子邮件中写道:“我感觉自己完全被困住了,成为了被自己身体困住的一名囚犯。”如果他感觉到饿或者是痛,他会写下来告诉医务人员,但他表示,“这与那种有意义的沟通根本就不搭边”。他的朋友到医院来探望他,这也是第一次,他完全不能参与到对话之中,插不进嘴,也讲不了段子。他就这样坐着,静静地看着。他告诉我:“我喜欢辩论,喜欢与人讨论,也希望别人能听到我的声音。最重要的是,不能开玩笑,这事太难了。当你需要将所说的一切都写下来时,就不是一样的感觉了。你会错过很多个原本恰到好处的时刻。”

当你无法即时参与到对话之中时,除了上面所提到的这一苦恼之外,还会失去一样东西,那就是被平等对待的权利。Joe 也发现了这一点,他在邮件中写道:“人们对待你的方式开始发生变化。他们并不是有意的,但他们会不由自主的格外照顾你,把你当孩子一样看待。”

在 Joe 手术过后的几个月里,他的舌头通过理疗渐渐好转起来。他的嗓音比手术前要低沉一些,但随着手术所致的肿胀减轻,可能还会有所升高。去年夏天他在给我的邮件中写道:“我怕我再也发不出‘S’这个音了。”除此之外,L 和 J 这两个音对他来说也很困难,这让他感到十分挫败,因为这就意味着,他在说自己的名字还有他妻子的名字- Louisa 时都会十分费力。

去年 11 月底,他高兴地对我说,现在他已经差不多能发出 S 这个音了。平时他喜欢用自己偶尔说的还不是很清楚的自然语言,但他发现在演讲或者是正式的讨论场合,数字语音很有帮助。最近,他在一家广告公司找到了一份新工作,他用自己的 VocaliD 版本向新同事展示了他之前的声音。

Joe 并不是每天都会用到 AAC 设备,但他很坚定地表示这对他来说很重要,因为不管怎样,他都知道他的声音就存在于这个世界上。他说道:“我妻子是《哈利波特》的粉丝,所以我开玩笑说这就相当于是我的‘魂器’(Horcrux,指藏有一个人部分灵魂的物体,从而可以获得一种永生。)”Joe 认为这是一种自我保护的行动,“我担心随着年龄的增长,这件事会逐渐地彻底成为过去,我可能会开始忘记自己的声音。”

Patel 表示,经常会有人出于这样的原因考虑来将自己的声音存储到语音库中。之前她就注意到,有许多的变性人会在开始激素替代疗法之前,将他们的声音存储到语音库中。对于他们来说,语音库就是保存过去自己的一个保险库。就像 Joe 先前所说的那样,这份记录就在那里,随时可以找到,以防万一:这就是过去的我。

“新声音从某种程度上来说是陌生的,就像是我儿子经历变声期一样。”

对于另外的一些人来说,数字声音并不是为找到过去的自己,而是未来的自己。在圣诞节前夕,Sara Young 在 VocaliD 办公室拿到了定制的新声音。Patel 和 Meltzner 站在 Sara 和她妈妈面前,略显紧张,简单的寒暄过后 Meltzner 拿出了为 Sara 设计的两个声音,让 Sara 自己选择。他先是打开第一个声音,这一声音按照预先设定好的一句话说道:

嗨,我是 Sara,我今年 16 岁,我很棒!

这个细细的声音听上去就像是 Heather 的小妹妹一样,并且在声音基础之上能让人有一种特别的、人性化的感觉。

Sara 高兴地笑了起来。“好的,”Patel 说道,

那我们再来听一下第二个声音。

嗨,我是 Sara,我今年 16 岁,我很棒!

第二个声音听起来更清亮,像铃铛一般清脆。音色听上去比第一个声音会年长一些,但却更显活力。

Patel 接下来开始询问 Sara 的意见:

那你喜欢哪一个声音呢?

Sara 思考了一段时间,选择了第二个。Patel 笑道:

哈!我们也喜欢第二个声音。那你为什么喜欢第二个声音呢?

Sara “说”道:

它更有活力。

之后,他们将第二个声音下载到了 Sara 的设备上。Patel 后来告诉我,第一次向客户播放新声音时他们的反应往往会比较平淡,因为他们不知道该做出怎样的回应。真正有意思的是接下来的几天或者几个周之后,客户会注意到别人对待他们的方式发生了变化,并且那个时候这个更像他们自己的新声音也会逐渐与他们的主观意识实现真正的融合。

下载过程中,Patel 问 Amy 感觉怎样。“很好,只要 Sara 感觉好就行!”她停顿了一会,继续说道:“可能需要一段时间来习惯,毕竟之前的声音 Heather 她已经用了 12 年。新声音从某种程度上来说是陌生的,就像是我儿子经历变声期一样。”

Sara 的新声音完成下载之后,VocaliD 团队都聚了过来,想听一下 Sara 说出的第一句话会是什么。

“谢谢!感谢你们为我做的这些,我就知道你们肯定能做到!”

Patel 笑了起来,接着说道:“也要谢谢你给我们这个机会!还有什么想说的吗?”

Sara 想了一下,然后盯着她的屏幕。

“哟。”

编译组出品。编辑:郝鹏程

收藏 推荐 打印 | 录入:Cstor | 阅读:
相关新闻      
本文评论   查看全部评论 (0)
表情: 表情 姓名: 字数
点评:
       
评论声明
  • 尊重网上道德,遵守中华人民共和国的各项有关法律法规
  • 承担一切因您的行为而直接或间接导致的民事或刑事法律责任
  • 本站管理人员有权保留或删除其管辖留言中的任意内容
  • 本站有权在网站内转载或引用您的评论
  • 参与本评论即表明您已经阅读并接受上述条款