Google昨天在香港发布了革命性的广东话语音搜索服务,并且为了让大家对这项服务有更深一步的认识,Google较早前已经拍下一段 Youtube 影片教导如何安装,而且更示范在生活中各层面的应用。不过大家若细心留意片中的 Nexus One,应该不难发现此机已升级至 Android 2.3 版本,因为其绿色的通话、浏览器、状态图示及黑色通知栏,是新系统 Gingerbread 的一大特色。Google 这次如此公然利用 Android 2.3 Nexus One 作示范,难道暗示会就快推出?跳转有影片,不过大家看 Android 2.3 接口之余,也要留意广东话语音搜寻是怎样。另外,您想更了解广东话语音搜寻的开发过程,也可跳转看 Google 提供的「广东话语音搜寻背后的故事」文章。
广东话语音搜寻背后的故事
以下是一个小测试:要在手机输入「铜锣湾日本料理」,用口说,还是用手逐个以各种中文输入法输入相同的查询….哪一种方式比较快呢?
语音一向是人们与手机互动的最自然方式。事实上,说话通常比打字更快更容易。Google在开发英语、普通话和日语版本的「语音搜寻」(Voice Search)之后,陆续支持多种语言版本,当中包括韩语、法语、德语、意大利语、西班牙语、捷克语、波兰语、俄语和土耳其语。现在,轮到香港人最熟悉的 广东话了。
广东话向来被寓为全球最难学的语言之一,而Google认为在手机平台上,由于键盘通常很细小,中文输入往往比拉丁字母困难得多。香港常用的中文输 入法包括仓颉及手写输入,仓颉并不是一个易上手的输入法,而手写输入法虽然易学,但就有慢的缺点。两者对香港用户来说都不是一个理想的手机搜寻输入法。 Google因而相信,开发广东话语音搜寻服务能解决香港用户缺乏理想的手机输入法的问题。
不过,在开发过程中,Google亦遇到不少挑战,有些是广东话独有的,有些是亚洲语言共通的,也有是开发任何语言的语音搜寻都会遇到的,以下就是我们在开发过程中遇到的一些有趣的挑战:
数据收集对比起英文,现时全球只有很少广东话数据库够大够齐全,足以用来训练一套辩识系统。建立一套辩识系统同 时需要声音及文字数据,声音数据方面,Google用了DataHound收集技术,透过智能手机录下及上载大量义工的广东话声音样本。文字数据方 面,http://www.google.com.hk的搜寻纪录是最好的数据库,能快速且准确地训练语言模型。
中文词汇限制
中文与西方语文不同,词与词之间并没有空格分开,为了限制说话辩认器(speechrecognizer)的词库大小,及简化词典开发,Google选择了用字,而非词语,作为系统的基本组成单元,因此亦容许不同字有不同的读音。
中英夹杂
Google发现香港用户比起国内及台湾的用户更喜欢在说话时夹杂英文,例如中国用户的搜寻平均有10%夹杂英文,台湾是15%,然而香港则有30%的搜寻是中英夹杂的。要建立一个能准确辩认中英夹杂句子的系统,Google把英文词语连上一系列相关广东话发音单元上。
音调问题
虽然语言学家就广东话究竟有多少个音调仍未有共识,6个、7个、9个或10个都有人提出,但无论如何,还是一个字:多。为了准确辩认广东话,Google 把一个音调加一个元音(vowel)的组合当成一个辩认单元,为了不让最后的模型变得太复杂,工程师们把一些很少用到的组合合成一个单一模型。
音译词很多
由于广东话里音译词很多,同一个词,有些香港用户喜欢用英文原文,有些则喜欢用中文音译词(例如:「Jordan」与「佐敦」),这对训练及评估系统都带 来不少挑战。开发人员最后决定用一套算法,透过搜寻结果是否准确复核辩认出来的字词,而不是透过检查说话辩认器辩认出来的字连起来是否有意义来复核。
不同的口音及嘈杂的环境
不同的人说话带有不同口音,而他们在使用语音搜寻时,亦身处各种截然不同的环境,例如办公室、地铁、商场等。为了令搜寻系统在各种环境都能准确运作,Google收集了不同人在不同环境说话的音频数据输入系统,令其更准确。
暂无更多评论