7月1日,科技博客網(wǎng)站phoneArena刊載Michael H.的文章,對(duì)三大語音助手不提供完全語音控制功能進(jìn)行了闡釋。以下為文章全文:
我是作家,這意味著我最擅長(zhǎng)通過文字而非說話表達(dá)自己的思想。但我同時(shí)是個(gè)“懶人”,在完成工作時(shí)喜歡盡量減少使用計(jì)算設(shè)備。為此,我心中難免會(huì)有一個(gè)疑問:為什么Google Now、蘋果Siri和微軟Cortana不能提供完全語音控制功能?
我喜歡語音控制,這也是我換用Moto X的主要原因之一——喜歡其Touchless Controls(無須觸控操作)功能。用上Moto X的Touchless Controls后,我有些“得寸進(jìn)尺”。麻煩在于,只使用語音控制功能,我能完成的工作受到一定限制。語音命令有很多類,我可以通過語音命令發(fā)送電子郵件、瀏覽網(wǎng)站、提問、問路、設(shè)置定時(shí)、設(shè)置提醒、播放音樂等。麻煩在于,計(jì)算設(shè)備完成第一條命令后,我就不能通過語音命令未完成其他任務(wù)了。
最近數(shù)年最好的創(chuàng)新之一是,Google把傳統(tǒng)的語音識(shí)別技術(shù)應(yīng)用在搜索領(lǐng)域。從技術(shù)角度看,這意味著Google能夠理解代詞,并把它們與之前的請(qǐng)求聯(lián)系起來。因此,如果用戶在一個(gè)語音命令中提到科懷?倫納德(Kawhi Leonard),在下一個(gè)問題中提到“him”(他),Google能理解用戶的意思,向用戶提供所需要的信息。盡管大多數(shù)人沒有完全意識(shí)到,但這是一項(xiàng)令人吃驚的技術(shù)。它使用戶能與設(shè)備自然地交流。令人遺憾的是,這種交流無法拓展到更加有用的場(chǎng)景。
自然控制
語音控制技術(shù)能執(zhí)行后續(xù)的命令,但目前的技術(shù)還存在相當(dāng)多的限制。我沒有遇到大量需要連續(xù)詢問一個(gè)人或一個(gè)地方信息的情況。我的問題在于,其他語音控制命令不包含相似的后續(xù)場(chǎng)景選項(xiàng)。例如,我讓Moto X播放Me'Shell Ndegéocello的一首歌曲,因?yàn)槲疑形从袡C(jī)會(huì)聽取其新專輯。第一條命令的執(zhí)行不存在任何問題,問題在于,一旦開始播放后,可供我使用的語音命令就幾乎沒有了,只能通過語音命令播放其他歌手的歌曲。但我真正的意圖是讓設(shè)備完成下述功能之一,例如“暫停”、“下一首”、“調(diào)高/低音量”或重復(fù)播放。令人遺憾的是,我無法通過語音命令完成這些功能。
我不明白造成這一問題的原因。從技術(shù)角度看,完全通過語音命令控制設(shè)備幾乎不存在任何障礙。語音識(shí)別技術(shù)已經(jīng)相當(dāng)成熟。所有語音命令系統(tǒng)都能理解簡(jiǎn)單的詞匯,例如,播放、暫停、下一個(gè)、上一個(gè)、重復(fù)等。Google最近拓展了其熱詞的使用范圍,使用戶能從任何地方啟動(dòng)“OK, Google”。有傳言稱新款iPhone中的Siri將包含有相似的功能,Cortana沒有理由不能為Windows Phone用戶提供相似的功能。始終接收語音命令已經(jīng)成為標(biāo)準(zhǔn),因此這不應(yīng)當(dāng)成為一個(gè)問題。
我知道,更多地使用語音命令意味著電池續(xù)航時(shí)間的縮短,這令廠商感到擔(dān)憂。但這似乎是一個(gè)相對(duì)容易解決的問題。設(shè)備始終處于語音命令接收狀態(tài)是可能的,尤其是在設(shè)備配置協(xié)處理器或針對(duì)語音命令優(yōu)化的處理器的情況下。解決這一問題的另一個(gè)方法是簡(jiǎn)單的API(應(yīng)用編程接口)。
Ubuntu Touch就計(jì)劃解決這一問題。打開一款應(yīng)用后,用戶希望使用的語音命令是有限的。新聞和其他閱讀類應(yīng)用不大量使用語音命令,但提供簡(jiǎn)單的語音命令——例如“后退”、“向下/向上滾動(dòng)”、“搜索”、“分享給”,能給絕大多數(shù)應(yīng)用增添豐富的功能。打開支持更多標(biāo)準(zhǔn)語音命令的應(yīng)用——例如媒體消費(fèi)類應(yīng)用,支持的語音命令就更明確了,例如“播放/暫停”、“下一個(gè)/上一個(gè)”、“快退/快進(jìn)”、“調(diào)高/調(diào)低音量”,甚至“跳至(某一時(shí)間)”。當(dāng)然,即使動(dòng)態(tài)命令也不會(huì)是個(gè)問題,因?yàn)閼?yīng)用內(nèi)部的命令通常是1或2個(gè)單詞,許多應(yīng)用的命令甚至是重合的,能更便利地部署標(biāo)準(zhǔn)API。識(shí)別這樣的命令不是個(gè)問題。
誰會(huì)成為第一個(gè)吃螃蟹者?
這并非是全新的功能。Windows 7和8提供了范圍廣泛得多的語音命令功能,用戶只需使用語音命令即可操縱桌面。許多人會(huì)認(rèn)為桌面系統(tǒng)的語音功能要強(qiáng)大得多,移動(dòng)設(shè)備是另外一回事兒,但是,這種想法需要改變了。移動(dòng)平臺(tái)越來越先進(jìn),在許多方面彌補(bǔ)了與桌面系統(tǒng)之間的差距。Ubuntu Touch的目標(biāo)之一是在應(yīng)用內(nèi)支持更多語音命令,Canonical展示了可以通過語音命令控制的下拉菜單,支持“打開”、“保存”等命令。
Google Now、Siri和Cortana緣何不能提供完全語音控制?
Ubuntu Touch尚不支持完全語音控制功能。坦率地說,Ubuntu Touch中的許多功能都尚未達(dá)到預(yù)期的目標(biāo)。我的疑問是,緣何主流平臺(tái)也做不到。
蘋果和Google分別在不斷地?cái)U(kuò)展Siri和Google Now的功能,Cortana發(fā)布時(shí)就帶有給人留下深刻印象的功能。但是,三家公司無一計(jì)劃提供完全語音控制功能,這頗令人感到失望。目前,我們最大的希望是,反復(fù)使用能提高語音命令被正確執(zhí)行的機(jī)率,系統(tǒng)能包含全部相關(guān)信息。
終有一天完全語音控制功能會(huì)問世,問題是哪家公司會(huì)首先提供這一功能。微軟在Windows而非Windows Phone中提供了完全語音控制功能。微軟曾表示計(jì)劃為其平臺(tái)提供“類Kinect”控制功能,但尚未披露時(shí)間表。明年發(fā)布的Windows Phone 9可能提供完全語音控制功能。
Canonical在為Ubuntu開發(fā)完全語音控制功能,但尚未完成開發(fā)工作。目前沒有明顯的證據(jù)表明蘋果在開發(fā)完全語音控制功能,但它可能至少在研發(fā)相關(guān)技術(shù)。三星也沒有披露在開發(fā)完全語音控制功能的消息。三星已經(jīng)提供了部分類似功能,S Voice采用Nuance的技術(shù)
在多段Android Wear視頻中,Google都表示在擴(kuò)大語音命令使用范圍。在一段視頻中,一名用戶在自行車上發(fā)出“OK Google, open the garage door”(OK Google,打開車庫(kù)門)的命令。令人遺憾的是,目前還很難判斷視頻的真正含義。
Google可能向開發(fā)者開放語音命令,使語音命令更深入地整合在應(yīng)用中,使開發(fā)者能創(chuàng)建定制的語音命令;Google也可能提供一套應(yīng)用能執(zhí)行的標(biāo)準(zhǔn)語音命令集,供其他應(yīng)用使用。Google的展示表明,用戶可以發(fā)出“OK Google, call me a car”(OK Google,幫我叫輛車)命令,并選擇一款應(yīng)用執(zhí)行這一命令。盡管會(huì)有些亂,第一種選項(xiàng)會(huì)催生更多功能;第二種選項(xiàng)會(huì)使功能受到一定限制,但會(huì)帶來更高的便利性。Google可能會(huì)選擇第一種選項(xiàng),增添更多完全語音控制功能。
結(jié)論
“什么”和“為什么”的問題很好回答:完全語音控制,因?yàn)槲覀兌枷M钤凇缎请H迷航》(Star Trek)中。“如何實(shí)現(xiàn)”的答案是:始終接受語音命令和API。“誰”問題的答案是所有公司,其中Google可能會(huì)首先提供完全語音控制功能。最后一個(gè)問題就是“時(shí)間”了。
根據(jù)披露的信息,Google很難在今年底前提供完全語音控制功能。完全語音控制功能可能是Android L的一部分,Google在最近的I/O開發(fā)者會(huì)議上沒有提及完全語音控制功能。完全語音控制功能與應(yīng)用的深度整合需要在系統(tǒng)層面而非僅僅在API調(diào)用層面完成。Google似乎至少在為完全語音控制功能奠定基礎(chǔ)。
令人的遺憾的是,完全語音控制功能至少明年才會(huì)問世。