文|雷科技
大家平時(shí)有使用手機(jī)語音助手的習(xí)慣嗎?
作為人工智能技術(shù)在我們?nèi)粘I钪凶钪庇^的應(yīng)用,手機(jī)的智能語音助手卻總是以一副“人工智障”的面孔出現(xiàn)在大家身邊。無論是外來的Alexa、Google Assistant、Siri還是國(guó)內(nèi)的小愛、小度,由于其智能程度和真正的“人類”還差很長(zhǎng)一段距離,這也導(dǎo)致我們能在網(wǎng)上找到許多“戲?!闭Z音助手,讓它進(jìn)入死鎖不斷循環(huán)的有趣場(chǎng)面。
而蘋果的Siri,毫無疑問就是“人工智障”中的“佼佼者”。
對(duì)于Siri的“智能”程度,一句話來概括就是“甚至還不如聯(lián)通的語音機(jī)器人”,畢竟即使是聯(lián)通的機(jī)器客服,也只會(huì)在聽到“機(jī)器人”這個(gè)關(guān)鍵詞后播放語音回復(fù),而蘋果的Siri可是能在成語接龍中被“為所欲為”自己進(jìn)入無限循環(huán)的存在。
不過從工作原理來說,Siri能有這樣的“人工智障”表現(xiàn)其實(shí)也說得過去:Siri是目前手機(jī)語音助手中為數(shù)不多的可以選擇不向蘋果分享數(shù)據(jù)、甚至可以只在設(shè)備本地運(yùn)行的語音助手。這些對(duì)用戶信息的隱私處理讓Siri成為了可能是“發(fā)展最慢”的語音助手——Siri的第一個(gè)初始版本誕生于2011年10月,誕生至今已經(jīng)超越10年。但在部分冠軍愛你功能上,Siri能實(shí)現(xiàn)的甚至還不如一些國(guó)內(nèi)公司的“后起之輩”。
不過對(duì)于廣大Siri用戶來說,未來使用Siri的體驗(yàn)有望踏上一個(gè)全新的臺(tái)階,因?yàn)镾iri終于要迎來一個(gè)“史詩(shī)級(jí)”的升級(jí):
以后使用Siri時(shí),不再需要喊“Hey Siri”了,直接喊Siri就可以了。
取消喚醒詞有多難?
說實(shí)話,取消“Hey”直接“Siri”并不能從根本解決Siri不好用這個(gè)問題,無論你怎么縮減Siri的喚醒詞,Siri能實(shí)現(xiàn)的功能依舊只有這么點(diǎn):你依然沒辦法用一句話讓Siri控制兩個(gè)不同的智能家電,也不能阻止Siri用網(wǎng)頁(yè)搜索的結(jié)果回復(fù)你提出的復(fù)雜問題,更不能像Google Assistant或小愛同學(xué)那樣幫你自動(dòng)接電話。
但從技術(shù)層面來看,取消“Hey”直接“Siri”背后的技術(shù)挑戰(zhàn)其實(shí)并不簡(jiǎn)單。
可能有人認(rèn)為取消“Hey”背后沒什么單獨(dú),甚至有效降低了Siri識(shí)別用戶語音所消耗的時(shí)間。如果我們只是簡(jiǎn)單把“Hey”從喚醒詞中移除,那確實(shí)很簡(jiǎn)單。但在此之前,我們還需要考慮另一個(gè)問題:如何保證用戶是真的需要喚醒語音助手?不能理解?那我們就要從語音助手喚醒詞背后的選擇條件開始說起了。怎樣的短語才是一個(gè)“好的”語音喚醒詞?從產(chǎn)品的角度來看,除了便于傳播之外我們還要考慮兩個(gè)從一定程度上互斥的因素:容易觸發(fā)和不容易誤觸。
我們先說第一個(gè)“容易觸發(fā)”的問題,顧名思義,語音助手的喚醒詞一定要容易觸發(fā),具體來說就是這個(gè)喚醒詞必須好讀、不容易讀錯(cuò),同時(shí)也不能太長(zhǎng),最好讓用戶可以在一句話里一口氣說完喚醒詞和語音指令。
但另一方面,喚醒詞也不能太短,更不能是日常生活中的高頻常用詞。試想一下如果Siri的觸發(fā)詞時(shí)“Hey”,那高頻誤觸只會(huì)讓Siri變得更加難用。更重要的是觸發(fā)詞必須具有“排他性”,即當(dāng)用戶說出“觸發(fā)詞”時(shí),用戶想且只想觸發(fā)語音助手。亞馬遜的Alexa就是語音助手在誤觸這方面的典型代表:
由于亞馬遜語音助手Alexa名字過于大眾,且智能設(shè)備的觸發(fā)靈敏度過高,這些設(shè)備會(huì)對(duì)日常生活中所有的“Alexa”做出響應(yīng),甚至?xí)浑娪半娨晞≈邪珹lexa的臺(tái)詞喚醒。這也是從喚醒詞中去掉“Hey”背后的技術(shù)難點(diǎn):修改喚醒詞很容易,但在縮短喚醒詞后避免語音助手誤觸,這并不簡(jiǎn)單。
智能的邊界在哪里?
當(dāng)然有人認(rèn)為語音助手誤觸無所謂,畢竟誤觸也就手機(jī)上的事,把懸浮球劃掉不就好了。但事實(shí)并非如此,語音助手觸發(fā)詞背后其實(shí)還藏著更長(zhǎng)遠(yuǎn)的問題:智能助手的邊界應(yīng)該在哪里?
在各企業(yè)的設(shè)想中,智能助手就像是一個(gè)貼心的“管家”,這一點(diǎn)在智能家居品牌中尤為常見:作為用戶的我們只要一開口,家里的電器就會(huì)自動(dòng)工作。如果大家有見過TikTok上關(guān)于“智能生活”的設(shè)想,一定對(duì)這種生活“有所耳聞”。
但實(shí)際上,還需要依靠語音交互的智能家居已經(jīng)是智能家居2.0時(shí)代的“過時(shí)產(chǎn)物”了,在智能家居3.0中,智能助手不再需要你的語音指令,就可以在幕后“觀察”用戶的狀態(tài)并
“主動(dòng)出擊”調(diào)整智能家居的設(shè)置。在智能家居體系中,這個(gè)特性叫“無感化”,即用戶不需要給出實(shí)質(zhì)性指令(語音、文字或機(jī)械開關(guān)),智能家居系統(tǒng)就會(huì)根據(jù)用戶的實(shí)際狀況主動(dòng)響應(yīng)。
在技術(shù)成熟的情況下,一個(gè)優(yōu)秀的智能家居系統(tǒng)能主動(dòng)識(shí)別用戶的真實(shí)場(chǎng)景。但對(duì)部分關(guān)注個(gè)人隱私的用戶來說,這種時(shí)刻被機(jī)器、算法甚至屏幕背后的人觀察的生活卻一刻都不能忍受。這種體驗(yàn)從好的方面看叫“無感化”,但從另一面看,這仿佛就在“黑鏡”中生活,是魚缸中的“人類生活觀察樣本”。
以此次話題中心的Hey Siri為例:既然我們可以只用Siri來喚醒Siri,那這至少意味著兩件事:
1. 手機(jī)時(shí)時(shí)刻刻在錄音,以響應(yīng)我的語音喚醒;
2. 手機(jī)在錄音后還會(huì)經(jīng)過處理,明白我說的話是什么意思,知道我什么時(shí)候想喚醒Siri,什么時(shí)候只是說話時(shí)提到。
而與其他智能助手不同的是,Siri在這里保持著高度的“克制”,即使Siri能做到剛剛提到的兩件事,但設(shè)備端處理的機(jī)制保證錄音數(shù)據(jù)只會(huì)保存在手機(jī)本地,不會(huì)上傳到其他服務(wù)器中(飛行模式可以證明這一點(diǎn));另外本地?cái)?shù)據(jù)也在硬件加密設(shè)備中保存。
但從iPhone 4S的長(zhǎng)按觸發(fā)Siri到后來的語音觸發(fā)Siri,再到手表的“抬腕”喚醒以及未來的“免Hey直接Siri”,可以預(yù)見的是智能語音助手必將進(jìn)一步朝著“無感化”進(jìn)發(fā)。至于未來的語音助手還能不能把持住功能與隱私之間的界限,以及絕大多數(shù)用戶究竟擔(dān)不擔(dān)心自己被“大數(shù)據(jù)”,之前魅族的“三零手機(jī)”的市場(chǎng)回應(yīng)已經(jīng)給了我們的答案。