享有“互聯(lián)網(wǎng)女皇”之稱的瑪麗•米克爾在2016年的互聯(lián)網(wǎng)趨勢報告中,213頁的演示文稿有23頁都在講語音。她認為,語音正在被重塑,成為人機交互的新范式,不僅語音搜索正在成為搜索的重要分支,語音交互在各種垂直領域的應用也在日益變多。
一邊是女皇預測語音會成為核心交互方式,一邊是科技公司在這一領域持續(xù)大力投入。
1、搜狗“知音”的應用場景和市場價值
8月初,搜狗語音發(fā)布了不僅“能聽會說”,還具有“能理解會思考”的智能語音交互引擎技術“知音”,刷新了外界對于人工智能技術發(fā)展的認知。首先,“知音”解決了用戶在說話過程中因語速過快而導致的吞音問題,語音識別錯誤率相對下降30%以上,語音識別速度提升3倍。其次,“知音”能夠在語音交互的過程中支持用戶修正錯誤的識別結(jié)果,用戶可以使用自然語言進行改錯。
據(jù)搜狗CTO楊洪濤介紹,搜狗從2012年開始研發(fā)智能語音技術,并在2013年開始進行深度學習。目前搜狗的智能語音技術已經(jīng)成功應用到搜狗的全線產(chǎn)品中,隨著搜狗在自然交互與知識計算方面的不斷完善,加之與行業(yè)內(nèi)其他領先企業(yè)的深度合作,“知音”將會布局到更多的終端入口,在物聯(lián)網(wǎng)、車聯(lián)網(wǎng)、人工智能等各個方面以“任務+應用”的形式在特定場景上發(fā)力,如汽車和智能家居。
不過,搜狗的智能語音技術不是一個賣技術的商業(yè)模式。搜索引擎公司在背后能夠提供的不僅僅是語音交互,它本質(zhì)上是技術應用對企業(yè)和用戶產(chǎn)生價值的一個過程。對信息的掌握和服務的整合產(chǎn)生的價值,將會極大的滿足和促進市場的需求。
2、為什么說搜狗公司本質(zhì)上是一家人工智能公司
搜狗公司并不是要“研發(fā)”人工智能,它本身就是做人工智能的公司。
從產(chǎn)品上,搜索引擎其實是人的大腦的外延,搜索引擎要理解用戶的需求,在海量的信息里找到答案;搜狗的產(chǎn)品矩陣豐富,數(shù)據(jù)和技術實現(xiàn)了深度結(jié)合。”知音“的底層,就是搜狗擁有的國內(nèi)最大規(guī)模的語音語料。
從技術上,人工智能近十年來本質(zhì)上是機器學習技術的發(fā)展,搜狗擁有的服務器數(shù)量、運算能力、積累的數(shù)據(jù),讓它成為人工智能技術的全能選手,諸如自然語言理解、輿論語音識別、知識圖譜都是搜索引擎里大量使用的技術。
搜狗現(xiàn)在一天可以產(chǎn)生12萬個小時的語音,一年產(chǎn)生出來的數(shù)據(jù)就將近5千萬小時的數(shù)據(jù)。用搜狗自己的話說,“這塊技術無論從人才儲備還是數(shù)據(jù)積累,搜狗都足以笑傲行業(yè)。”
3、未來三到五年的重點方向:自然交互+知識計算
搜狗兩個核心產(chǎn)品,一個是輸入法,一個是搜索引擎。前者是信息輸出,后者是信息獲取。但光靠打字是有瓶頸的,尤其在萬事萬物聯(lián)網(wǎng)之后,需要更多的設備進行交互,在表達方式上就會從文字走向語音。
自然交互和知識計算是整個交互引擎中研發(fā)難度最大、也最能體現(xiàn)差異化的部分。能否把自然交互和知識計算做好,是衡量搜索引擎的產(chǎn)品體驗和技術水平的重要標尺。自然交互,指的是讓機器能夠很好地理解人的自然表達,搜狗智能語音技術就是自然交互工作的一種。知識計算,指的是要把互聯(lián)網(wǎng)上海量的信息、知識提取、呈現(xiàn)和存儲,而且能做運算和推理,輔助用戶做出更好的決策。
搜狗對人工智能的“癡迷”,可以一直向上追朔到公司掌門人身上。搜狗CEO王小川是前沿科技的忠實擁泵。今年3月,當谷歌人工智能AlphaGo以4:1擊敗韓國棋手李世石,王小川宣布全公司放假一天,甚至將那天定為搜狗的“狗勝節(jié)”。當微軟HoloLens出來的時候,他也第一時間發(fā)表對產(chǎn)品和行業(yè)的看法,觀點鮮明又不乏理論支撐。
王小川曾在知乎的一篇貼子里寫道“不要用評價人的方法來評價機器的人工智能的能力,完全是不同的模式。”他還援引老羅的話稱:“人工智能就像一列火車,它臨近時你聽到了轟隆隆的聲音,你在不斷期待著它的到來。他終于到了,一閃而過,隨后便遠遠地把你拋在身后”。
隨著人工智能浪潮的來臨,以及物聯(lián)網(wǎng)場景下應用需求的不斷擴大,產(chǎn)業(yè)規(guī)模將持續(xù)快速增長。搜狗適時推出“知音”引擎,不僅有利于其在即將迎來的行業(yè)爆發(fā)的競爭格局中占得良機,對整個智能語音行業(yè)的技術革新也具有深刻意義。