中文字幕在线观看,亚洲а∨天堂久久精品9966,亚洲成a人片在线观看你懂的,亚洲av成人片无码网站,亚洲国产精品无码久久久五月天

云知聲梁家恩:面向移動(dòng)互聯(lián)網(wǎng)的智能語音云

2019-02-26    來源:多智時(shí)代

容器云強(qiáng)勢(shì)上線!快速搭建集群,上萬Linux鏡像隨意使用

第五屆中國云計(jì)算大會(huì)于2013年6月5-7日在北京國家會(huì)議中心拉開帷幕。本次大會(huì)以國際視野,洞悉全球云計(jì)算發(fā)展趨勢(shì),并從應(yīng)用出發(fā),探討云計(jì)算與大數(shù)據(jù)、云計(jì)算與移動(dòng)互聯(lián)網(wǎng)、云安全及云計(jì)算行業(yè)應(yīng)用等焦點(diǎn)話題。大會(huì)還特別設(shè)立了云計(jì)算服務(wù)展示區(qū)域,交流國際云計(jì)算最新研究成果,展示國內(nèi)云計(jì)算試點(diǎn)城市發(fā)展成就,分享云計(jì)算發(fā)展經(jīng)驗(yàn),促進(jìn)全球云計(jì)算創(chuàng)新合作。

云知聲梁家恩:面向移動(dòng)互聯(lián)網(wǎng)的智能語音云

北京云知聲創(chuàng)始人、CEO 梁家恩

以下是演講實(shí)錄:

梁家恩:謝謝大家。非常高興有機(jī)會(huì)在云計(jì)算大會(huì)上跟大家分享一個(gè)云計(jì)算比較特定的應(yīng)用案例,也就是語音云的應(yīng)用方式,以及我們的云知聲平臺(tái)如何共享給廣大的開發(fā)者。我的報(bào)告主要分幾個(gè)方面的內(nèi)容——移動(dòng)互聯(lián)網(wǎng)爆發(fā)的背景下研究語音平臺(tái)、語音識(shí)別技術(shù)的突破、云知聲開放語音云平臺(tái)、互聯(lián)網(wǎng)應(yīng)用案例、應(yīng)用開發(fā)指南。

移動(dòng)互聯(lián)網(wǎng)的爆發(fā)具有三大特點(diǎn):

第一,帶寬增加,費(fèi)用降低。移動(dòng)通信技術(shù)的快速發(fā)展,從以前的模擬時(shí)代到后來的2G、3G,甚至到4G、Wi-Fi,使我們的寬帶不斷加寬、費(fèi)用不斷降低,使終端和云平臺(tái)的溝通質(zhì)量非常高,同時(shí)成本越來越低。

第二,移動(dòng)終端智能化。在十年前上網(wǎng)的機(jī)器都是PC機(jī),它不方便攜帶。到現(xiàn)在為止有很多的智能設(shè)備,最簡(jiǎn)單的就是智能手機(jī)。現(xiàn)在還有一些電視設(shè)備、車載設(shè)備、穿戴設(shè)備,像谷歌眼鏡,還有一些玩具,也可以通過語言進(jìn)行溝通交流。

第三,云計(jì)算平臺(tái)及虛擬化技術(shù)帶動(dòng)生產(chǎn)力發(fā)展。云計(jì)算的平臺(tái),包括虛擬化的技術(shù),以及CPU、GPU的發(fā)展,使得平臺(tái)的生產(chǎn)力越來越強(qiáng)大。

有這三個(gè)條件,我們可以用一個(gè)非常小的移動(dòng)終端,通過移動(dòng)通信的手段與強(qiáng)大的云計(jì)算平臺(tái)建立起關(guān)系,得到非常好的線上互動(dòng)服務(wù)。這是移動(dòng)互聯(lián)網(wǎng)的硬件發(fā)展趨勢(shì)。

在這種條件下,我們還迎來了更大的爆發(fā)。首先是移動(dòng)終端,在2013年的預(yù)測(cè)可以達(dá)到3.9億的出貨量。還有一些海量的用戶,2012年底移動(dòng)互聯(lián)網(wǎng)的用戶數(shù)量已經(jīng)超過4億。在移動(dòng)語音搜索方面,百度去年有10%的搜索來自語音搜索,谷歌的數(shù)據(jù)是超過25%。移動(dòng)產(chǎn)品更加注重交互的體驗(yàn),現(xiàn)在招聘一個(gè)好的產(chǎn)品經(jīng)理的薪資已經(jīng)不亞于架構(gòu)師。

這張圖是從2005年到2012年以來的網(wǎng)民增長(zhǎng)數(shù)量以及互聯(lián)網(wǎng)的普及率。2005年只有1億的互聯(lián)網(wǎng)用戶,現(xiàn)在已經(jīng)發(fā)展到將近6億,增長(zhǎng)了將近6倍;ヂ(lián)網(wǎng)的普及率也從8.5%提高到42.1%。其中有一個(gè)重要的比例就是通過手機(jī)上網(wǎng),從07年的5千萬到2012年突破4億,過去在4個(gè)人里面只有1個(gè)人通過手機(jī)上網(wǎng),現(xiàn)在4個(gè)人里面已經(jīng)有3個(gè)人通過手機(jī)上網(wǎng)。

全世界主流的語音識(shí)別系統(tǒng)均基于以下5個(gè)框架:

1. 要將捕捉的聲音信號(hào)變成特征序列,叫做特征提取。它需要解決環(huán)境噪聲、通道的問題,通道就是我們是通過麥克風(fēng),還是通過手機(jī)或者是電話將語音采集下來。第三點(diǎn)是消除說話人因素,像我這樣具有一定口音,要把這個(gè)因素消除掉。

2. 統(tǒng)計(jì)聲學(xué)模型。我們必須要得到足夠多的人的說話發(fā)音狀況。比如大家發(fā)“啊”這個(gè)音的時(shí)候,不同的人發(fā)出的聲音是不一樣的,以及分布狀況是什么樣的。最近深度神經(jīng)網(wǎng)絡(luò)學(xué)習(xí)的改進(jìn)點(diǎn)是用在這個(gè)領(lǐng)域,當(dāng)初是用混合高速模式建這個(gè)模型,但建模能力是比較弱的。發(fā)音準(zhǔn)確的話就像拼音輸入法,其實(shí)干擾最大的還是前面這一層,不同的人說話有不同的口音、不同的背景和不同的通道,如果把它變成一個(gè)拼音串,它跟普通的拼音輸入法是一樣的。

3. 發(fā)音詞典。發(fā)音詞典是將音映射到一個(gè)詞,這個(gè)詞典也非常講究。漢語的詞語量非常大,大概有7萬個(gè)漢字,最常用的是2萬多字。還有一些領(lǐng)域?qū)S迷~典,比如在餐飲、地圖領(lǐng)域用的詞是不一樣的。還有熱詞表,在互聯(lián)網(wǎng)領(lǐng)域非常明顯,在一定時(shí)間就會(huì)出現(xiàn)一個(gè)新的詞,以前從來沒聽說過,現(xiàn)在它有了新的含義。還有個(gè)性化的詞表,它就像每個(gè)人的通訊錄。

4. 統(tǒng)計(jì)語言模型。不同詞串出現(xiàn)的頻率是不一樣的,它是詞串的概率統(tǒng)計(jì)分析。我們做的越大,搜索的可能性就越大。

5. 識(shí)別編碼器。它實(shí)際上是一個(gè)搜索引擎,當(dāng)我們得到一個(gè)特殊序列以后,可以快速找到匹配的句子。

語音識(shí)別看上去是人工智能,看上去是非常神奇的事情。我們經(jīng)常舉一個(gè)例子就是魔術(shù)師,對(duì)魔術(shù)師來說是通過各種手法和道具來操作,看上去是不可思議的,但都是通過扎實(shí)的基本功實(shí)現(xiàn)的。語音識(shí)別本身就是猜測(cè)的問題,當(dāng)我看到一個(gè)語音的特征信號(hào),我會(huì)想你最想說的是哪句話,如果我十有八九都猜對(duì)的話,你會(huì)覺得這個(gè)系統(tǒng)的準(zhǔn)確性非常好。

最近取得的技術(shù)突破,最應(yīng)該歸結(jié)的是統(tǒng)計(jì)語音識(shí)別架構(gòu)的成熟,我們可以通過越來越多的數(shù)據(jù)讓系統(tǒng)變得越來越好,因?yàn)槲覀兺耆强咳斯ひ?guī)則根本做不到這么好的應(yīng)用。整個(gè)學(xué)術(shù)界在最近十年來的進(jìn)展很多,這些技術(shù)在大數(shù)據(jù)的場(chǎng)合下,哪些技術(shù)是真正有效的,能夠把它們非常有效地整合在一起做一個(gè)精確的系統(tǒng),這就要看團(tuán)隊(duì)的實(shí)力和理解能力。

DNN深度神經(jīng)網(wǎng)絡(luò)建模

這里標(biāo)成紅色的是DNN深度神經(jīng)網(wǎng)絡(luò)建模,這是從2009年開始爆發(fā)的應(yīng)用,但在學(xué)界從06年就開始應(yīng)用。

在技術(shù)方面的發(fā)展確實(shí)有突破,更重要的是計(jì)算能力以及海量數(shù)據(jù)的建模能力已經(jīng)變得非常強(qiáng)大,在這種情況下可以做到實(shí)用化。

對(duì)于語音識(shí)別技術(shù)來說,關(guān)鍵的指標(biāo)怎么樣評(píng)估呢?有兩點(diǎn)是非常重要的。第一,準(zhǔn)確率。如果識(shí)別不準(zhǔn)確,再快也沒有價(jià)值。識(shí)別準(zhǔn)確率應(yīng)該怎樣衡量?就是當(dāng)我說一句話的時(shí)候,如果里面有100個(gè)字,能識(shí)別多少個(gè)字,我們還要減掉錯(cuò)字、多字或者漏字。在業(yè)界實(shí)用的系統(tǒng)的準(zhǔn)確率要達(dá)到90%。十年前在實(shí)驗(yàn)室的時(shí)候可能會(huì)做到,但我們要在實(shí)用場(chǎng)合做到90%的準(zhǔn)確率是很困難的。第二,實(shí)時(shí)系數(shù)。我們每處理一秒鐘語音需要多長(zhǎng)的計(jì)算時(shí)間做到這一點(diǎn)。如果實(shí)時(shí)系數(shù)小于1的情況下才可以做線上服務(wù),如果是1的話線上服務(wù)就非常困難,現(xiàn)在是越快越好。

它最點(diǎn)的難點(diǎn)在什么地方呢?語音的工具都是開源的,非常成熟的,搭建起一個(gè)識(shí)別系統(tǒng)并不是非常困難的事情。困難的是當(dāng)我們把這個(gè)系統(tǒng)用到一個(gè)大規(guī)模系統(tǒng)中的時(shí)候是參數(shù)系統(tǒng)的綜合優(yōu)化,我們能不能達(dá)到非常優(yōu)秀的性能?這個(gè)并不是非常嚴(yán)謹(jǐn)?shù)臄?shù)學(xué)表述方式。我前面提到一共有5個(gè)環(huán)節(jié),如果每個(gè)環(huán)節(jié)都做到99%的準(zhǔn)確率,整個(gè)系統(tǒng)的綜合準(zhǔn)確率就能做到95%。如果每個(gè)環(huán)節(jié)只能做到95%的準(zhǔn)確率,總體的準(zhǔn)確率只能達(dá)到77%。所以最大的難點(diǎn)是能不能對(duì)每個(gè)環(huán)節(jié)做到極致。

語音識(shí)別的速度當(dāng)然是越來越好,響應(yīng)非?旖荩w驗(yàn)非常好。作為大規(guī)模部署來說,可以降低成本。每提高1倍,機(jī)器就可以縮小一半。語音識(shí)別的利用可以分為語音操控和語音輸入,就類似與樂視的這種方案,可以通過聲音切換臺(tái)。語音輸入就像云輸入法。還有語音查詢、問答和對(duì)話,需要加入語義理解和數(shù)據(jù)服務(wù)。

云知聲開放免費(fèi)SDK 不到5分鐘開發(fā)一款語音識(shí)別App

這就要講到我們的使命和服務(wù),我們正處在市場(chǎng)需求爆發(fā)與語音技術(shù)突破的結(jié)合點(diǎn)上,我們希望提供精準(zhǔn)、實(shí)時(shí)、專業(yè)、完整的智能語音服務(wù)。我們的服務(wù)理念是專業(yè)、創(chuàng)新、開放、共贏。希望我們的專業(yè)技術(shù)構(gòu)建出來的平臺(tái)可以為廣大開發(fā)者服務(wù),讓我們共享這個(gè)移動(dòng)語音的時(shí)代。

我們的語音云的發(fā)展速度比較快,我們?cè)谌ツ?月29號(hào)發(fā)布了公測(cè),邀請(qǐng)業(yè)界相關(guān)的團(tuán)隊(duì)和開發(fā)者進(jìn)行測(cè)試。到11月21號(hào)主持搜狗語音助手發(fā)布,分別在去年的12月和今年4月份進(jìn)行了兩次顯著的性能提升,其中就包括深度神經(jīng)建模的構(gòu)建。在今天5月15日我們向開發(fā)者宣布完全開放和永久免費(fèi)。只要在我們的網(wǎng)站上注冊(cè)SDK,不管是什么樣的應(yīng)用和盈利模式,我們都沒有保留的態(tài)度。如果覺得這樣的應(yīng)用已經(jīng)滿足大家的要求,我們會(huì)永久免費(fèi)服務(wù)下去。

我們的平臺(tái)首先是語音識(shí)別,將聲音轉(zhuǎn)化成文字。語義理解是當(dāng)我們收到文字串以后,怎樣知道用戶真正的意圖,比如他是想查天氣、看電視,還是查股票、購物,這需要語義理解的功能。第三點(diǎn)是知識(shí)圖譜,將所有的知識(shí)通過類似于數(shù)據(jù)庫和圖的方式聯(lián)系起來,跟語義理解聯(lián)系起來,就可以滿足用戶的意圖。

在這個(gè)平臺(tái)上支持了幾類應(yīng)用,一類是應(yīng)用開發(fā)者,可以做很多方面的應(yīng)用,像語音操作、查詢,還包括醫(yī)療、教育、電影查詢、微信路況、出門問問等等。智能客服針對(duì)的是企業(yè)信息,企業(yè)的數(shù)據(jù)是可以掛在我們的知識(shí)圖譜上的,用戶可以通過客服平臺(tái)向企業(yè)進(jìn)行咨詢企業(yè)發(fā)展規(guī)劃、價(jià)格、定單等等信息。還有就是廣告商,企業(yè)如果想進(jìn)行營銷的話會(huì)推一些廣告,廣告商可以通過平臺(tái)上的應(yīng)用服務(wù)于各種終端客戶。大家可以到我們的官方網(wǎng)站上注冊(cè)下載SDK。

我們之所以敢做這樣的平臺(tái),是因?yàn)槲覀冞@個(gè)創(chuàng)業(yè)公司有超過十年的技術(shù)積累,我們這個(gè)平臺(tái)在業(yè)界可以達(dá)到領(lǐng)先的水平。速度是最快的,我們每說一秒鐘的語音計(jì)算時(shí)間只需要0.2秒,因?yàn)槭橇魇降膫鬏敶a,在這種情況下很難感覺到識(shí)別速度的差異。比如在微信上錄下一段聲音,發(fā)過去再返回的時(shí)候,這個(gè)差異就非常大。包括我們的服務(wù)平臺(tái),現(xiàn)在已經(jīng)持續(xù)無故障服務(wù)半年以上,非常穩(wěn)定,而且可以按照需要擴(kuò)展平臺(tái)。我們的平臺(tái)支持能力已經(jīng)超過2千萬次/天的服務(wù)能力。線上的引擎更新和系統(tǒng)迭代都可以在我們的平臺(tái)完成,用戶不需要做任何的更新,用戶可以直接體驗(yàn)到更新的效果。

這里是線上性能的發(fā)展歷程,在去年9月份,我們的平臺(tái)可以達(dá)到85%的準(zhǔn)確率。到2012年底,我們通過很多的測(cè)試和線上優(yōu)化將準(zhǔn)確率提高到90%以上。最近4個(gè)月,通過引擎的優(yōu)化以及線上數(shù)據(jù)的迭代,準(zhǔn)確率已經(jīng)超過了93%。下一個(gè)版本的準(zhǔn)確率應(yīng)該可以達(dá)到95%的準(zhǔn)確率。

我們的識(shí)別實(shí)時(shí)系數(shù)可以達(dá)到0.55倍,去年年底可以做到0.45倍的支持。這個(gè)提升的幅度很小,但如果從整個(gè)系統(tǒng)來說,DNN的計(jì)算量要比傳統(tǒng)的高很多倍,當(dāng)我們把計(jì)算復(fù)雜度提高的情況下,仍然可以提升系統(tǒng)性能,這是非常大的進(jìn)步。這3個(gè)月來的進(jìn)步更大,直接將速度提升了1倍以上。這是在非常普通的服務(wù)器上就可以做到的,并不需要強(qiáng)大的計(jì)算資源。

這是我們的開發(fā)者平臺(tái),公測(cè)開發(fā)者的增長(zhǎng)情況。去年我們邀請(qǐng)了5家開發(fā)者進(jìn)行測(cè)試,在這之前沒有進(jìn)行任何的推廣,只是通過不同的用戶給我們帶來的影響力,包括去年年初的時(shí)候搜狗語音助手幫助我們進(jìn)行了推廣。目前我們的平臺(tái)上已經(jīng)擁有超過400個(gè)開發(fā)者。我們的客戶像搜狗語音助手、樂視云電視、小i機(jī)器人、丁丁網(wǎng)、觸寶、啪啪。

下面我介紹一下經(jīng)典的應(yīng)用案例:使用我們這個(gè)平臺(tái)可以把邏輯結(jié)構(gòu)變得非常簡(jiǎn)單,開發(fā)者只需要智能終端的APP,我們提供一個(gè)SDK植入在APP上面,與云平臺(tái)進(jìn)行交流。云平臺(tái)包括負(fù)載均衡、用戶數(shù)據(jù)的數(shù)據(jù)庫、聲學(xué)模型、語音模型等方面。用戶通過客戶端發(fā)布聲音,極大的簡(jiǎn)化了語音識(shí)別的工作。

這是在去年11月21號(hào)支持搜狗語音助手發(fā)布應(yīng)用。語音助手在11月初找到我們,我們只用了2周的時(shí)間就讓語音助手順利發(fā)布。搜狗語音助手只是用到了語音識(shí)別的功能,它把聲音發(fā)回到我們的服務(wù)器上,我們把識(shí)別信息反饋回來,語義理解和搜索服務(wù)都是搜狗公司完成的,因?yàn)樗麄兪欠浅?qiáng)大的搜索工具,擁有強(qiáng)大的語義理解團(tuán)隊(duì)和搜索平臺(tái)。

這個(gè)是我們?cè)浦曌龅恼Z音助手,這里面的數(shù)據(jù)服務(wù)跟搜狗相比差距很大,重要的還是在垂直行業(yè)的服務(wù),包括開放的服務(wù),我們都是通過百度和搜狗這樣的平臺(tái)實(shí)現(xiàn)的。像問天氣、問電影、問電視節(jié)目,目前已經(jīng)服務(wù)了超過30個(gè)領(lǐng)域。

第二個(gè)案例是我們自己開發(fā)的App,它非常簡(jiǎn)單,就是將我們的一段話變成文字,點(diǎn)確定就可以發(fā)到微信里面去。這是在今年年初做的,當(dāng)時(shí)只是想讓用戶體驗(yàn)到云知聲的識(shí)別率究竟有多快、多準(zhǔn)。在我們發(fā)布的一周就在App Store免費(fèi)工具排行榜排到了第一位。在觸寶輸入法里面可以看到我們的這種輸入性能。

第三個(gè)案例是樂視超級(jí)電視,5月7號(hào)在萬事達(dá)中心進(jìn)行了全球首發(fā)。這是我們的語音助手在樂視超級(jí)電視上的解決方案。

開發(fā)者應(yīng)該怎么使用這樣一個(gè)SDK,是不是非常復(fù)雜呢?其實(shí)它非常簡(jiǎn)單,在3、4分鐘之內(nèi)就可以做一個(gè)語音識(shí)別的App。首先是要在注冊(cè)網(wǎng)站上下載我們的SDK,首先是注冊(cè)賬號(hào),通過郵件激活,再申請(qǐng)App key,可以下載相應(yīng)版本的SDK。現(xiàn)在Android平臺(tái)和iOS平臺(tái)都可以下載。以Android開發(fā)為例,首先是導(dǎo)入SDK。第二點(diǎn)是需要在Manifest中配置一些權(quán)限。

這是一個(gè)非常簡(jiǎn)單的代碼,一頁P(yáng)PT就可以寫下來。有這樣一個(gè)代碼就可以做一個(gè)非常簡(jiǎn)單的語音輸入識(shí)別的應(yīng)用。在創(chuàng)建語音內(nèi)容的時(shí)候可以把識(shí)別器加入進(jìn)來,對(duì)話框中要輸入申請(qǐng)的App key,加個(gè)show函數(shù)就可以把這個(gè)框彈出來。這個(gè)SDK是流式的處理過程,我一邊說話,這個(gè)錄音設(shè)備一邊錄音。API索引有五個(gè)最主要的函數(shù),將SDK放在里面,第二是將識(shí)別對(duì)象設(shè)定好。第三是回調(diào)對(duì)象。第四是顯示識(shí)別框。

謝謝大家,我的介紹就到這里。

在不久的將來,云計(jì)算一定會(huì)徹底走入我們的生活,有興趣入行未來前沿產(chǎn)業(yè)的朋友,可以收藏云計(jì)算,及時(shí)獲取人工智能、大數(shù)據(jù)、云計(jì)算和物聯(lián)網(wǎng)的前沿資訊和基礎(chǔ)知識(shí),讓我們一起攜手,引領(lǐng)人工智能的未來!

標(biāo)簽: 安全 大數(shù)據(jù) 代碼 服務(wù)器 谷歌 互聯(lián)網(wǎng) 開發(fā)者 權(quán)限 數(shù)據(jù)庫 搜索 搜索工具 搜索平臺(tái) 搜索引擎 通信 推廣 網(wǎng)絡(luò) 移動(dòng)互聯(lián) 移動(dòng)互聯(lián)網(wǎng) 云計(jì)算 云計(jì)算發(fā)展 

版權(quán)申明:本站文章部分自網(wǎng)絡(luò),如有侵權(quán),請(qǐng)聯(lián)系:west999com@outlook.com
特別注意:本站所有轉(zhuǎn)載文章言論不代表本站觀點(diǎn)!
本站所提供的圖片等素材,版權(quán)歸原作者所有,如需使用,請(qǐng)與原作者聯(lián)系。

上一篇:優(yōu)化您的云計(jì)算基礎(chǔ)架構(gòu)

下一篇:推進(jìn)云戰(zhàn)略 甲骨文發(fā)布全新IaaS服務(wù)