• <td id="cqyui"><kbd id="cqyui"></kbd></td>
  • <u id="cqyui"></u><tt id="cqyui"></tt>
  • 當前位置: 主頁 > 商業 >

    重構人機交互,百度輸入法探索版的AI進化

    時間:2019-01-17來源:互聯網 作者:編輯 點擊:
    2003年5月,《哈佛商業評論》上刊載了尼古拉斯·卡爾那篇題為《IT Doesn’t Matter》(IT不再重要)的文章。 這本文章與其說是《IT不再重要》,不如說是《互聯網不再重要》,因為其實尼

    2003年5月,《哈佛商業評論》上刊載了尼古拉斯·卡爾那篇題為《IT Doesn’t Matter》(IT不再重要)的文章。

    這本文章與其說是《IT不再重要》,不如說是《互聯網不再重要》,因為其實尼古拉斯·卡爾在這本書中表達的主題,人工智能、云計算、大數據將會改變我們的時代。

    這個標題拿來形容當下的中國互聯網可能有很大相通之處。移動時代正在整體向AI時代過渡。移動時代的產品都要紛紛迎接新格局,語音也是如此。

    在2018年10月的中國計算語言學大會上,語音識別科學家黃學東博士提到,“語音和語言之進化對人工智能的重要意義毫不亞于語音和語言對人類進化的決定性作用”。百度輸入法在1月15日發布會展示的新技術同樣呈現了這個趨勢。

    可以說,百度輸入法正是目前的業內標桿。這也是第一家真正思考AI時代人機交互的輸入法產品。

    智能語音的進化甚至正在把人機交互帶入新的階段。不僅僅有問有答、包含上下語義邏輯,人工智能硬件能夠更多地融合各種環境信息,作出不同決策或推薦。

    百度系產品在過去幾年的進化過程中,逐漸展現出了新的人機交互邏輯。

    交互的進化

    工具型產品在不同時代、不同需求、不同場景往往面臨著轉型考驗。搜索、輸入法這些從PC時代走到移動時代的產品,到了AI時代再一次發生進化。

    搜索這樣的產品就在從過去的搜索引擎,變成“搜索+信息流”的雙引擎產品。像百度APP就在融入AI,把過去搜索引擎時代的人找信息,變成信息、服務找人。既能讓用戶找到信息,也能讓信息找到用戶,重構了新型信息服務體驗。

    輸入法同樣如此。輸入法本質上是人類和機器的交互方式。我們真正去追根溯源就會發現,PC時代,輸入法要通過鍵鼠讓我們和機器交互。隨著移動時代的來臨,觸摸屏又取代鍵鼠,成了輸入法新的承載。

    細細數來,鍵鼠這種交互方式存在至今不過百年,而觸摸屏這種交互方式嚴格算來也僅僅只有不到20年。實際上,語音本來就是人誕生以來最天然的交互方式。未來輸入法通過語音的方式獲取服務,甚至在搜索、娛樂、購物等眾多場景出現,也毫不為奇。

    早在微軟Build2016開發者大會上,微軟CEO納德拉就提出了“Conversations as a Platform”,也就是“對話即平臺”的人工智能發展方向。

    這個概念在后來也被成為是“對話式人工智能”。

    所謂“對話式人工智能”指的是,對話本身就是一個平臺,各種知識、信息與服務都運行在“對話”其上,可以形成生態環境的基礎平臺。人和人工智能之間的對話,即是解決各種問題的一種路徑和方式。

    事實上,百度輸入法正在朝這個方向努力——用AI改變人和世界的交互方式,讓人們隨時隨地與世界互動,獲取生活服務。

    技術的躍進

    產品進化終究需要長期祭奠技術,并在技術積淀過程中厚積薄發,最終在產品層面體現出來。

    這次百度輸入法進化的秘密在于“流式多級的截斷Attention模型”(注意力模型),還在業界第一次創新性的提出了SMLAT技術。這是國際上首次超越了整句的注意力模型。這也是國際上首次實現在線語音大規模使用注意力模型。

    我們先解釋“流式多級的截斷Attention模型”這個問題。

    要知道,過去傳統的Attention模型都是基于整句的,整句Attention技術是在語音都上傳到服務器后,才能開始聲學打分計算和解碼,會引入較大的用戶等待時間,沒法做到在線語音交互的大規模實時服務,達不到上線標準。

    百度在使用“流式多級的截斷Attention模型”之后,主要技術優勢在三點。

    1、基于CTC的尖峰信息對語音流進行截斷,然后再每一截斷的語音小段上進行當前建模單元的注意力建模;

    2、把全局的Attention的整句識別變成了局部的Attention的流式識別,并且引入多層的Attention,實現特征層層遞進的更精準的特征選擇;

    3、語音識別的識別率超越傳統的全局Attention建模,同時計算速度和傳統CTC技術持平,實現全CPU流量的大規模線上服務。

    另外在在離線語音識別領域,百度輸入法還在持續優化Deep Peak 2系統,讓離線語音輸入相對準確率再次提升。 這些內容聽起來很專業,我們通俗解釋的話就是,這使得語音的相對準確率提高了,而且用戶可以說得更自由了。

    不管是流式多級的截斷Attention模型以及優化Deep Peak 2系統。這些技術進展在逗未來在技術轉化和產品落地上產生影響。

    1、最直接的影響是,智能語音更準了,還能離線語音輸入。

    未來用戶不管是在輸入法、搜索引擎說出自己的語音,都會更準確,甚至可以中英文方言混輸。即使處于地鐵、電梯、隧道或人流密集等離線場景中,依然可以借助百度輸入法進行精準的語音輸入。

    過去用戶往往是語音輸錯一個字就會花10秒鐘來修改,而且由于方言、口語、中英文混雜的語言習慣,語音輸入法是沒辦法適應這樣相對復雜的熟人環境的。這種經歷讓用戶很難建立長時間使用語音輸入法的習慣。所以雖然各家輸入法都說自己有97%以上的準確率,但實際情況是,愿意使用語音輸入法的人寥寥無幾。

    不過,無論是中英文夾雜,還是普通話家鄉話來回切換,百度輸入法都能準確識別,是目前唯一實現了高精度中英文混合語音輸入、方言免切換語音輸入的輸入法產品。直接影響就是,用戶更愿意用語音輸入法了,用戶習慣會在技術提高的過程中一點一點普及。

    2、AI能真正理解你的語音指令的含義。

    所以你可以在輸入法中調用指令,發表情斗圖、發祝福語、發彈幕、發文件、OCR等等。滿足與輸入相關的周邊需求,實現全語音交互。

    百度高級副總裁王海峰甚至認為,輸入法本質上是一款人機交互的工具,AI時代正在到來,人機交互的形態也將隨之革新。未來,百度輸入法將不僅基于手機端,還將致力于連通包括智能家居、車聯網等多種終端場景,集多種輸入方式為一體,幫助用戶在各種場景下高效、自如地傳遞信息。

    3、在一些特殊場景實現更復雜的、具有邏輯層級的任務。

    語音輸入法過去的使用場景是相對狹窄的,在一些邏輯復雜、場景復雜的環境中,往往很難勝任。

    2017年年末,我在和一些智能音箱交互工程師探討的時候,他們提到語音交互因為缺乏屏幕顯示,層級邏輯很難展開,點外賣不太現實。但當語音理解力更強甚至能和人類對話的時候,層級邏輯自然可以展開,點外賣甚至更復雜的操作都能實現。

    當語音調用的信息本身是具備可視性、劃分層級而且直觀易懂甚至縮短大量信息環節的時候。它本質上就是一個更為合理的交互方式。

    “流式多級的截斷Attention模型”未來如果能夠進一步提高對語音的理解能力,輸入法或許能像人一樣聰明。未來的語音不會像Siri一樣愚蠢,只能被人們調戲,隨便幾句話就會陷入邏輯矛盾,就是因為云端可以理解的語音的顆粒度足夠細,速度也足夠快。

    在未來,智能語音甚至可以理解人們每一句話、每一個情緒的意義,讓兩人產生真正意義上的“靈魂對話”。

    工具的轉型

    整個行業都正在從移動時代向AI時代過渡,移動時代產品未來破局真的全靠AI。

    甚至已經有人提到,AI時代的人機交互應該忘掉機器,因為萬物皆界面。是的,AI賦能下的人機交互,將極大弱化人機交互中機器的概念。

    你所接觸的一切物體都可能是一個隱藏的交互界面,你的動作狀態、情緒以及環境中發生的事件,以伴隨的各種變化屬性為橋梁,時時刻刻都在被分析被推理,最終的結果將反映到真實的物理環境中,從而更自然地輔助你的日常生活。

    在這一過程中,我們之前無比依賴的手機和電腦,可能已經退居二線,成為真正的計算工具,不再和我們直接互動了。

    企業從移動向AI時代轉型過程中,在產品層面要想的問題大約就是三點:

    1、如何把AI融入到移動時代的產品之中,和現有功能產生更自然的嵌入;

    2、如何形成AI時代的人機交互,讓移動時代的產品在AI交互中形成合理的架構;

    3、如何把移動時代的產品放置在AI的技術生態中,繼續發揮作用;

    我們甚至可以大膽預測,未來所有的工具型產品,都離不開智能語音輸入法,因為以語音為核心的輸入法,就是重構人機交互的最有效手段。因此百度高級副總裁王海峰提到:

    作為百度AI能力應用落地的重要產品之一,百度輸入法正在通過創新拓展大家的想象力邊界。這款AI輸入法,不僅是一款滿足用戶當下需求的產品,也是為正在到來的AI時代所準備的。百度輸入法將扮演好溝通橋梁的重要角色,讓人機交互進入一個全新的階段。

    語音交互方式,甚至比鍵鼠、觸摸屏有更大的信息量。劉慈欣在《鄉村教師》的這段話很形象地點名了未來語音交互的信息量:

    你是想告訴我們,一種沒有記憶遺傳,相互間用聲波進行信息交流,并且是以令人難以置信的每秒1至10比特的速率進行交流的物種,能創造出5B級文明?!而且這種文明是在沒有任何外部高級文明培植的情況下自行進化的?!

    我們甚至可以這樣預測,走過了鍵盤、鼠標、觸摸屏等一系列交互手段,在這100年的彎路之后,智能語音為代表的對話式人工智能將讓人類返璞歸真。

    ----------------------------------------------

    作者:深幾度,獨立撰稿人。微信號852405518,公眾號“深幾度”,歡迎署名轉載。

    鈦媒體2015年、2016年、2018年度作者。品途網2016年度十大作者,騰訊科技2015年度最具影響力自媒體。

    關注人工智能、移動互聯、數碼家電的產業融合,文章在界面新聞、今日頭條、搜狐、騰訊、新浪、網易等40余平臺發布。

    微信圖片_20181220183947

    頂一下
    (0)
    0%
    踩一下
    (0)
    0%
    ------分隔線----------------------------
    發表評論
    請自覺遵守互聯網相關的政策法規,嚴禁發布色情、暴力、反動的言論。
    評價:
    文章導航
    推薦內容
    被黑人猛男高潮10次
  • <td id="cqyui"><kbd id="cqyui"></kbd></td>
  • <u id="cqyui"></u><tt id="cqyui"></tt>