分析語音識別技術在手機中的應用
現在,語音技術正在全新的環境中使用:移動電話。語音識別技術在手機中的應用將進一步推動該技術在新方向上的發展和應用。
這是語音識別技術從未涉足臺式計算機應用程序的方向。 IBM在2011年慶祝成立100周年。
IBM創建了一個實驗性語音識別系統,稱為“ Shoebox”。在1960年代初期。
該系統解決了口頭語言算法的問題。語音識別技術最早是1950年代出現的,它是一種早期技術,主要是出于好奇。
在1960年代初期,IBM的“鞋盒”(Shoebox)誕生了。該設備能夠識別16個口頭單詞并回答簡單的數學問題,例如“ 3 + 4 =?”。
& rdquo;。 DragonDictate由Dragon Systems在1980年代初為DOS計算機推出,可能是第一個語音識別應用程序。
此應用只能識別一個單詞,一次只能說一個單詞。隨著時間的流逝,該應用已經發展成為一種稱為“ Dragon NaturallySpeaking”的產品。
(當前為Nuance Communications擁有的第11版)。此應用程序可以翻譯以正常會話語音和速度說出的文本。
語音識別技術在臺式計算機中的應用有兩個限制。首先,為了使該應用程序能夠以更高的精度工作,必須對該應用程序進行培訓以識別用戶的語音特征。
Windows Vista和Windows 7操作系統以及諸如Dragon NaturallySpeaking之類的第三方產品中的本機語音轉文本技術仍然需要經過用戶培訓才能使用。第二個限制因素是鍵盤的普及。
大多數人習慣于鍵盤打字而不是說話。因此,語音控制面臨與Dvorak鍵盤布局相同的應用障礙。
當簡單的老式QWERTY鍵盤可用并且可以正常工作時,為什么還要學習使用Dvorak鍵盤呢? Microsoft TellMe團隊是負責為多媒體環境開發語音識別技術的部門。 TellMe團隊的高級產品經理Abhi Rele指出,在臺式計算機環境中,用戶具有便捷的人機通信模式,例如鍵盤和鼠標。
因此,語音的使用主要針對語音愛好者。語音控制計算的廣泛應用需要兩件事:更好和方便的應用程序以及主要使用語音的地方。
手機正是這種增長了很長一段時間的地方。 Nuance產品管理和市場營銷副總裁Matt Revis解釋說,臺式計算機和移動環境之間的區別在于:臺式計算機是固定環境,并且重點完全放在臺式計算機的使用上。
因此,臺式計算機的語音技術主要執行以下任務:支持辦公應用程序,Web瀏覽,通訊等。就移動而言,語音被更多地用于支持各種生活方式:移動中的專業人員,有趣的戶外活動,動手操作,免費電話等等。
Gartner分析師Tuong Nguyen同意這種觀點:語音在移動環境中更有意義。他說,從使用角度來看,手持設備的語音識別功能更有價值。
它添加了一種用戶友好且方便的輸入法。 Nguyen補充說,如果不是使用語音技術來講一個簡單的解釋性句子,而不是滾動瀏覽許多菜單或在小型顯示鍵盤上努力地打字,那么語音識別的價值將變得顯而易見。
隨著觸摸屏設備(無物理鍵盤)使用的增長,語音識別技術將用于增強數據輸入和輸出。語音識別還支持免提要求或法律要求。
在移動設備方面:由于移動設備通常僅支持臺式計算機的部分存儲和處理功能,因此語音處理需要一些時間才能以基本形式出現在手機中。 《語音處理施普林格手冊》解釋了2000年代初手機的狀況。
盡管當時存在一些限制,但已對移動電話進行了編程,使其可以識別撥號語音,一個人識別一個名字,并在某種程度上識別該人的名字。主要問題是內存。
因此,大多數手機一次只能識別10個數字或名稱。但是,這些作者指出的另一個問題是此功能的使用較少,這可能是由于性能較差所致。
