本方案提供英文數字語音機器學習辨識功能,並提供可快速創建人機介面的圖形化開發平台,語音辨識結果可透過新唐開發平台創建高質感人機互動畫面。

語音控制電子設備已經是一股勢不可擋的潮流,其優勢在於電子設備可以免持控制、在不方便按鍵的環境下操作等優點。本方案使用Google TensorFlow作為深度學習用於語音識別的演算法開發環境,並在NuMaker-PFM-M487平台上實現語音辨識功能,以關鍵字識別(KeyWord Spotting)的範例程序實現可離線且即時的語音辨識系統。 一套完整的深度學習語音辨識系統需要使用兩個平台,如圖1-1,一為PC端平台,利用TensorFlow與Python撰寫完整的深度學習程式碼並訓練模型,因本方案使用監督式學習(Supervised Learning)(註1)模式,因此需提供系統大量的訓練資料和標籤(Labels),接著將擷取到的特徵用深度神經網路(DNN)模型進行訓練,並反覆修正訓練模型,直到模型達到系統最佳化狀態;二為NuMaker-PFM-M487平台,利用PC所建的深度學習模型與訓練結果(模型參數),在NuMaker-PFM-M487平台完成可即時的語音辨識系統。

Nuvoton IoT Structure NuMaker-PFM-M487

圖 1-1 語音辨識系統流程圖

本方案辨識的關鍵字為10個英文數字:One, Two, Three, Four, Five, Six, Seven, Eight, Nine, Zero,使用NuMaker-PFM-M487開發板並搭配M487 emWin GUI開發平台呈現語音辨識結果,當使用者對著麥克風說「One」,此方案的LCD面板上會正確地顯示的關鍵字「One」。

註1:監督式學習(Supervised Learning):所有的問題都有對應的標準答案,亦即使用者先將資料做標籤(Label)並在訓練的過程中告訴機器對應的答案。

 

* 注 : Nuvoton 及 NuMicro為新唐科技股份有限公司(Nuvoton Technology Corp.)的商標,本文涉及的其他商標及著作等權利,皆歸屬於其原所有權人。

分享

與您的朋友分享,好友email:*
電子郵件*
姓名*
驗證碼*

使用者回饋

請為我們的網站評分
電子郵件
姓名*
驗證碼*

微信扫一扫,关注新唐MCU。

登入「個人專區」

登入後,您可取得文件進版通知。
如果您不想登入,請點選「直接下載」。