機器學習

本方案提供英文數字語音機器學習辨識功能,並提供可快速創建人機介面的圖形化開發平台,語音辨識結果可透過新唐開發平台創建高質感人機互動畫面。

語音控制電子設備已經是一股勢不可擋的潮流,其優勢在於電子設備可以免持控制、在不方便按鍵的環境下操作等優點。本方案使用Google TensorFlow 作為深度學習用於語音識別的演算法開發環境,並在 NuMaker-PFM-M487 平台上實現語音辨識功能,以關鍵字識別 (KeyWord Spotting) 的範例程序實現可離線且即時的語音辨識系統。一套完整的深度學習語音辨識系統需要使用兩個平台,如圖 1-1 ,一為 PC 端平台,利用 TensorFlow 與 Python 撰寫完整的深度學習程式碼並訓練模型,因本方案使用監督式學習 (Supervised Learning) (註1) 模式,因此需提供系統大量的訓練資料和標籤 (Labels),接著將擷取到的特徵用深度神經網路 (DNN) 模型進行訓練,並反覆修正訓練模型,直到模型達到系統最佳化狀態;二為 NuMaker-PFM-M487 平台,利用 PC 所建的深度學習模型與訓練結果(模型參數),在 NuMaker-PFM-M487 平台完成可即時的語音辨識系統。

Nuvoton IoT Structure NuMaker-PFM-M487

圖 1-1 語音辨識系統流程圖

本方案辨識的關鍵字為 10 個英文數字:One, Two, Three, Four, Five, Six, Seven, Eight, Nine, Zero,使用 NuMaker-PFM-M487 開發板並搭配 M487 emWin GUI 開發平台呈現語音辨識結果,當使用者對著麥克風說 「One」,此方案的 LCD 面板上會正確地顯示的關鍵字 「One」。

註1:監督式學習 (Supervised Learning):所有的問題都有對應的標準答案,亦即使用者先將資料做標籤 (Label) 並在訓練的過程中告訴機器對應的答案。

 

* 注 : Nuvoton 及 NuMicro 為新唐科技股份有限公司(Nuvoton Technology Corp.)的商標,本文涉及的其他商標及著作等權利,皆歸屬於其原所有權人。

本網站使用cookie作為與網站互動時識別瀏覽器之用,瀏覽本網站即表示您同意本網站對cookie的使用及相關隱私權政策
OK