台灣最大程式設計社群網站
線上人數
882
 
會員總數:244977
討論主題:188941
歡迎您免費加入會員
討論區列表 >> 專欄文章 >> 語音辨識、圖像辨識…等各式好用辨識工具的API介紹
[]  
[我要回覆]
1
回應主題 加入我的關注話題 檢舉此篇討論 將提問者加入個人黑名單
語音辨識、圖像辨識…等各式好用辨識工具的API介紹
價值 : 0 QP  點閱數:3367 回應數:1

樓主

創辦人-小耿 站長
中級專家
3852 49
5041 1101
發送站內信

捐贈 VP 給 創辦人-小耿
如果要寫一個語音辨識、影像辨識,甚至是情緒辨識的功能你們認為有多難? 應該很難吧!! 尤其是準確度,目前做的比較好的就屬於微軟、Google、IBM,不過我們有辦法使用他們現成的API來使用嗎? 是可以的,接下來就來介紹這三家提供的API,這邊有一大堆現成的API可以供使用,大大減少需要自己coding的時間。

Microsoft Project Oxford,網址:https://www.projectoxford.ai/demo/
這是微軟所提供的免費試用版,這邊的工具有拼字檢查功能、追蹤人的臉部,偵測移動,以及消除拍攝影片時的震動、辨識說話的人的身份、語音辨識功能、外表年齡估計,以及性別辨識等功能,其工具說明如下:

Spell check:提供拼字檢查功能的工具,支援程式開發者為所開發的手機 App,以雲端為基礎的 App,或是其他的產品加入拼字檢查功能,例如辨識像 " gonna " 這樣的俚語,品牌名稱,常見的名稱錯誤,以及不容易發現的拼字錯誤,像是 " four " 和 " for "。

Video:這個工具能夠協助使用者很容易地分析和編輯影片,包括追蹤人的臉部,偵測移動,以及消除拍攝影片時的震動。

Speaker recognition:這個工具能夠經由學習個人的口音特質辨識發聲說話的人。程式開發者可以利用這個工具的功能辨識說話的人的身份,如同利用指紋辨識使用者的身份一樣,實作 App 的安全管制功能。

Custom Recognition Intelligent Services:這個工具簡稱 CRIS,可以很容易地支援使用者依據惡劣的環境,例如公開而且吵雜的場合,調整語音辨識功能。例如公司可以在噪音很大的地點,或是人來人往的購物中心進行語音辨識的工作,也可以用來對母語不是英語的人的演講內容,或是發音有障礙的人的話語進行語音辨識。

Face API 更新:臉部辨識工具將會加入新的辨識功能,包括加入鬍子辨識與微笑預測工具。外表年齡估計,以及性別辨識等功能。




Google有提供語音辨識和圖片辨識,Google的語音辨識是 Chrome 內建的功能,所以不需要額外載入其他資源就可以,運行語音辨識一開始要判斷「webkitSpeechRecognition」有沒有存在瀏覽器裡,因為這是內建於瀏覽器的 api,如:



Google的圖像辨識API,稱為Cloud Vision API,方便App開發者利用此API嵌入於機器人、App、無人機等,就能使其「看到」圖像、物品,並能更容易準確地將他們「分類」,如船、獅子、巴黎鐵塔等地標性建築,甚至是情緒也能辨別出來。使用方法詳見https://cloud.google.com/vision/

目前使用者必須經過核准才可以使用 Cloud Vision API ,研發人員需要填寫一份問卷以申請圖像辨識工具的使用權,包含解釋預計會如何應用這項圖像辨識工具。



IBM的是「華生」(Watson)認知運算系統,包括處理新型態的文字與視覺辨識的語言分析API,以及從圖片資料中自動偵測、標籤與萃取出重要細節的能力,同時也可以做到擷取影像細節、分類、關鍵字擷取與情感分析的影像認知。現在已可申請免費試用AlchemyAPI,申請網址為http://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/services-catalog.html
http://www.ibm.com/smarterplanet/us/en/ibmwatson/developercloud/services-catalog.html


搜尋相關Tags的文章: [ 語音辨識 ] , [ 圖像辨識 ] , [ Google ] , [ Microsoft ] , [ IBM ] ,
本篇文章發表於2015-12-17 16:06
別忘捐VP感謝幫助你的人 新手會員瞧一瞧
1樓
回應

香帥
檢舉此回應
感謝分享
本篇文章回覆於2015-12-20 22:18
== 簽名檔 ==
--未登入的會員無法查看對方簽名檔--
   
1

回覆
如要回應,請先登入.