用于人體動作識別的26層卷積神經網絡

2022-08-28 17:19:10 編輯：仇晶弘來源：

導讀諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果，包括那些涉及識別圖像中特定人物或物體的任務?；谝曈X的人類動...

諸如卷積神經網絡(CNN)之類的深度學習算法已在各種任務上取得了顯著成果，包括那些涉及識別圖像中特定人物或物體的任務?；谝曈X的人類動作識別(HAR)是計算機科學家經常嘗試使用深度學習解決的任務，它特別需要識別圖像或視頻中捕獲的人類動作。

HITEC大學和巴基斯坦伊斯蘭堡基礎大學，韓國世宗大學和中正大學，英國萊斯特大學和沙特阿拉伯蘇丹王子大學的研究人員最近開發(fā)了一種新的CNN，用于識別視頻中的人類行為。該CNN在Springer Link的“多媒體工具和應用程序”期刊上發(fā)表的一篇論文中進行了介紹，經過培訓可以區(qū)分幾種不同的人類動作，包括拳擊，拍手，揮舞，慢跑，跑步和散步。

研究人員在論文中寫道：“我們設計了一種新的26層卷積神經網絡(CNN)架構，用于精確的復雜動作識別。” “這些特征是從全局平均池化層和完全連接(FC)層中提取的，并通過建議的基于高熵的方法進行融合。”

當試圖識別人類在圖像或視頻中的動作時，CNN通常會將其分析重點放在許多潛在的相關特征上。但是，某些人類動作(例如慢跑和步行)可能非常相似，這使得這些算法很難區(qū)分它們，特別是如果它們專注于相似性核心的特征時。為了克服這一挑戰(zhàn)，研究人員使用了一種方法，該方法將稱為Poisson分布的特征選擇方法與單變量測量(PDaUM)合并在一起。

研究人員觀察到，CNN所基于的分析功能有時可能不相關或多余，這導致它們做出錯誤的預測。為了降低發(fā)生這種情況的風險，他們的PDaUM方法僅選擇最強大的功能來識別特定的人類行為，并確保CNN基于這些功能做出最終預測。

研究人員在DB51，UFC Sports，KH和Weizmann數據集這四個數據集上訓練和評估了兩個截然不同的CNN，一個極端機器學習(EML)和一個Softmax分類器。這些數據集包含幾個人類執(zhí)行不同類型動作的視頻。

然后，研究人員比較了兩個CNN的性能，這兩個CNN均使用其特征選擇方法進行了增強。在他們的評估中，ELM分類器的性能明顯優(yōu)于Softmax算法，可以從視頻中識別出人類動作，其在DB51數據集上的準確性為81.4%，在UCF Sports數據集上的準確性為99.2%，在KTH數據集上的準確性為98.3%，在KTH數據集上的準確性為98.7%。魏茨曼數據集。

值得注意的是，PDaUM增強的ELM分類器在準確性和預測時間方面也優(yōu)于研究人員將其與之相比的所有現有深度學習技術。因此，這些結果凸顯了研究人員介紹的特征選擇方法在提高CNN在HAR任務上的性能方面的潛力。

將來，本文介紹的ELM分類器和PDaUM方法可以開發(fā)更有效的工具，以自動區(qū)分人類在錄制和實況錄像中正在做什么。這些工具可以通過幾種不同的方式證明其價值，例如，幫助執(zhí)法人員監(jiān)視CCTV視頻上嫌疑犯的行為，或者允許研究人員快速分析大量視頻。

標簽：

免責聲明：本文由用戶上傳，如有侵權請聯系刪除！