內容一覽:人臉識別可以鎖定人類身份,這一技術延申到鯨類,便有了「背鰭識別」?!副出捵R別」是利用圖像識別技術,通過背鰭識別鯨類物種。傳統的圖像識別依賴于卷積神經網絡 (CNN) 模型,需要大量訓練圖像,并且只能識別某些單物種。近期,夏威夷大學的研究人員訓練了一種多物種圖像識別模型,該模型在鯨類應用中表現出色。
關鍵詞:圖像識別 鯨類動物 ArcFace
作者|daserney_HyperAI 超神經
編輯|緩緩、三羊_HyperAI 超神經
本文首發于 HyperAI 超神經微信公眾平臺。
鯨類動物是海洋生態系統的旗艦動物和指示性生物,對于保護海洋生態環境具有極高的研究價值。傳統的動物身份識別需要對動物進行現場拍攝,記錄個體出現的時間和位置,包含許多步驟,過程繁雜。其中又以圖像匹配——在不同圖像中識別出同一個體尤為耗時。
2014 年 Tyne 等人展開的一項研究估計,在對斑海豚 (Stenella longirostris) 進行為期一年的捕捉和釋放調查中,圖像匹配耗費了超過 1100 個小時的人力勞動,幾乎占據了整個項目總經費的三分之一。
近期,來自夏威夷大學 (University of Hawai‘i) 的 Philip T. Patton 等研究人員,利用 5 萬多張照片(包括 24 種鯨類動物、39 個目錄),訓練了基于人臉識別 ArcFace Classification Head 的多物種圖像識別模型。該模型在測試集上達到了 0.869 的平均精確率 (MAP)。其中,10 個目錄的 MAP 得分超過 0.95。
目前該研究已發布在《Methods in Ecology and Evolution》期刊上,標題為「A deep learning approach to photo–identification demonstrates high performance on two dozen cetacean species」。
該研究成果已發表在《Methods in Ecology and Evolution》
論文地址:
https://besjournals.onlinelibrary.wiley.com/doi/full/10.1111/2041-210X.14167
數據集:25 個物種、39 個目錄
數據介紹
Happywhale 和 Kaggle 與全球研究人員協作,組建了一個大規模、多物種的鯨類數據集。該數據集是為 Kaggle 競賽收集的,要求參賽團隊從背鰭/側身的圖像中識別個體鯨目動物。數據集包含 25 個物種 (species) 的 41 個目錄 (catalogues),每個目錄包含一個物種,其中有些目錄中的物種會重復出現。
該研究去掉了兩個競賽目錄,因為其中一個只有 26 張用于訓練和測試的低畫質圖像,而另一個目錄則缺少測試集。最終的數據集包含 50,796 張訓練圖像和 27,944 張測試圖像,其中,50,796 張訓練圖像包含 15,546 個身份 (identities)。在這些身份中,9,240 個 (59%) 只有一張訓練圖像,14,210 個 (91%) 有 5 張以內訓練圖像。
數據集及代碼地址:
https://github.com/knshnb/kaggle-happywhale-1st-place
訓練數據
為了解決圖像背景復雜的問題,一些參賽者訓練了圖像裁剪模型,可以自動檢測圖像中的鯨類動物,并在其周圍繪制邊界框。下圖中可以看出,這一流程包括 4 個鯨類檢測器,使用了 YOLOv5 和 Detic 在內的不同算法,檢測器的多樣性增加了模型的魯棒性,并且能對實驗數據進行數據增強。
圖 1:競賽集中 9 個目錄的圖像以及 4 個鯨類檢測器生成的邊界框
每個邊界框生成的裁剪的概率為:紅色為 0.60,橄欖綠為 0.15,橙色為 0.15,藍色為 0.05。裁剪后,研究人員將每個圖像的大小調整為 1024 x 1024 像素,以與 EfficientNet-B7 backbone 兼容。
調整大小后,應用仿射變換、調整大小和裁剪、灰度、高斯模糊等數據增強技術,避免模型出現嚴重過擬合。
數據增強是指在訓練過程中對原始數據進行變換或擴充,以增加訓練樣本的多樣性和數量,從而提高模型的泛化能力和魯棒性。
模型訓練:物種 & 個體識別雙管齊下
下圖顯示了模型的訓練流程,如圖中橙色部分所示,研究人員將圖像識別模型分為 3 個部分:backbone、neck 和 head。
圖 2:多物種圖像識別模型訓練 Pipeline
圖中第一行是預處理步驟(以普通海豚 Delphinus delphis 圖像為例),由 4 個目標檢測模型生成 crops,數據增強步驟生成兩個示例圖像。
最下面一行則顯示了圖像分類網絡的訓練步驟,從backbone 到 neck 再到 head。
圖像首先通過網絡進入 backbone。過去十年的一系列研究已經產生了數 10 種流行的 backbone,包括 ResNet、DenseNet、Xception 和 MobileNet。經驗證,EfficientNet-B7 在鯨類應用中表現最佳。
Backbone 獲取圖像后,通過一系列卷積層和池化層對其進行處理,從而生成圖像的簡化三維表示。Neck 將此輸出減少為一維向量,又稱為特征向量。
兩個 head 模型,都將特征向量轉換為類概率,即 Pr(species) 或 Pr(individual),分別用于物種識別和個體識別。這些 classification heads 被稱為具有動態邊距的次中心 ArcFace,普遍適用于多物種圖像識別場景。
實驗結果:平均精度 0.869
對測試集中的 21,192 張圖像(24 個物種的 39 個目錄)進行預測,獲得了 0.869 的平均精度 (MAP)。如下圖所示,平均精度因物種而異,且與訓練圖像或測試圖像的數量無關。
圖 3:測試集的平均精度
頂部面板按用途(即訓練或測試)顯示每個物種的圖像數量。具有多個目錄的物種,則用 x 表示。
圖中顯示,該模型在識別齒鯨 (toothed whale) 時表現較好,而在識別須鯨 (baleen whale) 時表現較差,其中只有兩個須鯨物種的得分超過了平均水平。
對于多目錄物種,模型性能也存在差異。例如,普通小須鯨 (Balaenoptera acutorostrata) 不同目錄之間的 MAP 得分分別為 0.79 和 0.60。其他物種如白鯨 (Delphinapterus leucas) 和虎鯨在不同目錄之間的表現也有較大差異。
對此,研究人員雖然沒有找到能解釋這種目錄級性能差異的原因,但他們發現一些定性指標如模糊度、獨特性、標記混淆、距離、對比度和水花等,可能會影響圖像的精度得分。
圖 4:可能影響目錄級性能差異的變量
圖中每個點代表競賽數據集中的一個目錄,像素表示圖像和邊界框寬度。Distinct IDs 表示訓練集中不同個體的數量。然而,目錄級 MAP 與平均圖像寬度、平均邊界框寬度、訓練圖像數量、不同個體數量以及每個個體的訓練圖像數量之間并沒有明確的關聯。
綜合以上,研究人員提出用該模型進行預測時,代表 7 個物種的 10 個目錄平均精度高于 0.95,性能表現優于傳統預測模型,進而說明使用該模型能正確識別個體。此外,研究人員還在實驗過程中總結出 7 點關于鯨類研究的注意事項:
背鰭識別表現最佳。
明顯個體特征較少的目錄表現不佳。
圖像質量很重要。
利用顏色識別動物可能較為困難。
特征相對于訓練集差距較大的物種得分較差。
預處理仍然是一個障礙。
動物標記變化可能會影響模型表現。
Happywhale:鯨類研究的公眾科學平臺
本文數據集介紹中提到的 Happywhale 是一個分享鯨類圖像的公眾科學平臺,其目標是解鎖大量數據集、促進 photo ID 的快速匹配,并為公眾創造科研參與度。
Happywhale 官網地址:https://happywhale.com/
Happywhale 成立于 2015 年 8 月,其聯合創始人 Ted Cheeseman 是一位博物學家 (Naturalist),他在加利福尼亞蒙特雷灣 (Monterrey Bay) 長大,從小就喜歡觀鯨,曾多次前往南極洲和南喬治亞島探險,具有 20 余年南極探險及極地旅游管理的經驗。
Happywhale 聯合創始人 Ted Cheeseman
2015 年,Ted 離開了工作 21 年的 Cheesemans’ Ecology Safaris(由 Ted 父母在 1980 年創辦的生態旅行社,Ted 父母同樣是博物學家),投身 Happywhale 項目-- 收集科研數據,進一步理解并保護鯨類。
短短幾年內,Happywhale.com 已經成為鯨類研究領域的最大貢獻者之一,除鯨類識別圖像的數量巨大外,對理解鯨類的遷徙模式也提供了諸多洞見。
本文首發于 HyperAI 超神經 微信公眾平臺。
參考鏈接:
[1]https://baijiahao.baidu.com/s?id=1703893583395168492
[2]https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0086132
[3]https://phys.org/news/2023-07-individual-whale-dolphin-id-facial.html#google_vignette
[4]https://happywhale.com/about
來源: HyperAI 超神經