使用者:Mike8411251995/沙盒01

OpenCV深度神經網路(DNN)實作並使用COCO資料集訓練、可檢測80種常見物體之YOLOv3模型所識別出的物體

物體檢測(英語:Object Detection)是數位圖像處理及電腦視覺相關的技術之一,其目標在於偵測數位圖像或影片中出現特定類別的物件(如動物、建築、人車等)及其位置[1]。物體檢測為電腦視覺的一項基礎學術領域,且出現於許多常見生活應用,如影像分類臉部辨識自動駕駛汽車等皆在其列[2]。隨著深度學習技術的發展,物體檢測亦衍生出R-CNN英語Region Based Convolutional Neural Networks、YOLO及SSD等多種採用深度學習的方法,其準確度也獲得大幅成長。物體檢測的技術雖已趨成熟,學術界及業界仍不斷追求其速度、精度與方法效益的提升,相關研究論文和用於訓練及衡量準確率的資料集亦不計其數。

概述

 
人臉檢測的實例。圖像中被識別出的人臉範圍以綠色之矩形定界框標示。

物體檢測之技術,在於偵測某些具特定屬性的物體是否存在一給定的圖像或影片中,若存在並同時預測各物體出現於畫面中的位置[3]。用於表示物體位置的方法則稱作定界框英語Minimum bounding box(英語:bounding box),即可包含目標物體範圍之最小矩形[4]。一般而言,物體檢測所需辨認的目標種類並非單一,而描述這些不同種類目標間的特性稱為「類別」,英語中常以「class」或「category」表示[5]

物體檢測是圖像理解及電腦視覺中的一項基礎技術,許多較為複雜的任務如圖像分割、場景理解、影片追蹤英語Video tracking、影片摘要生成等皆建基於此[3]。其現實生活的應用也相當廣泛,包括數位保全、自動駕駛、圖像搜尋、機器人視覺等[2][3]。與其相似的技術包含圖像分類(英語:image classification),目標在於辨認單一圖像中的物體並區分其類別[6];然而物體檢測除對目標物分類外,更需預測其位置,因此檢測模型也較不易生成[7]。此外,圖像中物體以外的背景區域範圍常較目標物本身大的特性,也是使得物體檢測更為困難的原因之一[7]

為了辨認圖像中可能出現的各種不同物體,檢測模型必須從圖像中提取強健且具有意義的特徵[2]。現實世界中,同一類別的物體亦可能具多種不同形狀或外觀,甚至同一物體的樣態也可能隨時間變化[8],而在這樣的前提下仍應將它們辨識為同一類別,便須仰賴於強健的特徵提取手法[9][a]。例如在自動駕駛的應用情境下,相機所拍攝影像中出現樣式各異的轎車、休旅車、卡車等,皆應被識別為單一類別「車輛」以與「行人」、「建築」等作區分[11]。自2004年尺度不變特徵轉換法(SIFT)[12]發表後,學界曾盛行以設計各種強健的特徵來應用於物體檢測技術[3];然而,2012年以降深度神經網路(DNN)的發展使圖像分類的準確度獲得前所未有的大幅提升[13],採用DNN訓練的物體檢測模型也因而成為大宗[14],時至今日仍不斷有研究基於DNN之物體檢測方法的論文被提出[3]

歷史

早期

1970年代左右,便有物體檢測的相關研究出現[15]。早期的研究多以人臉檢測為目標,並使用模板匹配、或將影像分割為多區塊後個別檢測等較單純的演算法[3]。物體檢測最初以幾何類方法為主,直至1990年代後,支持向量機(SVM)及人工神經網路等統計相關手法的研究才逐漸盛行[3]

SIFT以降

如前所述,檢測外觀相異的各種物體之關鍵,在於從圖像中抽取具有意義的強健特徵。因此許多物體檢測研究的目標,便是尋找在諸如照明、旋轉角度及障礙物的存在與否等各種外觀差異下皆能維持不變的局部特徵表現[3]。其中,因2004年發表之尺度不變特徵轉換(SIFT)頗獲成效[12],許多學者便接連提出各種不同條件下維持不變的特徵抽取方法[3]。2001年提出的維奧拉-瓊斯目標檢測框架則是使用哈爾特徵[16]生成多個準確率較低之弱檢測器後、再加以級聯達成互補短處之效,並主要應用於人臉檢測。然而,此類手段需要人為設計特徵抽取方法,當目標物體具非常多樣之外觀時,尋找出足以應對各種情境的特徵量並非易事[2],亦無法保證最適解與否[17]

深度學習的革新

上述類似SIFT、由研究者在分析目標性質後人工設計的手法,不僅在物體檢測,甚至於圖像理解領域之其它諸多技術都獲得廣泛的支持[13]。同時雖亦有應用卷積神經網路(CNN)手法的研究,卻因無法保證學習收斂或取得局部最佳解,而未被大量採用[18]。そうした狀況の中、2012年にAlex Krizhevskyらが畫像認識(畫像分類)のコンテストであるImageNetで提出したCNNを用いたシステムが、従來の畫像認識システムを大幅に超える精度を記録した[13]。このシステムでは膨大な計算量を前提とし、大量のデータをニューラルネットワークの學習に用いるという特徴がある[13]GPU等の技術的な計算資源の向上も相まって[18]深層學習の活用が現実味を帯びてきた。

畫像分類タスクにおけるこうしたCNNの成功を物體検出の分野にも応用しようという動きがあり、2014年にはR-CNNと呼ばれる検出システムが発表された。これは従來から存在した物體候補領域提案(region proposal、動畫像內の物體が存在しそうな領域を複數提案するもの)手法を動畫像に施した後、それらの候補領域それぞれにCNNを用いてその領域に対象クラスの物體が存在するか、存在する場合にはその正確なBounding boxの座標を學習するものであった[14]。欠點として、前段の物體候補領域の提案にはCNNを用いていないことや、後段のクラス分類でも従來の機械學習手法であるSVMを用いていること、また候補領域の提案とクラス・Bounding boxの推論という二段構造になっていることによる推論速度の遅さ等があるが、こうした欠點の存在がその後の改善手法の提案に繋がっていった[3]

深層學習以降の進展

R-CNNの発表後、その欠點を改良した検出システムが発表されていく。2014年に発表されたSPPNet[19]は、入力として固定サイズの畫像しか受け取れないというR-CNNの欠點を解消した[3]2015年に発表されたFast R-CNN[20]は、事前に畫像全體に対してCNNを用いて特徴抽出を行い、そこに候補領域の情報を組み合わせることで、候補領域ごとにCNNを毎回適用しなければならないというR-CNNの欠點を解消した[2]。さらに2015年に提案されたFaster R-CNN[21]では、前段の物體候補領域提案の部分がボトルネックとなっていたことに注目し、新たに物體候補領域提案の部分をニューラルネットワークを用いて置き換えた(Region Proposal Network(RPN)と呼ばれる)。これによりシステム全體がニューラルネットワークを用いて學習できるようになり、大幅な高速化を達成した[2]。これ以降も、クラス分類・Bouding boxの座標推定に加え、Bounding box內の対象物體の領域を推定するブランチを追加しインスタンスセグメンテーション​(英語を行えるようにしたMask R-CNN[22]等、R-CNNから続く2ステージの検出システムは幅広く研究が進んでいる[2]

一方で、候補領域を予め抽出し、それについて検出・分類を行うという2ステージの検出システムは計算資源を要するため、特に攜帯端末ウェアラブルデバイスといった容量や計算資源の限られた端末での応用が難しいという課題がある[3]。そこで領域提案などを分離せず、入力からクラス分類・Bouding boxの座標推定までをエンドツーエンドで行う1ステージの検出システムの研究も進められている[3][2]2013年に発表されたOverFeat[23]は、ILSVRC2013の検出部門にて最高記録を達成する。OverFeatは圧倒的な処理速度を達成するが、一方でその精度は2ステージの検出システムであるR-CNNには及ばなかった。その要因としてはOverFeatに用いられる全畳込みニューラルネットワーク(fully convolutional network)[注釈 1]の學習が當時難しかったことが挙げられる[3]。ただ、OverFeatの特徴は後発のYOLOやSSDに引き継がれた[3]2016年に発表されたYOLO[26]は、畫像を任意のピクセルごとのグリッドに區切り、グリッド毎に物體が存在する確率と物體が存在する場合の分類クラスを予測するというものである[2]。YOLOは処理速度で45fpsを記録した[注釈 2]。ただしグリッド毎に予測するという性質上、2ステージのFaster R-CNNと比べると位置の正確性は低くなった。特に1つのグリッド內に複數の物體がある場合の検出力が低いという欠點がある[3]。2016年に発表されたSingle Shot MultiBox Detector(SSD)[27]は、Faster R-CNNに用いられたRPNの考え方を持ち込んだもので、YOLOと比較して処理速度がさらに向上するとともに、精度面でもFaster R-CNNと同等の精度を達成した[3]2019年に発表されたEfficientDet[28]等、1ステージ系でありながら條件によっては2ステージ系のMask R-CNNの精度を上回る[28]システムも出てきている。

手法

 
Microsoft COCO testdevデータセットhttp://mscoco.orgを用いた場合の、様々な検出器[29]の処理速度と精度の比較(全ての値は、これらのアルゴリズムの作成者によるhttps://arxiv.orgの記事に記載されている)

物體検出の手法は一般に、従來の機械學習ベースのアプローチまたは深層學習ベースのアプローチのいずれかに分類される。従來の機械學習をベースにしたアプローチの場合、まず以下のリストにあるような手法を用いて動畫像內の「特徴」を定義し、その上でサポートベクターマシン(SVM)などの手法を使用してそれらの特徴が対象物體かそうでないかを分類する必要がある[3]。一方、深層學習を用いた手法では、「特徴」を具體的に定義せずともエンドツーエンドで物體検出を行うことができる[3]。通常、畳み込みニューラルネットワーク(CNN)を用いることが多い。2012年に深層學習がクラス分類タスクで大きな成功を収めて以降は、物體検出においても深層學習によるアプローチが主流となっている[2][3]

古典的な機械學習によるアプローチ

先述したように、古典的な機械學習をベースにしたアプローチでは、まず畫像から特徴量を抽出し、その特徴量を用いてマッチングを行うなどして物體を検出する[3][30]。以下では特に検出手法について斷りがない限り、前者の「畫像から特徴量を抽出する」手法について述べている。

Haar-Like特徴​(英語に基づくViola–Jones物體検出フレームワーク​(英語[31]
Haar-Like特徴量は2001年に提案された、主に顔検出​(英語に用いられる特徴量である[32]。矩形領域內の平均輝度の差に基づく特徴量で[33]、人間の顔の場合は一般的に鼻筋や頬が明るく、逆に目や口は暗いという共通の特徴があることに着目し、これを捉えるために畫像內の明暗の差を特徴としたものである[32]。この特徴を用いた単純な識別器を大量に生成、選別し、それらをカスケード狀に接続(直列に接続すること[34])して顔の位置を検出する手法がHaar-Like特徴と同時に提案されている[35]
スケール不変特徴量変換​(英語[36]
畫像のスケール変換や回転に不変な特徴量を抽出する手法。特徴點を検出するキーポイント検出と、検出された特徴點に対し回転不変な特徴量を記述する特徴量記述の二段構成になっている[37][38]。SIFTの発表後、SIFTが抱える課題を解決するための派生手法が複數提案され、処理の高速化・省メモリ化が図られている[39]
HOG特徴量​(英語[40]
2005年に提案された、人に共通する特徴を捉えるための特徴量[32]。SIFT同様一定領域まわりの輝度勾配に基づく特徴量であるが、SIFTが特徴點に着目するのに対しHOG特徴量は領域矩形內の輝度勾配を用いるため物體形狀を表現することが可能であり[41]歩行者検出​(英語に限らず用いられている[32][41]

深層學習によるアプローチ

 
深層學習を用いた物體検出器の概念図。(a)が2ステージ系の一般的な構造を、(b)が1ステージ系の一般的な構造を表している。
領域提案(R-CNN[14]、Fast R-CNN[20]、Faster R-CNN[21] 、cascade R-CNN[42]
R-CNNは2014年に提案された手法であり、CNNを用いた検出器としては初めて、それまで用いられていたHOG特徴量をベースとする検出器よりも高い性能を出すことを示した。以降の深層學習を用いた様々な手法の先駆けであり、一般物體検出の進展に大きな影響を與えた[43]。R-CNNはまず畫像內から物體領域の候補となる領域を生成し、その各候補領域に対してCNNを用いて物體かどうかを判定するというものである[44]。派生手法であるFast R-CNNやFaster R-CNNも同様の構造を引き継ぎ、ボトルネックになっていた部分にCNNを新たに適用できるようにしたり、複數回適用していた処理を一度にできるように改良したものである[44]
You Only Look Once(YOLO)[26][45][46][29]
2016年に発表された手法。畫像全體を小さなグリッドに分割し、各グリッドに対して物體が存在するかどうかを判定する。物體が存在する場合にはその物體を囲む矩形のサイズとそのクラスを推論する[47]。処理の過程で、R-CNN系であったような物體候補領域を生成する必要がないため、入力から出力まで1ステージで行えることが特徴である[47][48]。推論処理で45FPSを達成する等速度が向上した[49]半面、小さな物體の認識が苦手であったり、異なるスケールやアスペクト比を持つ物體の認識が苦手という欠點もある[47]
Single Shot MultiBox Detector(SSD)[27]
2016年に発表された手法。YOLOが抱える課題に対応して改良された1ステージ系の手法。YOLOでは物體位置の推定にネットワークの最終層で得られる特徴量しか用いなかったのに対し、SSDでは入力に近い層の特徴量も用いたことが特徴で、より小さいサイズの物體の検出にも対応できるようになった[50][51]。また、複數のアスペクト比を持つ矩形內で畳み込みを行うことで、異なるスケール・アスペクト比を持つ物體の検出にも頑健になった[52]
Single-Shot Refinement Neural Network for Object Detection (RefineDet) [53]
2017年に発表された手法。1ステージの手法で、前半のブロックで物體の有無及びおおまかな位置を検出し、後半のブロックで具體的な物體位置やクラスまで検出する[53]。この2ブロックは接続されており、全體としてはend-to-endで學習ができる[54]。設計者は2ステージ型の検出器の機構を參考にしたと述べており[53]、このように2つのステップを設けることで、より正確な位置を検出することができる[54]
Retina-Net[55][56]
2018年に発表された検出モデル。検出タスクについては、検出対象となる前景よりもそれ以外の背景の出現頻度が非常に高いという特徴があり[55]、それを解決するために、検出が難しい事例をより重視してモデルの最適化に反映するFocal lossと呼ばれる損失関數​(英語を導入したことが特徴[57][58]。モデルの構造は1ステージの検出器とFeature Pyramid Network(FPN)と呼ばれる物體検出で標準的に用いられる特徴抽出器を組み合わせたもの[58]で、開発者は従來の2ステージ系の検出器と同等の精度を達成したとしている[55]
Deformable convolutional networks(DCN)[59][60]
2017年に発表された手法。通常の畳み込みニューラルネットワークを用いる場合、正方形あるいは長方形であるフィルタの形狀に検出能力が制約されてしまう。そこで本手法では、フィルタを変形可能なネットワークを設計し、物體検出と同時にフィルタの変形具合も學習する[7]ことで、物體の形狀をより的確に認識できるようにしている[61]

データセット

機械學習においては主にモデルの學習とその評価について、データセット (機械學習)​(英語を用いる[62]。 一般に提案手法を公平に評価するため、一定の難易度があるデータセットベンチマークとして用いることは重要である[63]。また深層學習は大量の學習データを必要とするが、一般に物體検出のためのラベル付けは畫像分類のラベル付けと比べると、畫像に含まれる物體の種別を選択するだけでなく、その位置まで特定して描畫する必要があり難易度がより高い[64]。また、バウンディングボックスの付與はより物體領域を正確に囲うほど良いため、品質とコストの釣り合いを取ることが難しい[64]。機械學習全體の課題として大規模なデータセットを単獨で構築することが難しいということもあり[65]、ラベル付けが行われた大量のデータにオンラインでアクセスできる環境が整うことで研究・開発が進むという側面もある[3]。例えば2017年に発表された顔検出のためのデータセットであるUMD Faces[66]というデータセットは、従來の大規模なデータセットの中には公表されていないものもあり、特に研究機関が自由にアクセスできる動畫を含むデータセットを作成することを一つの目的として発表したとしている[66]。また特に研究が盛んな特定の分野では、その分野に特有の物體を詳細にラベル付けしたデータセットが作成されることもある[2]。 以下では一般物體検出のためのデータセットに加え、分野別のデータセットについても述べる。

一般物體検出

動畫像に多く出現する一般的な物體を広範なカテゴリに分類して取り揃えたデータセットを紹介する。

一般物體検出 データセット一覧
名稱 発表年 枚數 クラス數[注釈 3] 特徴・備考
Pascal VOC[67] 2005 11,540 20 2005年に4クラスでスタートした後、現在の20クラスに増加。後発のデータセットに比べて小規模[3]
ImageNet[68] 2009 1,400萬枚以上 21,841 サブセットであるImageNet1000は、コンペティションのベンチマークのデータセットとして使用されている[3]
MS COCO[69] 2014 約328,000 91 ImageNetが実世界に適応できないとの批判に対応し、小さな物體を多く含んだり遮蔽物(オクルージョン)が多いという改善を施したデータセット[69]。2019年現在、物體検出におけるベンチマークの標準とされる[3]
OpenImage[70] 2017 約900萬枚 600 2019年現在、最大規模のデータセット[3]。ラベル付與を半自動化し、人間の目でそれらをチェックしている[70]のが特徴。

顔検出

顔認識は本人認証のための生體認証技術であり、同時に軍事セキュリティなど多くの分野に応用されている技術[71]である。一般物體検出タスクと比較して、より広い範囲のスケールの対象物を認識する必要があること、一口に顔といってもパーツの配置や肌の色の違い等によって同じものが一つとして存在しないことといった違いがある[2]

顔検出 データセット一覧
名稱 発表年 枚數 特徴・備考
UMD Faces - Video[72] 2017 22,075 動畫を含む
MegaFace[73] 2017 約470萬
MS-Celeb-1M[74] 2016 約100萬 Microsoftが開催したコンペティションで使用されたデータセット

道路シーン

物體検出の実世界への応用分野の一つとして自動運転が挙げられる。これは自動運転において、道路上の信號機標識を認識することが必要だからである[75]。以下では標識や信號機を含むデータセットを挙げている。

道路シーン データセット一覧
名稱 発表年 枚數 クラス數 特徴・備考
CityScapes[76] 2016 約5,000 30 ドイツの各都市の道路シーン畫像を収集 セグメンテーションラベルが付與されている
KITTI[77] 2012 約15,000 16 他にOptical Flowの情報や、3次元のアノテーションが付與されたデータも存在する
LISA[78] 2012 約6,610 47 アメリカで撮影された道路シーン 動畫を含むバージョンも存在する

評価指標

物體検出タスクにおけるIoUの計算例。

物體検出システムの性能を測る指標としては、大きく2つの視點から挙げることができる。1つが処理速度であり、もう1つが精度である。特に処理速度を測る指標としてフレームパー毎秒(FPS)、精度を測る指標として適合率と再現率​(英語がある[3]。以上の指標は物體検出に限らず用いられる指標であるが、物體検出に特有の數値としてジャッカード係數​(英語(Intersection over Union)がある。これはある推定結果と対応する正解がどの程度重なっているかを表す數値であり、完全に一致しているときには1、全く重なる部分がないときには0となる。実際の検出システムでは完全に正解と一致する結果を得ることは困難であるため、実運用評価の際にはこのIoUが一定値以上の結果を正解とみなし精度を測ることになる[63][3]。また、適合率と再現率の他に、これらを組み合わせた平均適合率(Average Precision, AP)も用いられることが多い[3]。推論時には推論した結果とともにどの程度の確からしさでその検出結果を得たかという指標も返されるが、この確からしさも用いて計算される指標である。適合率と再現率は一般にトレードオフの関係にある(後述)[79]ため、雙方の要素を取り込んだ平均適合率が使われる[3]

  • 適合率(Presicion)

一般に以下の式で計算される。ここで、TPは推論結果の中で実際に正解しているもの、FPは推論結果の中で実際には正解でないものの個數である。

 

適合率は推論結果のうち正解がどれだけ含まれているか、すなわち「どれだけ正解でないものを誤って正解と検出しないか」を表す指標である。

  • 再現率(Recall)

一般に以下の式で計算される。ここで、FNは検出しなかったものの実際には正解であるような見逃した個數を表す。

 

再現率は全ての正解として扱われるべきものの中で実際にどれだけ推論できたか、すなわち「どれだけ正解を見逃さなかったか」を表す指標である。式からも明らかであるが、見逃しを減らすためにより多くのものを検出しようとすればするほど再現率は高まるが、その分本來正解でないものを正解としてしまうパターンが増えるため適合率は下がりがちである。他方で、過検出を減らすために検出結果を絞り込むと適合率は高まるが、その分本來正解であるべきものを見逃すパターンが増えるため再現率は下がりがちである。すなわち、適合率と再現率はトレードオフの関係にある[79]

課題

本節では物體検出における課題を挙げる。なお、2020年現在物體検出の研究は深層學習を用いたものが主であり、本節で挙げる課題も深層學習を用いることを前提としているものが多い。

回転

DNNは入力畫像に幾何的な変換を加えた場合、得られる特徴マップは不変ではない[80]平行移動的な幾何學変化にはある程度強いものの、回転やスケールの変化などが大きいと結果が変化してしまう[3]。そのため、幾何的なロバスト性を獲得するために様々な手法が提案されている[80]。回転変換へのロバスト性については、テキスト認識[81]航空畫像からの検出[82]といった分野では研究例があり、データセットが作成された例[83][84]もある。一方で、一般物體に関する大規模データセットは回転畫像を含んでいない[67][68][69][70]ため、一般物體についての研究は限られている[3]

障害物(オクルージョン)

実世界の畫像にはしばしば、対象物體を遮蔽するような障害物が存在することがあり、対象物體からの情報を損なってしまう[3]。対策手法として、予めオフセット[注釈 4]を見込んだ畳み込み、プーリング[注釈 5]を行うもの[86]が挙げられる。また、GAN等の生成ネットワークを用いて障害物を意図的に作る手法も提案されている[87]が、オクルージョンを巡る課題はまだ解決されていない[3]

畫像の劣化

畫像に生じるノイズも課題の一つである。原因として、照明條件、畫像圧縮によるもの、安価な端末を用いることによるもの等が挙げられる[3]。しかしこれまで作られた大規模データセットは高畫質であることが前提であり、従來手法もこれらの畫像の劣化を考慮していないことが多い[3]

この他にも、物體検出に固有の課題として、検出対象でない「背景」に分類されるクラスが圧倒的に多くなってしまうという、クラス間での正解數のアンバランス等が挙げられる[3][7]

腳註

Template:腳註ヘルプ

注釈

  1. ^ 當然,除了適當的特徵提取手法之外,建構強健的檢測模型、以及使用多樣化的訓練資料集也同等重要[10]

出典

  1. ^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
  2. ^ 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 Zhao, Zhong-Qiu. Object Detection with Deep Learning: A Review. IEEE Transactions on Neural Networks and Learning Systems (IEEE). 2019, 30 (11): 3212–3232. arXiv:1807.05511 . doi:10.1109/TNNLS.2018.2876865. 
  3. ^ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.30 3.31 3.32 3.33 3.34 3.35 3.36 Li Liu. Deep Learning for Generic Object Detection: A Survey. International Journal of Computer Vision. 2020, 128: 261–318. doi:10.1007/s11263-019-01247-4. 
  4. ^ Olga Russakovsky. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. 2015, 115 (3): 211–252. arXiv:1409.0575v2 . doi:10.1007/s11263-015-0816-y. 
  5. ^ 佐藤 敦. 安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線). 人工知能 (人工知能學會). 2014, 29 (5): 448–455. doi:10.11517/jjsai.29.5_448 (日語). 
  6. ^ Zhang, Xin; Yang, Yee-Hong; Han, Zhiguang; Wang, Hui; Gao, Chao. Object class detection: A survey. ACM Computing Surveys. 2013-10, 46 (1): 4 [2021-04-05]. ISSN 0360-0300. doi:10.1145/2522968.2522978 (英語).  |pages=|page=只需其一 (幫助)
  7. ^ 7.0 7.1 7.2 7.3 Wu, Sahoo & Hoi 2020,第20頁.
  8. ^ 柳井 2007,第4頁.
  9. ^ 藤吉 2008,第9-10頁.
  10. ^ 柳井 2007,第1頁.
  11. ^ 藤吉 2008,第9頁.
  12. ^ 12.0 12.1 David G. Lowe. Distinctive Image Features from Scale-Invariant Keypoints (pdf). e International Journal of Computer Vision. 2004, 60: 91–110 [2020-11-20]. doi:10.1023/B:VISI.0000029664.99615.94. 
  13. ^ 13.0 13.1 13.2 13.3 Krizhevsky, Alex. ImageNet Classification with Deep Convolutional Neural Networks. NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems. 2012, 1: 1097–1105. 
  14. ^ 14.0 14.1 14.2 Ross, Girshick. Rich feature hierarchies for accurate object detection and semantic segmentation (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (IEEE). 2014: 580–587. ISBN 978-1-4799-5118-5. arXiv:1311.2524 . doi:10.1109/CVPR.2014.81. 
  15. ^ M.A. Fischler. The Representation and Matching of Pictorial Structures. IEEE Transactions on Computers. 1973, C–22 (1): 67–92. doi:10.1109/T-C.1973.223602. 
  16. ^ VIOLA P. Robust Real-time Object Detection. International Journal of Computer Vision. 2002, 57 (2): 137–154. 
  17. ^ 藤吉 2019,第293頁.
  18. ^ 18.0 18.1 Qingchen Zhang. A survey on deep learning for big data. Information Fusion. 2018, 42: 146–157. ISSN 1566-2535. doi:10.1016/j.inffus.2017.10.006. 
  19. ^ K. He. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015, 37 (9): 1904–1916. arXiv:1406.4729v4 . doi:10.1109/TPAMI.2015.2389824. 
  20. ^ 20.0 20.1 Girschick, Ross. Fast R-CNN (PDF). Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440–1448. Bibcode:2015arXiv150408083G. arXiv:1504.08083 . 
  21. ^ 21.0 21.1 21.2 Shaoqing, Ren. Faster R-CNN. Advances in Neural Information Processing Systems. 2015. arXiv:1506.01497 . 
  22. ^ Kaiming He. Mask R-CNN. ICCV2017. 2018. arXiv:1703.06870 . 
  23. ^ Sermanet, Pierre. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. International Conference on Learning Representations. 2013. 
  24. ^ Zhao, Rui; Yan, Ruqiang; Chen, Zhenghua; Mao, Kezhi; Wang, Peng; Gao, Robert X. Deep learning and its applications to machine health monitoring. Mechanical Systems and Signal Processing. 2019-01, 115: 213–237 [2020-11-24]. arXiv:1612.07640 . doi:10.1016/j.ymssp.2018.05.050 (英語). 
  25. ^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor. Fully convolutional networks for semantic segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Boston, MA, USA: IEEE). 2015-06: 3431–3440 [2020-11-24]. ISBN 978-1-4673-6964-0. arXiv:1411.4038 . doi:10.1109/CVPR.2015.7298965. 
  26. ^ 26.0 26.1 Redmon, Joseph. You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. Bibcode:2015arXiv150602640R. arXiv:1506.02640 . 
  27. ^ 27.0 27.1 Liu, Wei. SSD: Single shot multibox detector. Computer Vision – ECCV 2016. Lecture Notes in Computer Science 9905. October 2016: 21–37. ISBN 978-3-319-46447-3. arXiv:1512.02325 . doi:10.1007/978-3-319-46448-0_2.  |journal=被忽略 (幫助)
  28. ^ 28.0 28.1 Mingxing Tan. EfficientDet: Scalable and Efficient Object Detection. CVPR2020. 2020: 10778–10787. arXiv:1911.09070 . doi:10.1109/CVPR42600.2020.01079. 
  29. ^ 29.0 29.1 Bochkovskiy, Alexey. Yolov4: Optimal Speed and Accuracy of Object Detection. 2020. arXiv:2004.10934  [cs.CV]. 
  30. ^ 內田 2012,第13頁.
  31. ^ Viola, P.; Jones, M. Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001 (Kauai, HI, USA: IEEE Comput. Soc). 2001, 1: I–511–I–518. ISBN 978-0-7695-1272-3. doi:10.1109/CVPR.2001.990517. 
  32. ^ 32.0 32.1 32.2 32.3 藤吉 2019,第292頁.
  33. ^ 森川, 健一郎; 村松, 大吾; 小方, 博之. Haar-like特徴とエッジ検出を用いた仮名漢字領域アルゴリズムの開発. 精密工學會學術講演會講演論文集 (精密工學會). 2012,. 2012年度精密工學會春季大會: 759–760. doi:10.11522/pscjspe.2012S.0.759.0. 
  34. ^ 稲垣, 宏樹. ドライブレコーダーからの歩行者認識技術の研究. repository.aitech.ac.jp. 2010-03-31 [2021-03-24]. 
  35. ^ 山內, 悠嗣; 山下, 隆義; 藤吉, 弘亘. 画像からの統計的学習手法に基づく人検出. 電子情報通信學會論文誌. 2013年9月, 96 (9): 2017–2040. ISSN 1880-4535. 
  36. ^ Lowe, D.G. Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision (Kerkyra, Greece: IEEE). 1999: 1150–1157 vol.2. ISBN 978-0-7695-0164-2. doi:10.1109/ICCV.1999.790410. 
  37. ^ FUJIYOSHI & AMBAI 2011,第1109頁.
  38. ^ 佐川 2012,第6頁.
  39. ^ FUJIYOSHI & AMBAI 2011,第1115頁.
  40. ^ Dalal, Navneet. Histograms of oriented gradients for human detection (PDF). Computer Vision and Pattern Recognition. 2005, 1. 
  41. ^ 41.0 41.1 藤吉 2008,第14頁.
  42. ^ Cai, Zhaowei; Vasconcelos, Nuno. Cascade R-CNN: High Quality Object Detection and Instance Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019: 1–1. ISSN 0162-8828. doi:10.1109/TPAMI.2019.2956516. 
  43. ^ Jiao 2019,第128839頁.
  44. ^ 44.0 44.1 Nikhil Yadav; Binay, Utkarsh. Comparative Study of Object Detection Algorithms (PDF). International Research Journal of Engineering and Technology (IRJET). 2017, 4 (11): 586–591 [2021-03-29]. ISSN 2395-0056. 
  45. ^ Redmon, Joseph. YOLO9000: better, faster, stronger. 2017. arXiv:1612.08242  [cs.CV]. 
  46. ^ Redmon, Joseph. Yolov3: An incremental improvement. 2018. arXiv:1804.02767  [cs.CV]. 
  47. ^ 47.0 47.1 47.2 Wu, Sahoo & Hoi 2020,第9頁.
  48. ^ Aziz et al. 2020,第170472頁.
  49. ^ Aziz et al. 2020,第170473頁.
  50. ^ Wu, Sahoo & Hoi 2020,第10頁.
  51. ^ Aziz et al. 2020,第170474頁.
  52. ^ Wu, Sahoo & Hoi 2020,第9-10頁.
  53. ^ 53.0 53.1 53.2 Zhang, Shifeng. Single-Shot Refinement Neural Network for Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4203–4212. Bibcode:2017arXiv171106897Z. arXiv:1711.06897 . 
  54. ^ 54.0 54.1 Aziz et al. 2020,第170475頁.
  55. ^ 55.0 55.1 55.2 Lin, Tsung-Yi. Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020, 42 (2): 318–327. Bibcode:2017arXiv170802002L. PMID 30040631. arXiv:1708.02002 . doi:10.1109/TPAMI.2018.2858826. 
  56. ^ Pang, Jiangmiao; Chen, Kai. Libra R-CNN: Towards Balanced Learning for Object Detection. 2019-04-04. arXiv:1904.02701v1  [cs.CV]. 
  57. ^ Lin, Tsung-Yi. Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020, 42 (2): 318–327. Bibcode:2017arXiv170802002L. PMID 30040631. arXiv:1708.02002 . doi:10.1109/TPAMI.2018.2858826. 
  58. ^ 58.0 58.1 Mandhala, Venkata Naresh; Bhattacharyya, Debnath; B., Vamsi; Rao N., Thirupathi. Object Detection Using Machine Learning for Visually Impaired People. International Journal of Current Research and Review. 2020, 12 (20): 157–167. ISSN 2231-2196. doi:10.31782/ijcrr.2020.122032. 
  59. ^ Zhu, Xizhou. Deformable ConvNets v2: More Deformable, Better Results. 2018. arXiv:1811.11168  [cs.CV]. 
  60. ^ Dai, Jifeng. Deformable Convolutional Networks. 2017. arXiv:1703.06211  [cs.CV]. 
  61. ^ Aziz et al. 2020,第170476頁.
  62. ^ 柳井 2007,第8頁.
  63. ^ 63.0 63.1 Jiao 2019.
  64. ^ 64.0 64.1 Hao Su, Jia Deng, Li Fei-Fei. Crowdsourcing Annotations for Visual Object Detection (報告). HCOMP@AAAI 2012: 40–46. [2021-03-24]. 
  65. ^ 柳井 2007,第16頁.
  66. ^ 66.0 66.1 Ankan Bansal. UMDFaces: An Annotated Face Dataset for Training Deep Networks. 2017 IEEE International Joint Conference on Biometrics (IJCB). 2017: 464–473. arXiv:1611.01484 . doi:10.1109/BTAS.2017.8272731. 
  67. ^ 67.0 67.1 Mark Everingham. The PASCAL Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision. 2015, 111: 98–136. doi:10.1007/s11263-014-0733-5. 
  68. ^ 68.0 68.1 Jia Deng. ImageNet: A large-scale hierarchical image database (pdf). 2009 IEEE Conference on Computer Vision and Pattern Recognition. 2009: 248–255 [2020-11-23]. doi:10.1109/CVPR.2009.5206848. 
  69. ^ 69.0 69.1 69.2 Tsung-Yi Lin. Microsoft COCO: Common Objects in Context. ECCV2014. 2014: 740–755. arXiv:1405.0312 . doi:10.1007/978-3-319-10602-1_48. 
  70. ^ 70.0 70.1 70.2 Alina Kuznetsova. The Open Images Dataset V4. ICCV. 2020, 128 (40). arXiv:1811.00982 . doi:10.1007/s11263-020-01316-z. 
  71. ^ Iacopo Masi. Deep Face Recognition: A Survey. 2018 31st SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI). 2018: 471–478. arXiv:1804.06655 . doi:10.1109/SIBGRAPI.2018.00067. 
  72. ^ Ankan Bansal. The Do’s and Don’ts for CNN-based Face Verification. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). 2017: 2545–2554. arXiv:1705.07426 . doi:10.1109/ICCVW.2017.299. 
  73. ^ Aaron Nech. Level Playing Field for Million Scale Face Recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 3406–3415. doi:10.1109/CVPR.2017.363. 
  74. ^ Yandong Guo. MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition. ECCV 2016. 2016. arXiv:1607.08221 . doi:10.1007/978-3-319-46487-9_6. 
  75. ^ Alex Pon. A Hierarchical Deep Architecture and Mini-batch Selection Method for Joint Traffic Sign and Light Detection. 2018 15th Conference on Computer and Robot Vision (CRV). 2018: 102–109. arXiv:1806.07987 . doi:10.1109/CRV.2018.00024. 
  76. ^ M. Cordts. The Cityscapes Dataset for Semantic Urban Scene Understanding. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2016. 
  77. ^ Andreas Geiger. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. Conference on Computer Vision and Pattern Recognition (CVPR)2012. 2012. 
  78. ^ Andreas Mogelmose. Vision-Based Traffic Sign Detection and Analysis for Intelligent Driver Assistance Systems: Perspectives and Survey. IEEE Transactions on Intelligent Transportation Systems. 2012, 13 (4): 1484–1497. doi:10.1109/TITS.2012.2209421. 
  79. ^ 79.0 79.1 Powers, David. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. J. Mach. Learn. Technol. 2011, 2. arXiv:2010.16061 . doi:10.9735/2229-3981. 
  80. ^ 80.0 80.1 Karel Lenc. Understanding image representations by measuring their equivariance and equivalence (pdf). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015: 991–999 [2020-11-23]. doi:10.1109/CVPR.2015.7298701. 
  81. ^ Jianqi Ma. Arbitrary-Oriented Scene Text Detection via Rotation Proposals. IEEE Transactions on Multimedia. 2018, 20 (11): 3111–3122. arXiv:1703.01086 . doi:10.1109/TMM.2018.2818020. 
  82. ^ Jian Ding. Learning RoI Transformer for Oriented Object Detection in Aerial Images. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 2844–2853. arXiv:1812.00155 . doi:10.1109/CVPR.2019.00296. 
  83. ^ Gui-Song Xia. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018: 3974–3983. arXiv:1711.10398 . doi:10.1109/CVPR.2018.00418. 
  84. ^ Zikun Liu. A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines. the 6th International Conference on Pattern Recognition Applications and Methods (ICPRAM). 2017, 1: 324–331. doi:10.5220/0006120603240331. 
  85. ^ 長瀬, 准平; 石渡, 哲哉. スキップ接続によるプーリング層の構成および表現力に基づくそれらのモデルの解析. 人工知能學會全國大會論文集. 2019-06-01,. JSAI2019: 1–4. doi:10.11517/pjsai.JSAI2019.0_1Q3J202. 
  86. ^ Jifeng Dai. Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV). 2017: 764–773. ISSN 2380-7504. arXiv:1703.06211 . doi:10.1109/ICCV.2017.89. 
  87. ^ Xiaolong Wang. A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 3039–3048. arXiv:1704.03414 . doi:10.1109/CVPR.2017.324. 

參考文獻

関連項目

外部リンク


引用錯誤:頁面中存在<ref group="注釈">標籤,但沒有找到相應的<references group="注釈" />標籤