用户:Mike8411251995/沙盒01

OpenCV深度神经网路(DNN)实作并使用COCO资料集训练、可检测80种常见物体之YOLOv3模型所识别出的物体

物体检测(英语:Object Detection)是数位图像处理及电脑视觉相关的技术之一,其目标在于侦测数位图像或影片中出现特定类别的物件(如动物、建筑、人车等)及其位置[1]。物体检测为电脑视觉的一项基础学术领域,且出现于许多常见生活应用,如影像分类脸部辨识自动驾驶汽车等皆在其列[2]。随著深度学习技术的发展,物体检测亦衍生出R-CNN英语Region Based Convolutional Neural Networks、YOLO及SSD等多种采用深度学习的方法,其准确度也获得大幅成长。物体检测的技术虽已趋成熟,学术界及业界仍不断追求其速度、精度与方法效益的提升,相关研究论文和用于训练及衡量准确率的资料集亦不计其数。

概述

 
人脸检测的实例。图像中被识别出的人脸范围以绿色之矩形定界框标示。

物体检测之技术,在于侦测某些具特定属性的物体是否存在一给定的图像或影片中,若存在并同时预测各物体出现于画面中的位置[3]。用于表示物体位置的方法则称作定界框英语Minimum bounding box(英语:bounding box),即可包含目标物体范围之最小矩形[4]。一般而言,物体检测所需辨认的目标种类并非单一,而描述这些不同种类目标间的特性称为“类别”,英语中常以“class”或“category”表示[5]

物体检测是图像理解及电脑视觉中的一项基础技术,许多较为复杂的任务如图像分割、场景理解、影片追踪英语Video tracking、影片摘要生成等皆建基于此[3]。其现实生活的应用也相当广泛,包括数位保全、自动驾驶、图像搜寻、机器人视觉等[2][3]。与其相似的技术包含图像分类(英语:image classification),目标在于辨认单一图像中的物体并区分其类别[6];然而物体检测除对目标物分类外,更需预测其位置,因此检测模型也较不易生成[7]。此外,图像中物体以外的背景区域范围常较目标物本身大的特性,也是使得物体检测更为困难的原因之一[7]

为了辨认图像中可能出现的各种不同物体,检测模型必须从图像中提取强健且具有意义的特征[2]。现实世界中,同一类别的物体亦可能具多种不同形状或外观,甚至同一物体的样态也可能随时间变化[8],而在这样的前提下仍应将它们辨识为同一类别,便须仰赖于强健的特征提取手法[9][a]。例如在自动驾驶的应用情境下,相机所拍摄影像中出现样式各异的轿车、休旅车、卡车等,皆应被识别为单一类别“车辆”以与“行人”、“建筑”等作区分[11]。自2004年尺度不变特征转换法(SIFT)[12]发表后,学界曾盛行以设计各种强健的特征来应用于物体检测技术[3];然而,2012年以降深度神经网路(DNN)的发展使图像分类的准确度获得前所未有的大幅提升[13],采用DNN训练的物体检测模型也因而成为大宗[14],时至今日仍不断有研究基于DNN之物体检测方法的论文被提出[3]

历史

早期

1970年代左右,便有物体检测的相关研究出现[15]。早期的研究多以人脸检测为目标,并使用模板匹配、或将影像分割为多区块后个别检测等较单纯的演算法[3]。物体检测最初以几何类方法为主,直至1990年代后,支持向量机(SVM)及人工神经网路等统计相关手法的研究才逐渐盛行[3]

SIFT以降

如前所述,检测外观相异的各种物体之关键,在于从图像中抽取具有意义的强健特征。因此许多物体检测研究的目标,便是寻找在诸如照明、旋转角度及障碍物的存在与否等各种外观差异下皆能维持不变的局部特征表现[3]。其中,因2004年发表之尺度不变特征转换(SIFT)颇获成效[12],许多学者便接连提出各种不同条件下维持不变的特征抽取方法[3]。2001年提出的维奥拉-琼斯目标检测框架则是使用哈尔特征[16]生成多个准确率较低之弱检测器后、再加以级联达成互补短处之效,并主要应用于人脸检测。然而,此类手段需要人为设计特征抽取方法,当目标物体具非常多样之外观时,寻找出足以应对各种情境的特征量并非易事[2],亦无法保证最适解与否[17]

深度学习的革新

上述类似SIFT、由研究者在分析目标性质后人工设计的手法,不仅在物体检测,甚至于图像理解领域之其它诸多技术都获得广泛的支持[13]。同时虽亦有应用卷积神经网路(CNN)手法的研究,却因无法保证学习收敛或取得局部最佳解,而未被大量采用[18]。そうした状况の中、2012年にAlex Krizhevskyらが画像认识(画像分类)のコンテストであるImageNetで提出したCNNを用いたシステムが、従来の画像认识システムを大幅に超える精度を记录した[13]。このシステムでは膨大な计算量を前提とし、大量のデータをニューラルネットワークの学习に用いるという特徴がある[13]GPU等の技术的な计算资源の向上も相まって[18]深层学习の活用が现実味を帯びてきた。

画像分类タスクにおけるこうしたCNNの成功を物体検出の分野にも応用しようという动きがあり、2014年にはR-CNNと呼ばれる検出システムが発表された。これは従来から存在した物体候补领域提案(region proposal、动画像内の物体が存在しそうな领域を复数提案するもの)手法を动画像に施した后、それらの候补领域それぞれにCNNを用いてその领域に対象クラスの物体が存在するか、存在する场合にはその正确なBounding boxの座标を学习するものであった[14]。欠点として、前段の物体候补领域の提案にはCNNを用いていないことや、后段のクラス分类でも従来の机械学习手法であるSVMを用いていること、また候补领域の提案とクラス・Bounding boxの推论という二段构造になっていることによる推论速度の遅さ等があるが、こうした欠点の存在がその后の改善手法の提案に繋がっていった[3]

深层学习以降の进展

R-CNNの発表后、その欠点を改良した検出システムが発表されていく。2014年に発表されたSPPNet[19]は、入力として固定サイズの画像しか受け取れないというR-CNNの欠点を解消した[3]2015年に発表されたFast R-CNN[20]は、事前に画像全体に対してCNNを用いて特徴抽出を行い、そこに候补领域の情报を组み合わせることで、候补领域ごとにCNNを毎回适用しなければならないというR-CNNの欠点を解消した[2]。さらに2015年に提案されたFaster R-CNN[21]では、前段の物体候补领域提案の部分がボトルネックとなっていたことに注目し、新たに物体候补领域提案の部分をニューラルネットワークを用いて置き换えた(Region Proposal Network(RPN)と呼ばれる)。これによりシステム全体がニューラルネットワークを用いて学习できるようになり、大幅な高速化を达成した[2]。これ以降も、クラス分类・Bouding boxの座标推定に加え、Bounding box内の対象物体の领域を推定するブランチを追加しインスタンスセグメンテーション​(英语を行えるようにしたMask R-CNN[22]等、R-CNNから続く2ステージの検出システムは幅広く研究が进んでいる[2]

一方で、候补领域を予め抽出し、それについて検出・分类を行うという2ステージの検出システムは计算资源を要するため、特に携帯端末ウェアラブルデバイスといった容量や计算资源の限られた端末での応用が难しいという课题がある[3]。そこで领域提案などを分离せず、入力からクラス分类・Bouding boxの座标推定までをエンドツーエンドで行う1ステージの検出システムの研究も进められている[3][2]2013年に発表されたOverFeat[23]は、ILSVRC2013の検出部门にて最高记录を达成する。OverFeatは圧倒的な処理速度を达成するが、一方でその精度は2ステージの検出システムであるR-CNNには及ばなかった。その要因としてはOverFeatに用いられる全畳込みニューラルネットワーク(fully convolutional network)[注釈 1]の学习が当时难しかったことが挙げられる[3]。ただ、OverFeatの特徴は后発のYOLOやSSDに引き継がれた[3]2016年に発表されたYOLO[26]は、画像を任意のピクセルごとのグリッドに区切り、グリッド毎に物体が存在する确率と物体が存在する场合の分类クラスを予测するというものである[2]。YOLOは処理速度で45fpsを记录した[注釈 2]。ただしグリッド毎に予测するという性质上、2ステージのFaster R-CNNと比べると位置の正确性は低くなった。特に1つのグリッド内に复数の物体がある场合の検出力が低いという欠点がある[3]。2016年に発表されたSingle Shot MultiBox Detector(SSD)[27]は、Faster R-CNNに用いられたRPNの考え方を持ち込んだもので、YOLOと比较して処理速度がさらに向上するとともに、精度面でもFaster R-CNNと同等の精度を达成した[3]2019年に発表されたEfficientDet[28]等、1ステージ系でありながら条件によっては2ステージ系のMask R-CNNの精度を上回る[28]システムも出てきている。

手法

 
Microsoft COCO testdevデータセットhttp://mscoco.orgを用いた场合の、様々な検出器[29]の処理速度と精度の比较(全ての値は、これらのアルゴリズムの作成者によるhttps://arxiv.orgの记事に记载されている)

物体検出の手法は一般に、従来の机械学习ベースのアプローチまたは深层学习ベースのアプローチのいずれかに分类される。従来の机械学习をベースにしたアプローチの场合、まず以下のリストにあるような手法を用いて动画像内の“特徴”を定义し、その上でサポートベクターマシン(SVM)などの手法を使用してそれらの特徴が対象物体かそうでないかを分类する必要がある[3]。一方、深层学习を用いた手法では、“特徴”を具体的に定义せずともエンドツーエンドで物体検出を行うことができる[3]。通常、畳み込みニューラルネットワーク(CNN)を用いることが多い。2012年に深层学习がクラス分类タスクで大きな成功を収めて以降は、物体検出においても深层学习によるアプローチが主流となっている[2][3]

古典的な机械学习によるアプローチ

先述したように、古典的な机械学习をベースにしたアプローチでは、まず画像から特徴量を抽出し、その特徴量を用いてマッチングを行うなどして物体を検出する[3][30]。以下では特に検出手法について断りがない限り、前者の“画像から特徴量を抽出する”手法について述べている。

Haar-Like特徴​(英语に基づくViola–Jones物体検出フレームワーク​(英语[31]
Haar-Like特徴量は2001年に提案された、主に颜検出​(英语に用いられる特徴量である[32]。矩形领域内の平均辉度の差に基づく特徴量で[33]、人间の颜の场合は一般的に鼻筋や頬が明るく、逆に目や口は暗いという共通の特徴があることに着目し、これを捉えるために画像内の明暗の差を特徴としたものである[32]。この特徴を用いた単纯な识别器を大量に生成、选别し、それらをカスケード状に接続(直列に接続すること[34])して颜の位置を検出する手法がHaar-Like特徴と同时に提案されている[35]
スケール不変特徴量変换​(英语[36]
画像のスケール変换や回転に不変な特徴量を抽出する手法。特徴点を検出するキーポイント検出と、検出された特徴点に対し回転不変な特徴量を记述する特徴量记述の二段构成になっている[37][38]。SIFTの発表后、SIFTが抱える课题を解决するための派生手法が复数提案され、処理の高速化・省メモリ化が図られている[39]
HOG特徴量​(英语[40]
2005年に提案された、人に共通する特徴を捉えるための特徴量[32]。SIFT同様一定领域まわりの辉度勾配に基づく特徴量であるが、SIFTが特徴点に着目するのに対しHOG特徴量は领域矩形内の辉度勾配を用いるため物体形状を表现することが可能であり[41]歩行者検出​(英语に限らず用いられている[32][41]

深层学习によるアプローチ

 
深层学习を用いた物体検出器の概念図。(a)が2ステージ系の一般的な构造を、(b)が1ステージ系の一般的な构造を表している。
领域提案(R-CNN[14]、Fast R-CNN[20]、Faster R-CNN[21] 、cascade R-CNN[42]
R-CNNは2014年に提案された手法であり、CNNを用いた検出器としては初めて、それまで用いられていたHOG特徴量をベースとする検出器よりも高い性能を出すことを示した。以降の深层学习を用いた様々な手法の先駆けであり、一般物体検出の进展に大きな影响を与えた[43]。R-CNNはまず画像内から物体领域の候补となる领域を生成し、その各候补领域に対してCNNを用いて物体かどうかを判定するというものである[44]。派生手法であるFast R-CNNやFaster R-CNNも同様の构造を引き継ぎ、ボトルネックになっていた部分にCNNを新たに适用できるようにしたり、复数回适用していた処理を一度にできるように改良したものである[44]
You Only Look Once(YOLO)[26][45][46][29]
2016年に発表された手法。画像全体を小さなグリッドに分割し、各グリッドに対して物体が存在するかどうかを判定する。物体が存在する场合にはその物体を囲む矩形のサイズとそのクラスを推论する[47]。処理の过程で、R-CNN系であったような物体候补领域を生成する必要がないため、入力から出力まで1ステージで行えることが特徴である[47][48]。推论処理で45FPSを达成する等速度が向上した[49]半面、小さな物体の认识が苦手であったり、异なるスケールやアスペクト比を持つ物体の认识が苦手という欠点もある[47]
Single Shot MultiBox Detector(SSD)[27]
2016年に発表された手法。YOLOが抱える课题に対応して改良された1ステージ系の手法。YOLOでは物体位置の推定にネットワークの最终层で得られる特徴量しか用いなかったのに対し、SSDでは入力に近い层の特徴量も用いたことが特徴で、より小さいサイズの物体の検出にも対応できるようになった[50][51]。また、复数のアスペクト比を持つ矩形内で畳み込みを行うことで、异なるスケール・アスペクト比を持つ物体の検出にも顽健になった[52]
Single-Shot Refinement Neural Network for Object Detection (RefineDet) [53]
2017年に発表された手法。1ステージの手法で、前半のブロックで物体の有无及びおおまかな位置を検出し、后半のブロックで具体的な物体位置やクラスまで検出する[53]。この2ブロックは接続されており、全体としてはend-to-endで学习ができる[54]。设计者は2ステージ型の検出器の机构を参考にしたと述べており[53]、このように2つのステップを设けることで、より正确な位置を検出することができる[54]
Retina-Net[55][56]
2018年に発表された検出モデル。検出タスクについては、検出対象となる前景よりもそれ以外の背景の出现频度が非常に高いという特徴があり[55]、それを解决するために、検出が难しい事例をより重视してモデルの最适化に反映するFocal lossと呼ばれる损失関数​(英语を导入したことが特徴[57][58]。モデルの构造は1ステージの検出器とFeature Pyramid Network(FPN)と呼ばれる物体検出で标准的に用いられる特徴抽出器を组み合わせたもの[58]で、开発者は従来の2ステージ系の検出器と同等の精度を达成したとしている[55]
Deformable convolutional networks(DCN)[59][60]
2017年に発表された手法。通常の畳み込みニューラルネットワークを用いる场合、正方形あるいは长方形であるフィルタの形状に検出能力が制约されてしまう。そこで本手法では、フィルタを変形可能なネットワークを设计し、物体検出と同时にフィルタの変形具合も学习する[7]ことで、物体の形状をより的确に认识できるようにしている[61]

データセット

机械学习においては主にモデルの学习とその评価について、データセット (机械学习)​(英语を用いる[62]。 一般に提案手法を公平に评価するため、一定の难易度があるデータセットベンチマークとして用いることは重要である[63]。また深层学习は大量の学习データを必要とするが、一般に物体検出のためのラベル付けは画像分类のラベル付けと比べると、画像に含まれる物体の种别を选択するだけでなく、その位置まで特定して描画する必要があり难易度がより高い[64]。また、バウンディングボックスの付与はより物体领域を正确に囲うほど良いため、品质とコストの钓り合いを取ることが难しい[64]。机械学习全体の课题として大规模なデータセットを単独で构筑することが难しいということもあり[65]、ラベル付けが行われた大量のデータにオンラインでアクセスできる环境が整うことで研究・开発が进むという侧面もある[3]。例えば2017年に発表された颜検出のためのデータセットであるUMD Faces[66]というデータセットは、従来の大规模なデータセットの中には公表されていないものもあり、特に研究机関が自由にアクセスできる动画を含むデータセットを作成することを一つの目的として発表したとしている[66]。また特に研究が盛んな特定の分野では、その分野に特有の物体を详细にラベル付けしたデータセットが作成されることもある[2]。 以下では一般物体検出のためのデータセットに加え、分野别のデータセットについても述べる。

一般物体検出

动画像に多く出现する一般的な物体を広范なカテゴリに分类して取り揃えたデータセットを绍介する。

一般物体検出 データセット一覧
名称 発表年 枚数 クラス数[注釈 3] 特徴・备考
Pascal VOC[67] 2005 11,540 20 2005年に4クラスでスタートした后、现在の20クラスに増加。后発のデータセットに比べて小规模[3]
ImageNet[68] 2009 1,400万枚以上 21,841 サブセットであるImageNet1000は、コンペティションのベンチマークのデータセットとして使用されている[3]
MS COCO[69] 2014 约328,000 91 ImageNetが実世界に适応できないとの批判に対応し、小さな物体を多く含んだり遮蔽物(オクルージョン)が多いという改善を施したデータセット[69]。2019年现在、物体検出におけるベンチマークの标准とされる[3]
OpenImage[70] 2017 约900万枚 600 2019年现在、最大规模のデータセット[3]。ラベル付与を半自动化し、人间の目でそれらをチェックしている[70]のが特徴。

颜検出

颜认识は本人认证のための生体认证技术であり、同时に军事セキュリティなど多くの分野に応用されている技术[71]である。一般物体検出タスクと比较して、より広い范囲のスケールの対象物を认识する必要があること、一口に颜といってもパーツの配置や肌の色の违い等によって同じものが一つとして存在しないことといった违いがある[2]

颜検出 データセット一覧
名称 発表年 枚数 特徴・备考
UMD Faces - Video[72] 2017 22,075 动画を含む
MegaFace[73] 2017 约470万
MS-Celeb-1M[74] 2016 约100万 Microsoftが开催したコンペティションで使用されたデータセット

道路シーン

物体検出の実世界への応用分野の一つとして自动运転が挙げられる。これは自动运転において、道路上の信号机标识を认识することが必要だからである[75]。以下では标识や信号机を含むデータセットを挙げている。

道路シーン データセット一覧
名称 発表年 枚数 クラス数 特徴・备考
CityScapes[76] 2016 约5,000 30 ドイツの各都市の道路シーン画像を収集 セグメンテーションラベルが付与されている
KITTI[77] 2012 约15,000 16 他にOptical Flowの情报や、3次元のアノテーションが付与されたデータも存在する
LISA[78] 2012 约6,610 47 アメリカで撮影された道路シーン 动画を含むバージョンも存在する

评価指标

物体検出タスクにおけるIoUの计算例。

物体検出システムの性能を测る指标としては、大きく2つの视点から挙げることができる。1つが処理速度であり、もう1つが精度である。特に処理速度を测る指标としてフレームパー毎秒(FPS)、精度を测る指标として适合率と再现率​(英语がある[3]。以上の指标は物体検出に限らず用いられる指标であるが、物体検出に特有の数値としてジャッカード系数​(英语(Intersection over Union)がある。これはある推定结果と対応する正解がどの程度重なっているかを表す数値であり、完全に一致しているときには1、全く重なる部分がないときには0となる。実际の検出システムでは完全に正解と一致する结果を得ることは困难であるため、実运用评価の际にはこのIoUが一定値以上の结果を正解とみなし精度を测ることになる[63][3]。また、适合率と再现率の他に、これらを组み合わせた平均适合率(Average Precision, AP)も用いられることが多い[3]。推论时には推论した结果とともにどの程度の确からしさでその検出结果を得たかという指标も返されるが、この确からしさも用いて计算される指标である。适合率と再现率は一般にトレードオフの関系にある(后述)[79]ため、双方の要素を取り込んだ平均适合率が使われる[3]

  • 适合率(Presicion)

一般に以下の式で计算される。ここで、TPは推论结果の中で実际に正解しているもの、FPは推论结果の中で実际には正解でないものの个数である。

 

适合率は推论结果のうち正解がどれだけ含まれているか、すなわち“どれだけ正解でないものを误って正解と検出しないか”を表す指标である。

  • 再现率(Recall)

一般に以下の式で计算される。ここで、FNは検出しなかったものの実际には正解であるような见逃した个数を表す。

 

再现率は全ての正解として扱われるべきものの中で実际にどれだけ推论できたか、すなわち“どれだけ正解を见逃さなかったか”を表す指标である。式からも明らかであるが、见逃しを减らすためにより多くのものを検出しようとすればするほど再现率は高まるが、その分本来正解でないものを正解としてしまうパターンが増えるため适合率は下がりがちである。他方で、过検出を减らすために検出结果を绞り込むと适合率は高まるが、その分本来正解であるべきものを见逃すパターンが増えるため再现率は下がりがちである。すなわち、适合率と再现率はトレードオフの関系にある[79]

课题

本节では物体検出における课题を挙げる。なお、2020年现在物体検出の研究は深层学习を用いたものが主であり、本节で挙げる课题も深层学习を用いることを前提としているものが多い。

回転

DNNは入力画像に几何的な変换を加えた场合、得られる特徴マップは不変ではない[80]平行移动的な几何学変化にはある程度强いものの、回転やスケールの変化などが大きいと结果が変化してしまう[3]。そのため、几何的なロバスト性を获得するために様々な手法が提案されている[80]。回転変换へのロバスト性については、テキスト认识[81]航空画像からの検出[82]といった分野では研究例があり、データセットが作成された例[83][84]もある。一方で、一般物体に関する大规模データセットは回転画像を含んでいない[67][68][69][70]ため、一般物体についての研究は限られている[3]

障害物(オクルージョン)

実世界の画像にはしばしば、対象物体を遮蔽するような障害物が存在することがあり、対象物体からの情报を损なってしまう[3]。対策手法として、予めオフセット[注釈 4]を见込んだ畳み込み、プーリング[注釈 5]を行うもの[86]が挙げられる。また、GAN等の生成ネットワークを用いて障害物を意図的に作る手法も提案されている[87]が、オクルージョンを巡る课题はまだ解决されていない[3]

画像の劣化

画像に生じるノイズも课题の一つである。原因として、照明条件、画像圧缩によるもの、安価な端末を用いることによるもの等が挙げられる[3]。しかしこれまで作られた大规模データセットは高画质であることが前提であり、従来手法もこれらの画像の劣化を考虑していないことが多い[3]

この他にも、物体検出に固有の课题として、検出対象でない“背景”に分类されるクラスが圧倒的に多くなってしまうという、クラス间での正解数のアンバランス等が挙げられる[3][7]

脚注

Template:脚注ヘルプ

注釈

  1. ^ 当然,除了适当的特征提取手法之外,建构强健的检测模型、以及使用多样化的训练资料集也同等重要[10]

出典

  1. ^ Dasiopoulou, Stamatia, et al. "Knowledge-assisted semantic video object detection." IEEE Transactions on Circuits and Systems for Video Technology 15.10 (2005): 1210–1224.
  2. ^ 2.00 2.01 2.02 2.03 2.04 2.05 2.06 2.07 2.08 2.09 2.10 2.11 Zhao, Zhong-Qiu. Object Detection with Deep Learning: A Review. IEEE Transactions on Neural Networks and Learning Systems (IEEE). 2019, 30 (11): 3212–3232. arXiv:1807.05511 . doi:10.1109/TNNLS.2018.2876865. 
  3. ^ 3.00 3.01 3.02 3.03 3.04 3.05 3.06 3.07 3.08 3.09 3.10 3.11 3.12 3.13 3.14 3.15 3.16 3.17 3.18 3.19 3.20 3.21 3.22 3.23 3.24 3.25 3.26 3.27 3.28 3.29 3.30 3.31 3.32 3.33 3.34 3.35 3.36 Li Liu. Deep Learning for Generic Object Detection: A Survey. International Journal of Computer Vision. 2020, 128: 261–318. doi:10.1007/s11263-019-01247-4. 
  4. ^ Olga Russakovsky. ImageNet Large Scale Visual Recognition Challenge. International Journal of Computer Vision. 2015, 115 (3): 211–252. arXiv:1409.0575v2 . doi:10.1007/s11263-015-0816-y. 
  5. ^ 佐藤 敦. 安全安心な社会を支える画像認識技術(<特集>企業におけるAI研究の最前線). 人工知能 (人工知能学会). 2014, 29 (5): 448–455. doi:10.11517/jjsai.29.5_448 (日语). 
  6. ^ Zhang, Xin; Yang, Yee-Hong; Han, Zhiguang; Wang, Hui; Gao, Chao. Object class detection: A survey. ACM Computing Surveys. 2013-10, 46 (1): 4 [2021-04-05]. ISSN 0360-0300. doi:10.1145/2522968.2522978 (英语).  |pages=|page=只需其一 (帮助)
  7. ^ 7.0 7.1 7.2 7.3 Wu, Sahoo & Hoi 2020,第20页.
  8. ^ 柳井 2007,第4页.
  9. ^ 藤吉 2008,第9-10页.
  10. ^ 柳井 2007,第1页.
  11. ^ 藤吉 2008,第9页.
  12. ^ 12.0 12.1 David G. Lowe. Distinctive Image Features from Scale-Invariant Keypoints (pdf). e International Journal of Computer Vision. 2004, 60: 91–110 [2020-11-20]. doi:10.1023/B:VISI.0000029664.99615.94. 
  13. ^ 13.0 13.1 13.2 13.3 Krizhevsky, Alex. ImageNet Classification with Deep Convolutional Neural Networks. NIPS'12: Proceedings of the 25th International Conference on Neural Information Processing Systems. 2012, 1: 1097–1105. 
  14. ^ 14.0 14.1 14.2 Ross, Girshick. Rich feature hierarchies for accurate object detection and semantic segmentation (PDF). Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition (IEEE). 2014: 580–587. ISBN 978-1-4799-5118-5. arXiv:1311.2524 . doi:10.1109/CVPR.2014.81. 
  15. ^ M.A. Fischler. The Representation and Matching of Pictorial Structures. IEEE Transactions on Computers. 1973, C–22 (1): 67–92. doi:10.1109/T-C.1973.223602. 
  16. ^ VIOLA P. Robust Real-time Object Detection. International Journal of Computer Vision. 2002, 57 (2): 137–154. 
  17. ^ 藤吉 2019,第293页.
  18. ^ 18.0 18.1 Qingchen Zhang. A survey on deep learning for big data. Information Fusion. 2018, 42: 146–157. ISSN 1566-2535. doi:10.1016/j.inffus.2017.10.006. 
  19. ^ K. He. Spatial Pyramid Pooling in Deep Convolutional Networks for Visual Recognition. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2015, 37 (9): 1904–1916. arXiv:1406.4729v4 . doi:10.1109/TPAMI.2015.2389824. 
  20. ^ 20.0 20.1 Girschick, Ross. Fast R-CNN (PDF). Proceedings of the IEEE International Conference on Computer Vision. 2015: 1440–1448. Bibcode:2015arXiv150408083G. arXiv:1504.08083 . 
  21. ^ 21.0 21.1 21.2 Shaoqing, Ren. Faster R-CNN. Advances in Neural Information Processing Systems. 2015. arXiv:1506.01497 . 
  22. ^ Kaiming He. Mask R-CNN. ICCV2017. 2018. arXiv:1703.06870 . 
  23. ^ Sermanet, Pierre. OverFeat: Integrated Recognition, Localization and Detection using Convolutional Networks. International Conference on Learning Representations. 2013. 
  24. ^ Zhao, Rui; Yan, Ruqiang; Chen, Zhenghua; Mao, Kezhi; Wang, Peng; Gao, Robert X. Deep learning and its applications to machine health monitoring. Mechanical Systems and Signal Processing. 2019-01, 115: 213–237 [2020-11-24]. arXiv:1612.07640 . doi:10.1016/j.ymssp.2018.05.050 (英语). 
  25. ^ Long, Jonathan; Shelhamer, Evan; Darrell, Trevor. Fully convolutional networks for semantic segmentation. 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR) (Boston, MA, USA: IEEE). 2015-06: 3431–3440 [2020-11-24]. ISBN 978-1-4673-6964-0. arXiv:1411.4038 . doi:10.1109/CVPR.2015.7298965. 
  26. ^ 26.0 26.1 Redmon, Joseph. You only look once: Unified, real-time object detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2016. Bibcode:2015arXiv150602640R. arXiv:1506.02640 . 
  27. ^ 27.0 27.1 Liu, Wei. SSD: Single shot multibox detector. Computer Vision – ECCV 2016. Lecture Notes in Computer Science 9905. October 2016: 21–37. ISBN 978-3-319-46447-3. arXiv:1512.02325 . doi:10.1007/978-3-319-46448-0_2.  |journal=被忽略 (帮助)
  28. ^ 28.0 28.1 Mingxing Tan. EfficientDet: Scalable and Efficient Object Detection. CVPR2020. 2020: 10778–10787. arXiv:1911.09070 . doi:10.1109/CVPR42600.2020.01079. 
  29. ^ 29.0 29.1 Bochkovskiy, Alexey. Yolov4: Optimal Speed and Accuracy of Object Detection. 2020. arXiv:2004.10934  [cs.CV]. 
  30. ^ 内田 2012,第13页.
  31. ^ Viola, P.; Jones, M. Rapid object detection using a boosted cascade of simple features. Proceedings of the 2001 IEEE Computer Society Conference on Computer Vision and Pattern Recognition. CVPR 2001 (Kauai, HI, USA: IEEE Comput. Soc). 2001, 1: I–511–I–518. ISBN 978-0-7695-1272-3. doi:10.1109/CVPR.2001.990517. 
  32. ^ 32.0 32.1 32.2 32.3 藤吉 2019,第292页.
  33. ^ 森川, 健一郎; 村松, 大吾; 小方, 博之. Haar-like特徴とエッジ検出を用いた仮名漢字領域アルゴリズムの開発. 精密工学会学术讲演会讲演论文集 (精密工学会). 2012,. 2012年度精密工学会春季大会: 759–760. doi:10.11522/pscjspe.2012S.0.759.0. 
  34. ^ 稲垣, 宏树. ドライブレコーダーからの歩行者認識技術の研究. repository.aitech.ac.jp. 2010-03-31 [2021-03-24]. 
  35. ^ 山内, 悠嗣; 山下, 隆义; 藤吉, 弘亘. 画像からの統計的学習手法に基づく人検出. 电子情报通信学会论文志. 2013年9月, 96 (9): 2017–2040. ISSN 1880-4535. 
  36. ^ Lowe, D.G. Object recognition from local scale-invariant features. Proceedings of the Seventh IEEE International Conference on Computer Vision (Kerkyra, Greece: IEEE). 1999: 1150–1157 vol.2. ISBN 978-0-7695-0164-2. doi:10.1109/ICCV.1999.790410. 
  37. ^ FUJIYOSHI & AMBAI 2011,第1109页.
  38. ^ 佐川 2012,第6页.
  39. ^ FUJIYOSHI & AMBAI 2011,第1115页.
  40. ^ Dalal, Navneet. Histograms of oriented gradients for human detection (PDF). Computer Vision and Pattern Recognition. 2005, 1. 
  41. ^ 41.0 41.1 藤吉 2008,第14页.
  42. ^ Cai, Zhaowei; Vasconcelos, Nuno. Cascade R-CNN: High Quality Object Detection and Instance Segmentation. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2019: 1–1. ISSN 0162-8828. doi:10.1109/TPAMI.2019.2956516. 
  43. ^ Jiao 2019,第128839页.
  44. ^ 44.0 44.1 Nikhil Yadav; Binay, Utkarsh. Comparative Study of Object Detection Algorithms (PDF). International Research Journal of Engineering and Technology (IRJET). 2017, 4 (11): 586–591 [2021-03-29]. ISSN 2395-0056. 
  45. ^ Redmon, Joseph. YOLO9000: better, faster, stronger. 2017. arXiv:1612.08242  [cs.CV]. 
  46. ^ Redmon, Joseph. Yolov3: An incremental improvement. 2018. arXiv:1804.02767  [cs.CV]. 
  47. ^ 47.0 47.1 47.2 Wu, Sahoo & Hoi 2020,第9页.
  48. ^ Aziz et al. 2020,第170472页.
  49. ^ Aziz et al. 2020,第170473页.
  50. ^ Wu, Sahoo & Hoi 2020,第10页.
  51. ^ Aziz et al. 2020,第170474页.
  52. ^ Wu, Sahoo & Hoi 2020,第9-10页.
  53. ^ 53.0 53.1 53.2 Zhang, Shifeng. Single-Shot Refinement Neural Network for Object Detection. Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition. 2018: 4203–4212. Bibcode:2017arXiv171106897Z. arXiv:1711.06897 . 
  54. ^ 54.0 54.1 Aziz et al. 2020,第170475页.
  55. ^ 55.0 55.1 55.2 Lin, Tsung-Yi. Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020, 42 (2): 318–327. Bibcode:2017arXiv170802002L. PMID 30040631. arXiv:1708.02002 . doi:10.1109/TPAMI.2018.2858826. 
  56. ^ Pang, Jiangmiao; Chen, Kai. Libra R-CNN: Towards Balanced Learning for Object Detection. 2019-04-04. arXiv:1904.02701v1  [cs.CV]. 
  57. ^ Lin, Tsung-Yi. Focal Loss for Dense Object Detection. IEEE Transactions on Pattern Analysis and Machine Intelligence. 2020, 42 (2): 318–327. Bibcode:2017arXiv170802002L. PMID 30040631. arXiv:1708.02002 . doi:10.1109/TPAMI.2018.2858826. 
  58. ^ 58.0 58.1 Mandhala, Venkata Naresh; Bhattacharyya, Debnath; B., Vamsi; Rao N., Thirupathi. Object Detection Using Machine Learning for Visually Impaired People. International Journal of Current Research and Review. 2020, 12 (20): 157–167. ISSN 2231-2196. doi:10.31782/ijcrr.2020.122032. 
  59. ^ Zhu, Xizhou. Deformable ConvNets v2: More Deformable, Better Results. 2018. arXiv:1811.11168  [cs.CV]. 
  60. ^ Dai, Jifeng. Deformable Convolutional Networks. 2017. arXiv:1703.06211  [cs.CV]. 
  61. ^ Aziz et al. 2020,第170476页.
  62. ^ 柳井 2007,第8页.
  63. ^ 63.0 63.1 Jiao 2019.
  64. ^ 64.0 64.1 Hao Su, Jia Deng, Li Fei-Fei. Crowdsourcing Annotations for Visual Object Detection (报告). HCOMP@AAAI 2012: 40–46. [2021-03-24]. 
  65. ^ 柳井 2007,第16页.
  66. ^ 66.0 66.1 Ankan Bansal. UMDFaces: An Annotated Face Dataset for Training Deep Networks. 2017 IEEE International Joint Conference on Biometrics (IJCB). 2017: 464–473. arXiv:1611.01484 . doi:10.1109/BTAS.2017.8272731. 
  67. ^ 67.0 67.1 Mark Everingham. The PASCAL Visual Object Classes Challenge: A Retrospective. International Journal of Computer Vision. 2015, 111: 98–136. doi:10.1007/s11263-014-0733-5. 
  68. ^ 68.0 68.1 Jia Deng. ImageNet: A large-scale hierarchical image database (pdf). 2009 IEEE Conference on Computer Vision and Pattern Recognition. 2009: 248–255 [2020-11-23]. doi:10.1109/CVPR.2009.5206848. 
  69. ^ 69.0 69.1 69.2 Tsung-Yi Lin. Microsoft COCO: Common Objects in Context. ECCV2014. 2014: 740–755. arXiv:1405.0312 . doi:10.1007/978-3-319-10602-1_48. 
  70. ^ 70.0 70.1 70.2 Alina Kuznetsova. The Open Images Dataset V4. ICCV. 2020, 128 (40). arXiv:1811.00982 . doi:10.1007/s11263-020-01316-z. 
  71. ^ Iacopo Masi. Deep Face Recognition: A Survey. 2018 31st SIBGRAPI Conference on Graphics, Patterns and Images (SIBGRAPI). 2018: 471–478. arXiv:1804.06655 . doi:10.1109/SIBGRAPI.2018.00067. 
  72. ^ Ankan Bansal. The Do’s and Don’ts for CNN-based Face Verification. 2017 IEEE International Conference on Computer Vision Workshops (ICCVW). 2017: 2545–2554. arXiv:1705.07426 . doi:10.1109/ICCVW.2017.299. 
  73. ^ Aaron Nech. Level Playing Field for Million Scale Face Recognition. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 3406–3415. doi:10.1109/CVPR.2017.363. 
  74. ^ Yandong Guo. MS-Celeb-1M: A Dataset and Benchmark for Large-Scale Face Recognition. ECCV 2016. 2016. arXiv:1607.08221 . doi:10.1007/978-3-319-46487-9_6. 
  75. ^ Alex Pon. A Hierarchical Deep Architecture and Mini-batch Selection Method for Joint Traffic Sign and Light Detection. 2018 15th Conference on Computer and Robot Vision (CRV). 2018: 102–109. arXiv:1806.07987 . doi:10.1109/CRV.2018.00024. 
  76. ^ M. Cordts. The Cityscapes Dataset for Semantic Urban Scene Understanding. IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016. 2016. 
  77. ^ Andreas Geiger. Are we ready for Autonomous Driving? The KITTI Vision Benchmark Suite. Conference on Computer Vision and Pattern Recognition (CVPR)2012. 2012. 
  78. ^ Andreas Mogelmose. Vision-Based Traffic Sign Detection and Analysis for Intelligent Driver Assistance Systems: Perspectives and Survey. IEEE Transactions on Intelligent Transportation Systems. 2012, 13 (4): 1484–1497. doi:10.1109/TITS.2012.2209421. 
  79. ^ 79.0 79.1 Powers, David. Evaluation: from precision, recall and F-measure to ROC, informedness, markedness and correlation. J. Mach. Learn. Technol. 2011, 2. arXiv:2010.16061 . doi:10.9735/2229-3981. 
  80. ^ 80.0 80.1 Karel Lenc. Understanding image representations by measuring their equivariance and equivalence (pdf). 2015 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2015: 991–999 [2020-11-23]. doi:10.1109/CVPR.2015.7298701. 
  81. ^ Jianqi Ma. Arbitrary-Oriented Scene Text Detection via Rotation Proposals. IEEE Transactions on Multimedia. 2018, 20 (11): 3111–3122. arXiv:1703.01086 . doi:10.1109/TMM.2018.2818020. 
  82. ^ Jian Ding. Learning RoI Transformer for Oriented Object Detection in Aerial Images. 2019 IEEE/CVF Conference on Computer Vision and Pattern Recognition (CVPR). 2019: 2844–2853. arXiv:1812.00155 . doi:10.1109/CVPR.2019.00296. 
  83. ^ Gui-Song Xia. DOTA: A Large-Scale Dataset for Object Detection in Aerial Images. 2018 IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2018: 3974–3983. arXiv:1711.10398 . doi:10.1109/CVPR.2018.00418. 
  84. ^ Zikun Liu. A High Resolution Optical Satellite Image Dataset for Ship Recognition and Some New Baselines. the 6th International Conference on Pattern Recognition Applications and Methods (ICPRAM). 2017, 1: 324–331. doi:10.5220/0006120603240331. 
  85. ^ 长瀬, 准平; 石渡, 哲哉. スキップ接続によるプーリング層の構成および表現力に基づくそれらのモデルの解析. 人工知能学会全国大会论文集. 2019-06-01,. JSAI2019: 1–4. doi:10.11517/pjsai.JSAI2019.0_1Q3J202. 
  86. ^ Jifeng Dai. Deformable Convolutional Networks. 2017 IEEE International Conference on Computer Vision (ICCV). 2017: 764–773. ISSN 2380-7504. arXiv:1703.06211 . doi:10.1109/ICCV.2017.89. 
  87. ^ Xiaolong Wang. A-Fast-RCNN: Hard Positive Generation via Adversary for Object Detection. 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR). 2017: 3039–3048. arXiv:1704.03414 . doi:10.1109/CVPR.2017.324. 

参考文献

関连项目

外部リンク


引用错误:页面中存在<ref group="注釈">标签,但没有找到相应的<references group="注釈" />标签