とてもつらい

プログラミングと本のメモ

Towards Unifieid Depth and Sematic Prediction from a Signle Image

読んだメモ。

概要

大域的な深度推定と領域分割を行うCNNと、局所的な深度推定するCNNの出力結果と局所的な領域分割を、Hierarchical CRFによって情報を合わせて、 領域分割と深度推定を行う。

実際には、同じ年の同じ学会に出たEigenの論文が圧勝してるので、そんなに読む必要もないと思う。

Global CNN

大域的な深度推定と領域分割を行うCNN。

RGB画像を入力として、領域された画像と深度画像が出力となる。

誤差関数は、論文参照。ネットワーク構造は、EigenのNIPS2014のやつ。

Local CNN

局所的な深度推定をするCNN。

直接深度を求めるのではなく、ラベルごとに正則化された深度画像のテンプレートがあり、最もそれらしいテンプレートを選択するCNNを作る。

誤差関数は、論文参照。

局所的な領域分割は、Global CNNの結果の多数決できめる。 局所的な深度は、テンプレートの中心の深度と、テンプレートのスケールを求めることで決まる。これは、HCRGで決まる。 テンプレートは、データセットから切り取ったものとする。

HCRF

論文の式1を最小化すると局所的な情報と大域的な情報をいい感じに合わせてくれる。 式1に含まれるデータ項には、Global CNNの出力と、式9がそれぞれ入る。 実装するには、他の論文の関数をそのまま使ってるとこがあるので、それを読まないといけない。 解くときは、ラベルか深度のどちらかを固定して、最適化を繰り返す。