Computer Vision

途中で何度も落とそうかと思ったコンピューター・ビジョン、担当教授の説明がとっても曖昧で、授業からはほとんど何も得られず、パワーポイントも具体性に欠ける、さらに宿題は誤植が多くてかなり参った。でも、扱ってる題材そのものはとっても面白かった。その中から、セメスター最後にやったファイナル・プロジェクトと最新の研究事例をちょっとご紹介。


ファイナル・プロジェクトは2人のチームになって、約1ヶ月で仕上げた。いくつか選択肢があったけど、独自のプロジェクトをやるのもOK。自分のチームが選んだのは Photo-Mosaicing. 最初、写真&モザイクというキーワードから思わずあやしげな想像をしちゃったけど、英語で mosaic とは『寄せ集めの』という意味。つまり、いくつかの画像を貼りあわせて1つの大きな画像を作るプロジェクト。

これを進める上で欠かせないのが、SIFT (Scale-Invariant Feature Transform) というアルゴリズム。この正式な論文が発表されたのは2004年なのに、Google Scholar によれば既に800回弱の引用があるとのこと。それだけインパクトの強い手法なんだと思う。この SIFT というのは、ある画像内の特徴を抽出する手法。これを2つの画像で比べて共通する特徴を抽出し、その2つを組み合わせる。画像の輝度とかが若干違うので、画像をうまく混ぜ合わせる、というのが基本的な一通りの流れ。実際にこの手法を提案した筆者は、80枚の写真を組み合わせて凄い綺麗なパノラマ画像を作っている。さすがにそこまではできないので、自分たちは3枚を組み合わせるプログラムを作った。つまり、3枚の写真にそれぞれ30%くらい共通する部分があれば、プログラムが自動的に計算して、3枚の画像を組み合わせるもの。珍しく締め切りの12時間前以上にすべて終了して、出来もまぁまぁ。欲を言えば、もっとこんなパノラマ画像を作りたかったけど。

この話に関連して、最後の授業に紹介されたいま注目を集めている研究に、Photo Tourism というものがある。ワシントン大学とマイクロソフトが共同研究しているもので、データベースにある画像の特徴を抽出・比較することで、どの写真がどの場所から撮られたかを3次元上で再現してしまうというもの。このデモ映像を見ると、どんなものかなんとなくわかると思う。もしくは、実際にオンライン・デモも試せる。

ちなみに、画像処理の分野ではマイクロソフトが相当ずば抜けているそうだ。この授業を教えていた教授(画像処理では結構な第一人者)の教え子も何人かマイクロソフトで働いていて、たった数年で自分の一生涯の給料を越えるくらい稼いでしまう、とちょっと嘆いていた。


● Photo-Mosaicing 関連の参考文献
- Heung-Yeung Shum and Richard Szeliski. Panoramic image mosaics. Technical report, Microsoft Research, 1997.
- David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110.
- Matthew Brown and David G. Lowe, "Recognising panoramas," International Conference on Computer Vision (ICCV 2003), Nice, France (October 2003), pp. 1218-25.
- D. G. Lowe. Demo software: Sift keypoint detector. Technical report, July 2005.
- P. J. Burt and E. H. Adelson. A amultiresolution spline with application to image mosaics. ACM Transactions on Graphics, 2(4):217-236, 1983.
- P. J. Burt and E. H. Adelson. The laplacian pyramid as a compact image code. IEEE Transactions on Communications, COM-31(4):532-540, 1983.

TrackBacks (0) Comments (3)

0 TrackBacks

Listed below are links to blogs that reference this entry: Computer Vision.

TrackBack URL for this entry: http://www.thepath.jp/cgi-bin/mt/mt-tb.cgi/370

3 Comments

面白そうなことしてるよね。うらやましいです。

今暇で画像処理を少しだけ勉強しています。
といっても、そんなに高度なことしてないけど…
ベイズ使って超解像のプログラム書いたり、そんな感じです。

うちのクラスも授業からは何も得られないクラスでした。
まず先生もそう言ってましたけど。論文を読ませるクラスだと。

コースサイト見つけてみてみましたけど、大体どこも同じような内容みたいですね。
うちは Edge Detection -> Markov Random Fields (Segmentation に使う) -> Segmentation -> Structure from Motion (Calibration, Stereo, Motion) -> Object, Face Rcognition でした。
stanford の cs223b とかも大体同じ構成みたいです。

> かねちゃん
このプロジェクトとかトピック自体はすごい面白かったけど、授業は本当にいやでいやで仕方なかったよ。。

画像処理の勉強してるっていうか、めちゃめちゃそういう会社じゃなかったっけ?どうもみんなの勤め先がパッと思い出せない。。

> sonots さん
あ、stanford のそのクラスのウェブサイト、いつか覗いた記憶があります。でも、授業スライドは格段にわかりやすいのとか結構見つけましたよ。ウチの担当講師とか、Forsythe & Ponce のスライドそのまま使用とかでしたから。。なんか毎週木・金の9:00-10:15は、実時間以上に損した気分です(朝9時~だから)。

Leave a comment