途中で何度も落とそうかと思ったコンピューター・ビジョン、担当教授の説明がとっても曖昧で、授業からはほとんど何も得られず、パワーポイントも具体性に欠ける、さらに宿題は誤植が多くてかなり参った。でも、扱ってる題材そのものはとっても面白かった。その中から、セメスター最後にやったファイナル・プロジェクトと最新の研究事例をちょっとご紹介。
ファイナル・プロジェクトは2人のチームになって、約1ヶ月で仕上げた。いくつか選択肢があったけど、独自のプロジェクトをやるのもOK。自分のチームが選んだのは Photo-Mosaicing. 最初、写真&モザイクというキーワードから思わずあやしげな想像をしちゃったけど、英語で mosaic とは『寄せ集めの』という意味。つまり、いくつかの画像を貼りあわせて1つの大きな画像を作るプロジェクト。
これを進める上で欠かせないのが、SIFT (Scale-Invariant Feature Transform) というアルゴリズム。この正式な論文が発表されたのは2004年なのに、Google Scholar によれば既に800回弱の引用があるとのこと。それだけインパクトの強い手法なんだと思う。この SIFT というのは、ある画像内の特徴を抽出する手法。これを2つの画像で比べて共通する特徴を抽出し、その2つを組み合わせる。画像の輝度とかが若干違うので、画像をうまく混ぜ合わせる、というのが基本的な一通りの流れ。実際にこの手法を提案した筆者は、80枚の写真を組み合わせて凄い綺麗なパノラマ画像を作っている。さすがにそこまではできないので、自分たちは3枚を組み合わせるプログラムを作った。つまり、3枚の写真にそれぞれ30%くらい共通する部分があれば、プログラムが自動的に計算して、3枚の画像を組み合わせるもの。珍しく締め切りの12時間前以上にすべて終了して、出来もまぁまぁ。欲を言えば、もっとこんなパノラマ画像を作りたかったけど。
この話に関連して、最後の授業に紹介されたいま注目を集めている研究に、Photo Tourism というものがある。ワシントン大学とマイクロソフトが共同研究しているもので、データベースにある画像の特徴を抽出・比較することで、どの写真がどの場所から撮られたかを3次元上で再現してしまうというもの。このデモ映像を見ると、どんなものかなんとなくわかると思う。もしくは、実際にオンライン・デモも試せる。
ちなみに、画像処理の分野ではマイクロソフトが相当ずば抜けているそうだ。この授業を教えていた教授(画像処理では結構な第一人者)の教え子も何人かマイクロソフトで働いていて、たった数年で自分の一生涯の給料を越えるくらい稼いでしまう、とちょっと嘆いていた。
● Photo-Mosaicing 関連の参考文献
- Heung-Yeung Shum and Richard Szeliski. Panoramic image mosaics. Technical report, Microsoft Research, 1997.
- David G. Lowe, "Distinctive image features from scale-invariant keypoints," International Journal of Computer Vision, 60, 2 (2004), pp. 91-110.
- Matthew Brown and David G. Lowe, "Recognising panoramas," International Conference on Computer Vision (ICCV 2003), Nice, France (October 2003), pp. 1218-25.
- D. G. Lowe. Demo software: Sift keypoint detector. Technical report, July 2005.
- P. J. Burt and E. H. Adelson. A amultiresolution spline with application to image mosaics. ACM Transactions on Graphics, 2(4):217-236, 1983.
- P. J. Burt and E. H. Adelson. The laplacian pyramid as a compact image code. IEEE Transactions on Communications, COM-31(4):532-540, 1983.