#
#

ウェアラブル端末を用いたアプリケーション

スマートフォン画像を用いた
画像検索と位置推定

Application using Wearable Devices

Positioning and Image Retrieval
using Smartphone

知らない場所のPOI(Point of Interest)を認識することは、人間にとって困難なタスクです。 しかし、コンピュータビジョンの進歩や、カメラやGPSなどのセンサーを搭載したスマートフォンの普及により、 インテリジェントなソリューションを開発する有望な機会がもたらされています。 最近の研究では、画像検索やインスタンスレベルの認識問題としてランドマーク認識に焦点が当てられていますが、 都市部のPOIは、高いPOI密度、繰り返し特徴、外観のばらつき、知覚的エイリアシングなど、独自の課題を抱えています。 その結果、視覚的な類似性だけでは、このような条件下でPOIを頑健に識別するのに十分であるとは必ずしも言えません。 本研究では、これらの課題を克服するために、視覚、テキスト、位置情報を融合させた階層的なフレームワークを提案します。 具体的には、テキスト読解による視覚的位置認識(VPR)パイプライン(VPRText)を提案し、単語スポッティングのために市販のテキストスポッティングアルゴリズムを利用し、 レイアウト解析とテキスト類似性検索モジュールに続きます。また、VPRTextと画像検索パイプライン(VPRTextImage)を組み合わせ、POI検出、位置情報検索、画像検索、 視覚的類似性と距離尺度を融合した新しい軽量プレースワイズ再ランカーを統合します。 提案するフレームワークを、知覚的に平行移動するインスタンスと照明されたインスタンスを含む、高密度に分布する都市環境からなる新しい困難なデータセットで評価しました。

Recognizing points of interest (POIs) in unfamiliar places can be a challenging task for humans. However, advancements in computer vision and the availability of smartphones equipped with sensors, such as cameras and GPS, offer promising opportunities for developing intelligent solutions. Although recent studies have focused on landmark recognition as an image retrieval or instance-level recognition problem, POIs in urban areas present unique challenges, such as high POI density, repetitive features, appearance variances, and perceptual aliasing. As a result, visual similarity alone is not always sufficient to robustly identify POIs in these conditions. In this study, we propose a hierarchical framework that fuses visual, textual, and positioning information to overcome these challenges. Specifically, we propose a visual place recognition (VPR) through text reading pipeline (VPRText), which utilizes off-the-shelf text spotting algorithms for word spotting, followed by layout analysis and text similarity search modules. We also combine VPRText with a VPR through image retrieval pipeline (VPRTextImage), which incorporates POI detection, location-based retrieval, image retrieval, and a novel lightweight place-wise re-ranker that fuses visual similarity and distance measures. We evaluate our proposed framework on a new and challenging dataset comprising densely distributed urban environments with perceptually aliased and illuminated instances. The propose hierarchical place recognition framework enables humans to explore unfamiliar areas with ease.


参考文献 REFERENCES
Dulmini Hettiarachchi., Shunsuke Kamijo, “Visual and Positioning Information Fusion Towards Urban Place Recognition,” SN Computer Science (Springer), 4, 44, 2023.

Dulmini Hettiarachchi., Ye Tian, Han Yu, Shunsuke Kamijo, “Text Spotting Towards Perceptually Aliased Urban Place Recognition,” Multimodal Interaction Technologies (MDPI), Published on Nov,18,2022

Dulmini Hettiarachchi, Shunsuke Kamijo, “Visual and Location Information Fusion for Hierarchical Place Recognition,” 2022 IEEE International Conference on Consumer Electronics (ICCE), Virtual, January 7-9, 2022.