科学技術機械学習幾何学的深層学習ベイズ深層学習その他のテーマ

幾何学的深層学習

幾何学的深層学習(geometric deep learning)とは,学習対象が持つ幾何学的構造に着目した深層学習です. 例えば,画像に写った物体の意味はその位置に依存しません. これを平行移動対称性と言い,畳み込みニューラルネットワークはこの性質を保証するように設計されています. そのため,画像認識において高い性能を発揮できます. この他にも,データの分布が持つトポロジーや計量に注目すれば,より意図通りにデータを生成・編集することができます. このように,幾何学的構造を従事することは,性能や信頼性の向上に欠かせません.

幾何学的深層学習

数理的構造を考慮した生成モデル

述語論理を用いたユーザの意図に忠実なテキスト-画像拡散モデル

拡散モデルはテキストから高品質な画像を生成できますが,テキストの意図をしばしば無視することがあります. たとえば,指定したオブジェクトが生成されない,形容詞が誤って別のオブジェクトを変化させる,所有関係を見落すなど. 本研究では,ユーザの意図をより効果的かつ統一的に表現するフレームワークPredicated Diffusionを提案します. テキストの意図を述語論理を用いて表現し,拡散モデル内部のアテンションマップに対応付けることで,画像が元の意図に忠実であることを保証します. 人間評価者と訓練済み画像テキストモデルを用いた評価実験でも,高品質を保ちながら多様なテキストに忠実な画像を生成できることが確認されました.

  • Kota Sueyoshi and Takashi Matsubara, "Predicated Diffusion: Predicate Logic-Based Attention Guidance for Text-to-Image Diffusion Models," The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2024 (CVPR2024), Seattle, Jun. 2024. (highlight)
    CVF OpenReview arXiv Slide Poster Movie Code

深層生成モデルのための非線形かつ可換な画像編集

敵対的生成ネットワーク(GAN)などの深層生成モデルでは, 画像の潜在変数に属性ベクトルを加えて属性(例:年齢や髪の長さなど)を編集する手法が提案されてきました. しかし実データの偏りや歪みにより,単にベクトルを足す線形操作では十分にきれいな編集ができません. 潜在空間に非線形なベクトル場を定義し,その流れ(フロー)で編集する手法もありますが,編集順序によって結果が変わる,つまり非可換になる問題が生じます. たとえば「顔を横に向けてから笑顔にする」操作と「笑顔にしてから顔を横に向ける」操作が異なる結果になるのは望ましくありません. 本研究では,潜在空間中に可換なベクトル場を定義し,可換性と非線形性を両立する手法を提案しました. 可換ベクトル場は曲線座標系と等価であるため,深層学習によってデカルト座標系を歪めることで実現しています. この手法は,非線形性により編集精度が高く,可換性によって編集結果が安定するだけでなく,属性の分離(disentanglement)も促進することが確認されました.

  • Takehiro Aoshima and Takashi Matsubara, "Deep Curvilinear Editing: Commutative and Nonlinear Image Manipulation for Pretrained Deep Generative Model," The IEEE/CVF Conference on Computer Vision and Pattern Recognition 2023 (CVPR2023), Vancouver, Jun. 2023.
    CVF OpenReview arXiv Slides Poster Code

トポロジカルな構造を考慮した3D点群生成

点群は3次元データの表現方法で,ボクセルより高解像度かつメッシュより扱いやすいという特徴を持ちます. 点群生成モデルの学習は,補間や超解像など幅広いタスクで有用です. 物体表面を表す点群には空洞や穴といったトポロジー的特徴がありますが,既存の生成モデルはそれを考慮せず一塊として生成するため,空洞や突起が正確に表現されない問題がありました. 本研究では,多様体を複数の局所座標系で覆うように,条件付き生成モデルで部分ごとに点群を生成する手法を提案します. Gumbel-Softmaxアプローチを用いたモンテカルロ法により,条件数が増えても計算量は増大しません. 比較実験では,空洞や突起物など多様な構造を持つ3D点群を高精度に生成可能であることを示しました.

  • Takumi Kimura, Takashi Matsubara, and Kuniaki Uehara, "Topology-Aware Flow-Based Point Cloud Generation," IEEE Transactions on Circuits and Systems for Video Technology, vol. 32, no. 11, pp. 7967-7982, 2022.
    IEEE
  • Takumi Kimura, Takashi Matsubara, Kuniaki Uehara, "ChartPointFlow for Topology-Aware 3D Point Cloud Generation," ACM International Conference on Multimedia (ACMMM2021), Oct., 2021.
    ACM arXiv Poster Slide Movie Code

幾何学的対称性を考慮した識別モデル

点群セグメンテーションのための距離同変畳み込み

自動運転には正確かつロバストな環境理解が欠かせず,LiDAR点群のセグメンテーションが注目されています. 特に,点群を球面投射した2次元距離画像に畳み込みニューラルネットワーク(CNN)を適用する手法が,効率性と設計しやすさから主流です. しかし,画像上では遠方の物体が小さく写るため,CNNにおいて多様なスケールに対応するフィルタが必要となり,効率性・汎化性が低下する恐れがあります. そこで,距離とスケール比が反比例することに着目し,偏微分方程式の差分作用素を応用してCNNのフィルタを設計することで,サイズの異なる物体に同一のフィルタを適用できる「距離同変畳み込み」を提案しました. 既存のLiDAR点群セグメンテーション用ネットワークに組み込むことで,同変性の存在と性能向上が確認されています.

  • Hidetaka Marumo and Takashi Matsubara, "Scale-Equivariant Convolution for Semantic Segmentation of Depth Image," Nonlinear Theory and Its Applications, IEICE, vol. 15, no. 1 pp. 36-53, 2024.
    J-STAGE Slide

多段畳み込みニューラルネットワークによる幾何学的堅牢性の獲得

ディープラーニングにおいて近年特に研究の盛んな分野のひとつが,GPUの普及に基づいた多層の畳み込みニューラルネットワーク(CNN)の開発です. このような多層構造のCNNは特に画像識別分野で大きな成果を残してきました. このCNNは被写物体の微小な平行移動に対して堅牢であるという,平行移動不変性を持つことが知られています. しかし,その他の幾何学的変化である,拡大縮小,回転には脆弱であることが知られており,識別精度向上の障害となっています. そこで本研究では,複数の拡大縮小された入力から得られる特徴情報を,多段構造の新しいネットワークによって等価に扱い,拡大縮小不変性の獲得と,それによる更なる精度の向上を目指しました.

  • Ryo Takahashi, Takashi Matsubara, and Kuniaki Uehara, "A Novel Weight-Shared Multi-Stage CNN for Scale Robustness," IEEE Transactions on Circuits and Systems for Video Technology, vol. 29, no. 4, pp. 1090-1101, 2019.
    IEEE arXiv
  • Ryo Takahashi, Takashi Matsubara, and Kuniaki Uehara, "Scale-Invariant Recognition by Weight-Shared CNNs in Parallel," The 9th Asian Conference on Machine Learning (ACML 2017), Seoul, Nov. 2017.
    PMLR Slide
  • Ryo Takahashi, Takashi Matsubara, and Kuniaki Uehara, "Multi-Stage Convolutional Neural Networks for Robustness to Scale Transformation," The 2017 International Symposium on Nonlinear Theory and its Applications (NOLTA2017) , Cancun, Dec. 2017, pp. 692-695, 5056.