Will multimodal language processing change the world? (2024)

Table of Contents
慶應義塾大学 理工学部 杉浦孔明 1 マルチモーダル言語処理は 世界を変えるのか? 2024年のマルチモーダル言語処理の動向 2 • 言語・画像・音声・動画を扱うマルチモー ダルLLM(2024/5/13) https://www.youtube.com/watch?v=DQacCB9tDaw プロンプト「Reflections in the window ロボット×言語のユースケース 3 MLLMによる行動系列・状態推定 6億7500万ドルのシリーズB資金を調達 (2024/2) 言語指示可能な自動運転を公道実証 10.5億米ドルのシリーズC資金を調達 (2024/5) Wayve Figure 目次 - - 4 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価 マルチモーダル言語処理の 基礎 - - 5 マルチモーダル言語処理の歴史 - - 6 ▪ 複数のモダリティ(modality)を扱 う ▪ 例:画像、音声、テキスト、センサ ▪ マルチモーダル言語処理のサブ分野: 理解と生成 - - 7 マルチモーダル言語理解タスク ▪ Visual Question Answering CLIP [Radford+ 2021] - - 8 ▪ 学習: 画像とテキストの組(4億組)の特徴量同士を近付ける ▪ CLIPを物体操作・探索に利用 - - 9 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+ ロボティクスと基盤モデル 10 基盤モデルのロボティクスへの影響 - - 11 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等 言語スコアと動作スコアの後期統合の例: PaLM SayCan [Ahn(Google)+ 2022] - - 12 ▪ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率 ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 13 手法 概要 Code as Policies [Liang+ 2022年以降、マルチモーダルLLMの開発が活発化 14 https://github.com/BradyFU/Awesome-Multimodal-Large-Language-Models マルチモーダルLLM(MLLM)の代表的構成 15 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality マルチモーダルLLMによる行動系列生成 16 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLMを 用いたタスク分解と実行 Figure01 ロボット基盤モデル構築の試み - - 17 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作 等を1つのトランスフォーマーで学習 2023年以降、ロボット基盤モデルの開発が活発に 18 ▪ π0 (Physical Intelligence, 2024/10/31) ▪ 10000時間のロボットデータで 学習 マルチモーダルLLMの評価 19 画像ベンチマーク:MMMU, MMMU-Pro Massive Multi-discipline Multimodal Understanding [Yue+ CVPR24][Yue+ 2024] 20 例題1: フィードバック制御系の定常偏差 21 例題1に対するGPT-4Vによる予測 22 画像キャプショニングの自動評価 - - 23 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪ 画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 24 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪ マルチモーダルLLMの評価を見据えた取り組み 26 Deneb [Matsuda+ ACCV24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪ 何を目指すのか? 27 ▪ キャプショニングにおいて、人間の評価同士の相関は0.7程度 ▪ そろそろSuperhumanの評価尺度が出現する ▪ Superhuman評価尺度ができると世界はどう変わる? ▪ 人手評価が不要に。 エージェントベンチマーク: 移動指示・物体探索指示理解 実世界 ▪ R2R [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪ 取り組み事例: マルチモーダル言語処理 - - 29 実世界検索エンジン [Kaneda+ IEEE RAL24] 30 背景 ▪ 生活環境・病院・ショッピングモール・屋外を 言語を通じて利活用できれば便利 ▪ 未知環境における機能実証 (2023/12/15@東京国際フォーラム) 32 消火器はどこ? 未知環境における機能実証 (2023/12/15@東京国際フォーラム) 33 座る場所を探してるんだけど モビリティ向け移動指示理解 [Hosomi+ IEEE RAL24a] [Hosomi+ IEEE RAL24b] 【タスク】 「バイクが止まっている所の横に 停めて」等の移動指示言語理解 取り組み事例: 生活支援ロボット - - 35 最新のマルチモーダルLLMでも困難な例 参照表現理解 36 The pillow on the couch closest to Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題 何をどこまでやるのか ▪ 介助犬のタスクは明確 に規定されている ▪ HSRが可能なタスク を人手で分析 ▪ タスクの80%以上をカ バーし、成功率80%以 Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023] Open-Vocabulary物体操作の流れ - - 40 ① 環境探索 [鈴木+, RSJ24] ② 実世界検索 3D視覚言語基盤モデルと劣モジュラ最適化による環境探索 - - 41 背景 ▪ 効果的なタスク実行において 環境情報の事前把握は重要 ▪ 観測姿勢の網羅は非現実的 定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 42 タスク環境 ×4 ×4 ×4 定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 43  観測領域に応じて広範な物体を観測可能なロボット姿勢を選択 観測姿勢① 観測姿勢② マルチモーダル基盤モデルに基づく実世界検索エンジン [Kaneda+, RA-L/IROS24] [Korekata+, IROS23] [八島+, RSJ24] - - 44 実機実験:指示文に基づき, 対象物体および配置目標を検索,把持・配置 - - 46 Please carry the utensils on 最適輸送を用いた参照表現セグメンテーション [Nishimura+, IROS24] [Iioka+, IROS23] - - 47 背景  定性的結果:対象以外の物体名を指示文に含む例 - - 48 Ground Truth 提案手法 Rinse the sink 多階層アラインメント表現に基づく物体操作タスク成功判定 [Goko+, CoRL24] - - 49 背景 ▪ open-vocabulary manipulationの成功判定 Demo:人間の妨害による把持失敗からのリカバリー 50 “pick the orange” ×8 ×8 “move the coke” 取り組み事例: 説明生成 - - 51 PonNet:衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景: 動作実行前に帰結を予測し(physical reasoning)、ユーザ に説明できれば便利 技術ポイント: 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][Komatsu+ Advanced Robotics24] - - 53 【タスク】 あり得る未来の説明をLLMで生成し、NNLMを用いて生 成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用 ロボットタスクおよび料理動画に対するfuture captioning 55 アームがつかんでいたルービックキューブをテーブルの上 に置き、ルービックキューブとマヨネーズが衝突する アームがルービックキューブを机の上に置こうとしたが、 おこうとした場所にペットボトルと接触してしまい、ルー ビックキューブが棚の上で倒れる アームがルービックキューブを机の上に置こうとしたが、 マヨネーズの容器に衝突し、マヨネーズの容器が少し動く まとめ - - 56 マルチモーダル言語処理は世界を変えるのか 57 自身の経験 ▪ チーム内の「堅実な研究」と常に比較される環境 例:「音声翻訳と比べて社会が賛成する研究なのか?」 2010年代まで ▪ マルチモーダル言語処理は多くの研究者を抱えられる領域でなかった 2023年以降 まとめ - - 58 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価 マルチモーダル言語処理の発表資料を公開しています - - 59 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter (X) References
  • 慶應義塾大学 理工学部 杉浦孔明 1 マルチモーダル言語処理は 世界を変えるのか?

  • 2024年のマルチモーダル言語処理の動向 2 • 言語・画像・音声・動画を扱うマルチモー ダルLLM(2024/5/13) https://www.youtube.com/watch?v=DQacCB9tDaw プロンプト「Reflections in the window

    of a train traveling through the Tokyo suburbs.」 (2024/2/15) https://openai.com/sora Sora GPT-4o

  • ロボット×言語のユースケース 3 MLLMによる行動系列・状態推定 6億7500万ドルのシリーズB資金を調達 (2024/2) 言語指示可能な自動運転を公道実証 10.5億米ドルのシリーズC資金を調達 (2024/5) Wayve Figure

    AI https://www.youtube.com/watch?v=mU3TFv9Zi4I https://www.youtube.com/watch?v=Sq1QZB5baNw

  • 目次 - - 4 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価

    4. 取り組み事例 ※本資料はD1是方諒介君と共同で作成しました

  • マルチモーダル言語処理の 基礎 - - 5

  • マルチモーダル言語処理の歴史 - - 6 ▪ 複数のモダリティ(modality)を扱 う ▪ 例:画像、音声、テキスト、センサ ▪

    古典的機械学習手法では小規模問題し か扱えなかった⇔2015年以降近年成長 が著しい ▪ マルチモーダル言語処理 ▪ 実世界と言語の関係を扱う ▪ 多層的な関係を持つ挑戦的な課題 (省略、意図等) SHRDLU [Winograd 1970s] Microsoft Seeing AI (2017)

  • マルチモーダル言語処理のサブ分野: 理解と生成 - - 7 マルチモーダル言語理解タスク ▪ Visual Question Answering

    (VQA) ▪ 参照表現理解 ▪ Image-text matching [Wang+ 2017] マルチモーダル言語生成タスク ▪ 画像キャプショニング [Vinyals 2015]、video captioning ▪ Text-to-image ▪ Visual dialog [Das+ 2016][Alayrac+, 2022]

  • CLIP [Radford+ 2021] - - 8 ▪ 学習: 画像とテキストの組(4億組)の特徴量同士を近付ける ▪

    画像エンコーダ: ViT-B/32, ResNet等 ▪ テキストエンコーダ: トランスフォーマー等 ▪ 推論: 新規の画像(or テキスト)を入力して特徴量に変換 ▪ 多数の応用(DALL·E 2 [Aditya (OpenAI) + 2022/4]等) a photo of a beer bottle satellite imagery of roundabout a photo of a marimba a meme テキスト エンコーダ 画像 エンコーダ

  • CLIPを物体操作・探索に利用 - - 9 物体操作 CLIPort [Shridhar+ CoRL21], PerAct [Shridhar+

    CoRL22] • Transporter Networks[Zeng+ CoRL20] を拡張してCLIP の言語/画像特徴量を導入 • 「どの位置にグリッパを移動させるか」を予測 KITE [Sundaresan+ CoRL23] 「物体のどの部分を掴むか(キーポイント)」を予測 物体検索 CLIP-Fields [Shafiullah+ RSS23] Detic, BERT, CLIPの組み合わせで物体の探索を行う OpenScene [Peng+ CVPR23] Open-vocabularyの3D Scene understanding

  • ロボティクスと基盤モデル 10

  • 基盤モデルのロボティクスへの影響 - - 11 ▪ 基盤モデル:大規模データで訓練され種々のタスクに応用可能* ▪ BERT, GPT-3, CLIP等

    ▪ ロボット構築に基盤モデルを利用 ▪ 未知の状況での頑健性(Zero-shot/few-shot性能) ▪ 言語・画像の非専門家が容易に利用可能 ▪ 例:ロボット対話に関する以前の状況 ▪ 20年前:音声対話専門家でも制約多 ▪ 10年前:専門家からの要アドバイス ▪ 現在:誰でも使える *Bommasani et al, “On the Opportunities and Risks of Foundation Models”, 2021.

  • 言語スコアと動作スコアの後期統合の例: PaLM SayCan [Ahn(Google)+ 2022] - - 12 ▪ 言語スコア(Say):LLMで生成した動詞+目的語の生成確率

    ▪ 動作スコア(Can):その状況での動作成功確率

  • ロボット向けのコードを大規模言語モデル(LLM)で生成 - - 13 手法 概要 Code as Policies [Liang+

    22] LLMを用いてatomic actions(認識・動作)を繋げたコードを生成 ChatGPT for Robotics [Vemprala+ 23] LLMの出力を一方的に使うのではなく対話的にコード生成 TidyBot [Wu+ AR-IROS23] CLIPで目標物体をカテゴリ認識し運び先とコードをLLMで生成 多くの手法では状況を 人手で与える必要がある ▪ 例:objects = ["yellow shirt", "black shirt”, ..]

  • マルチモーダルLLM(MLLM)の代表的構成 15 ▪ BLIP-2 [Li+ 2023], LLaVA[Liu+ NeurIPS23]等 ▪ Modality

    Encoder: 画像・音声・ビデオ等から特徴抽出 ▪ Connector: MLPやQ-Former等でテキスト側の表現と整合 https://arxiv.org/abs/2306.13549

  • マルチモーダルLLMによる行動系列生成 16 PaLM-E [Driess (Google)+ 2023] ▪ 画像と言語を入力とするMLLMを 用いたタスク分解と実行 Figure01

    ▪ MLLMによる行動系列・状態推定 ▪ 6億7500万ドルのシリーズB資金を 調達(2024/2) https://www.youtube.com/watch?v=Sq1QZB5baNw https://palm-e.github.io/

  • ロボット基盤モデル構築の試み - - 17 Gato [Reed+ JMLR22] ▪ ゲーム、画像キャプション生成、物体操作 等を1つのトランスフォーマーで学習

    RT-1/2/X ▪ RT-1: ロボット13台x17ヶ月の膨大な 学習データ。アーム/台車動作を3Hzで推論 ▪ RT-2[Brohan+ 23]: LLMを複数利用し て「位置と角度の差分」を予測 ▪ RT-X: ICRA24 Best Paper

  • 2023年以降、ロボット基盤モデルの開発が活発に 18 ▪ π0 (Physical Intelligence, 2024/10/31) ▪ 10000時間のロボットデータで 学習

    ▪ Sergey Levineらのグループが RT-1/2-X, Octo, OpenVLA, π0 等の著者に入っている ▪ 企業発の研究も増加(Google DeepMind等) https://www.physicalintelligence.company/blog/pi0

  • マルチモーダルLLMの評価 19

  • 画像ベンチマーク:MMMU, MMMU-Pro Massive Multi-discipline Multimodal Understanding [Yue+ CVPR24][Yue+ 2024] 20

    ▪ 専門知識の理解と推論のベンチマーク ▪ 一言でいうと「学部生の小テストに 近い」 ▪ 教科書や試験等から収集 ▪ 30科目(工学・音楽・政治等) 11500問 ▪ 一部のMLLMがSuperhuman達成 ▪ https://mmmu-benchmark.github.io/ 2024/11/27時点

  • 例題1: フィードバック制御系の定常偏差 21

  • 例題1に対するGPT-4Vによる予測 22

  • 画像キャプショニングの自動評価 - - 23 ▪ 説明生成モデルの開発には自動評価尺度が必須 ▪ cf. 機械翻訳 ▪

    日々のモデル改良サイクルを被験者評価で行うことは非現実的 ▪ 標準的な評価尺度は人間の評価との相関が低い(0.3-0.55程度)

  • 画像キャプション生成における教師あり自動評価尺度 [Wada+ CVPR24 (highlight)] 24 ▪ 画像キャプション生成における教師あり自動評価尺度 Polos を提案 ▪

    約13万サンプルの人間による評価 (世界最大の10倍) で構成された Polarisを構築 ▪ ベクトル間の複雑な関係を学習する教師あり自動評価尺度 ▪ ソフトウェア・データセット公開済み→ https://yuiga.dev/polos 6つのベンチマークにおいて世界最高性能 • Flickr8K-Expert • Flickr8K-CF • Composite • PASCAL50S • FOIL • Polaris Apple社との共同研究成果

  • マルチモーダルLLMの評価を見据えた取り組み 26 Deneb [Matsuda+ ACCV24] ▪ 耐ハルシネーション性能で世界最高性能 ▪ 全指標でPolosを上回る ▪

    類似度を扱うSim-Vec Transformer JaSPICE [Wada+ CoNLL23] ▪ 背景:日本語の自動評価尺度は良いもの がほぼ無い ▪ 述語項構造に基づくシーングラフを用い たグラフマッチング 人通りの少なくなった道路で,青いズボンを着た男の子が オレンジ色のヘルメットを被りスケートボードに乗っている

  • 何を目指すのか? 27 ▪ キャプショニングにおいて、人間の評価同士の相関は0.7程度 ▪ そろそろSuperhumanの評価尺度が出現する ▪ Superhuman評価尺度ができると世界はどう変わる? ▪ 人手評価が不要に。

    ▪ MLLM開発においてDPO等が自然にできるようになる ▪ 周辺分野でもSuperhuman評価尺度は増えていくのでは?

  • エージェントベンチマーク: 移動指示・物体探索指示理解 実世界 ▪ R2R [Anderson+ CVPR18], REVERIE[Qi+ CVPR20] ▪

    Honorable Mention Award@REVERIE Challenge 2022 シミュレーション ▪ ALFRED [Shridhar+ CVPR20] ▪ CVPR 2023 DialFRED Challenge優勝[Kaneda+ 23] VLN-BERT 「壁に縞模様がある寝室の横の蛇口 から水が出ていないか確認して」 Matterport3D (90種類の家屋)

  • 取り組み事例: マルチモーダル言語処理 - - 29

  • 実世界検索エンジン [Kaneda+ IEEE RAL24] 30 背景 ▪ 生活環境・病院・ショッピングモール・屋外を 言語を通じて利活用できれば便利 ▪

    例:「シンクにあるタオルを取ってきて」 「消火器はどこ?」「座れる場所」 技術ポイント ▪ LLMと基盤モデルにより、文と画像を複数粒度 で分解・統合するトランスフォーマー ▪ 100,000平米以上を扱うマルチモーダル検索 ▪ 東京国際フォーラム、日吉・矢上キャンパス、 グラングリーン大阪、ドバイモール、等

  • 未知環境における機能実証 (2023/12/15@東京国際フォーラム) 32 消火器はどこ?

  • 未知環境における機能実証 (2023/12/15@東京国際フォーラム) 33 座る場所を探してるんだけど

  • モビリティ向け移動指示理解 [Hosomi+ IEEE RAL24a] [Hosomi+ IEEE RAL24b] 【タスク】 「バイクが止まっている所の横に 停めて」等の移動指示言語理解

    【技術ポイント】 ▪ 夜間画像のセグメンテーション マスク信頼度を推定 ▪ [Rufus+ IROS21]を超える性 能 Mean IoU [Rufus+, IROS2021] 32.71±4.59 TNRSM (提案手法) 37.61±2.73 - 34 -

  • 取り組み事例: 生活支援ロボット - - 35

  • 最新のマルチモーダルLLMでも困難な例 参照表現理解 36 The pillow on the couch closest to

    the plant in the living room. Wall picture closest to the front door in the entryway. 誤ったマスク 対象物体 以外もマスク

  • Motivation: 介助犬レベルの支援を行うロボットを構築したい https://www.toyota.com/usa/toyota-effect/romy-robot.html 音声(言語)を使った 場合は どんな課題があるの? 候補が少ないならいいけど、 多いならタッチパネルは不便。 音声のほうが便利では? 社会課題

    • 要支援者を物理的・経済的に支える 生産年齢人口の減少 • ポテンシャルユーザのなかで介助犬 (育成に2年300万円)の利用者≒0.5% 家族の世話で仕事 辞めないと… 介助犬を世話 できない

  • 何をどこまでやるのか ▪ 介助犬のタスクは明確 に規定されている ▪ HSRが可能なタスク を人手で分析 ▪ タスクの80%以上をカ バーし、成功率80%以

    上とすれば良い IAADPが定義した介助犬タスクのうちHSRが可能なタスク

  • Open-vocabulary物体操作の統合デモ [Kaneda+ IEEE RAL24] [Korekata+ IROS23] [Otsuki+ IROS2023] [Iioka+ IROS2023]

    39 ドライバーの隣にあるサインペン を持ってきて タオルの横にあるリモコンを 持ってきて

  • Open-Vocabulary物体操作の流れ - - 40 ① 環境探索 [鈴木+, RSJ24] ② 実世界検索

    [Kaneda+, RA-L/IROS24] ③ 参照表現理解 [Nishimura+, IROS24] ④ 物体操作成功判定 [Goko+, CoRL24] 出力: Success place a red can on the front right pick up the tissue box next to the sink 出力:セグメンテーションマスク 出力:観測姿勢集合 出力:対象物体画像 16x 4x

  • 3D視覚言語基盤モデルと劣モジュラ最適化による環境探索 - - 41 背景 ▪ 効果的なタスク実行において 環境情報の事前把握は重要 ▪ 観測姿勢の網羅は非現実的

    提案 ▪ 3D-VLMを用いた2D観測姿勢集合の最適化 ▪ 劣モジュラ性を利用した観測姿勢の選択 ▪ 各観測姿勢における遮蔽の考慮 結果 ▪ シミュレーション環境において 有益な観測姿勢集合を選択 4x

  • 定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 42 タスク環境 ×4 ×4 ×4

  • 定性的結果(成功例):遮蔽を考慮した観測姿勢を選択 - 43  観測領域に応じて広範な物体を観測可能なロボット姿勢を選択 観測姿勢① 観測姿勢②

  • マルチモーダル基盤モデルに基づく実世界検索エンジン [Kaneda+, RA-L/IROS24] [Korekata+, IROS23] [八島+, RSJ24] - - 44

    背景 ▪ マルチモーダル検索に基づく, 生活支援ロボットによる物体操作 提案 ▪ MLLM/LLMを複合し,指示文・画像を 複数粒度で分解・統合 ▪ Unlabeled PositiveおよびNegativeペア の対照性を緩和するContrastive Loss 結果 ▪ 実機実験において,ゼロショット転移 でタスク成功率80%を達成 16x pick up the long chips can and place it on the table with fruits

  • InfoNCE [Oord+, 18]では正解以外を全てNegativeとみなす ▪ Unlabeled Positiveを全てアノテーションすることは困難 ▪ 例: 6,000指示文&7,000画像 手動で約188,000時間必要 “壁にかかっている絵をとってきて” Unlabeled Positive

  • 実機実験:指示文に基づき, 対象物体および配置目標を検索,把持・配置 - - 46 Please carry the utensils on

    the tall table to the shelf next to the red mug. 16x 16x Pick up the long chips can and place it on the table with fruits.

  • 最適輸送を用いた参照表現セグメンテーション [Nishimura+, IROS24] [Iioka+, IROS23] - - 47 背景 

    指示文からの対象物体特定・把持 にセグメンテーションは重要 提案  最適輸送を用いたポリゴンマッチング  画角外の情報を扱う3D Semantic Point Aggregator 結果  mIoUにおいて既存 手法を上回った pick up the pillow closest to the radio art on the wall OpenScene [Peng+, CVPR23]

  • 定性的結果:対象以外の物体名を指示文に含む例 - - 48 Ground Truth 提案手法 Rinse the sink

    in the bathroom on level 2 with the red towels.  文中の対象物 以外もマスク  指示文から対象物を 適切に理解 LAVT [Yang+, CVPR22]

  • 多階層アラインメント表現に基づく物体操作タスク成功判定 [Goko+, CoRL24] - - 49 背景 ▪ open-vocabulary manipulationの成功判定

    提案 ▪ 多階層視覚表現λ-Representationを導入 ▪ 画像間の差異を抽出し, 指示文とのアラインメントを考慮 結果 ▪ RT-1データセット・ 実機において, Few-Shot MLLMを 上回った “pick the orange” 8x 人間の妨害 からの復帰 出力: Success place a red can on the front right

  • Demo:人間の妨害による把持失敗からのリカバリー 50 “pick the orange” ×8 ×8 “move the coke”

  • 取り組み事例: 説明生成 - - 51

  • PonNet:衝突危険性の予測および視覚的説明生成 [Magassouba+ Advanced Robotics 2021] 背景: 動作実行前に帰結を予測し(physical reasoning)、ユーザ に説明できれば便利 技術ポイント:

    Attention Branch Network (ABN) [Fukui+ CVPR19]を2系統に拡張し、自己注意で統合 平面検出 だと精度 が低い

  • 将来のリスクに対する言語的説明生成:Future captioning [Kambara+ ICIP22][Komatsu+ Advanced Robotics24] - - 53 【タスク】

    行動前にユーザに実行可否を判断 を仰ぐための説明生成 【技術ポイント】 ▪ Relational Self-Attention [Kim+ NeurIPS21]を用いたイ ベント間の関係性抽出 ▪ LLMによるあり得る帰結の生成 ▪ Nearest Neighbor Language Model (NNLM)をキャプション 生成に初めて導入 例:「砂時計が落下するリスクがあ ります。動作を実行しますか?」

  • あり得る未来の説明をLLMで生成し、NNLMを用いて生 成確率をリスコア ▪ LLMによるデータ拡張 ▪ 学習集合における各サンプルをLLMに入力 ▪ 新たなサンプルを含めた学習集合を得る ▪ 説明文の後件部を変更するプロンプトを使用

    ペットボトルを置こうとして、砂糖の 容器に衝突して倒れる ペットボトルを置こうとして、砂糖の 容器に衝突して弾き飛ばされる LLM 入力例 LLM 出力例 54

  • ロボットタスクおよび料理動画に対するfuture captioning 55 アームがつかんでいたルービックキューブをテーブルの上 に置き、ルービックキューブとマヨネーズが衝突する アームがルービックキューブを机の上に置こうとしたが、 おこうとした場所にペットボトルと接触してしまい、ルー ビックキューブが棚の上で倒れる アームがルービックキューブを机の上に置こうとしたが、 マヨネーズの容器に衝突し、マヨネーズの容器が少し動く

  • まとめ - - 56

  • マルチモーダル言語処理は世界を変えるのか 57 自身の経験 ▪ チーム内の「堅実な研究」と常に比較される環境 例:「音声翻訳と比べて社会が賛成する研究なのか?」 2010年代まで ▪ マルチモーダル言語処理は多くの研究者を抱えられる領域でなかった 2023年以降

    ▪ txt2img, マルチモーダルLLM等の発展により研究人口が増加

  • まとめ - - 58 1. マルチモーダル言語処理の基礎 2. ロボティクスと基盤モデル 3. マルチモーダルLLMの評価

    4. 取り組み事例 ※JSPS・JST CREST・JSTムーンショット・NEDO・SCOPE・Apple・トヨタ 自動車・NICT・本田技研・大阪大学・中部大学・本学共同研究者・研究室 の学生・スタッフに感謝申し上げます。 ※本資料はD1是方諒介君 と共同で作成しました

  • マルチモーダル言語処理の発表資料を公開しています - - 59 公開スライド https://speakerdeck.com/keio_smilab ウェブサイト https://smilab.org Twitter (X)

    @keio_smilab

  • Will multimodal language processing change the world? (2024)

    References

    Top Articles
    Latest Posts
    Recommended Articles
    Article information

    Author: Msgr. Benton Quitzon

    Last Updated:

    Views: 5648

    Rating: 4.2 / 5 (43 voted)

    Reviews: 90% of readers found this page helpful

    Author information

    Name: Msgr. Benton Quitzon

    Birthday: 2001-08-13

    Address: 96487 Kris Cliff, Teresiafurt, WI 95201

    Phone: +9418513585781

    Job: Senior Designer

    Hobby: Calligraphy, Rowing, Vacation, Geocaching, Web surfing, Electronics, Electronics

    Introduction: My name is Msgr. Benton Quitzon, I am a comfortable, charming, thankful, happy, adventurous, handsome, precious person who loves writing and wants to share my knowledge and understanding with you.