TMRoPE (Time-aligned Multimodal RoPE) 是由阿里巴巴集團的 Qwen 團隊開發的。該技術作為 Qwen2.5-Omni 模型的一部分,於 2025 年 3 月 26 日發布。TMRoPE 是一種新穎的位置嵌入技術,專為多模態人工智能領域設計,特別用於處理需要時間對齊的視頻和音頻數據。它能夠同步視頻和音頻輸入的時間戳,從而實現多模態數據的精確對齊和處理,在相關領域中具有重要應用價值。以下將詳細討論這個時間對齊嵌入:

TMRoPE 的概念與運作方式:

  • 編碼 3D 位置資訊: TMRoPE 的目標是編碼多模態輸入的 3D 位置資訊,它是在 M-RoPE (Multimodal Rotary Position Embedding) 的基礎上加入了絕對時間位置資訊.
  • 分解為三個組件: 原始的旋轉嵌入被分解為三個組件:時間 (temporal)高度 (height)寬度 (width).
  • 文字輸入: 對於文字輸入,時間、高度和寬度這三個組件使用相同的位置 ID,這使得 M-RoPE 在功能上等同於 1D-RoPE.
  • 音訊輸入: 對於音訊輸入,同樣使用相同的位置 ID,並引入絕對時間位置編碼,其中一個時間 ID 對應於 40 毫秒的音訊片段. Qwen2.5-Omni 會將原始波形轉換為 128 通道的梅爾頻譜圖,並採用 Qwen2-Audio 的音訊編碼器,使得每個音訊表示幀大致對應於原始音訊信號的 40 毫秒片段.
  • 影像輸入: 處理影像時,每個視覺 token 的時間 ID 保持不變,而高度和寬度組件則根據 token 在影像中的位置分配不同的 ID.
  • 帶有音訊的視訊輸入: 當輸入是帶有音訊的視訊時,音訊仍然以每幀每 40 毫秒使用相同的位置 ID 進行編碼。視訊則被視為一系列影像,每幀的時間 ID 遞增,而高度和寬度組件遵循與影像相同的 ID 分配模式. 由於視訊的幀率不是固定的,模型會根據每幀的實際時間動態調整幀之間的時間 ID,以確保一個時間 ID 對應 40 毫秒.
  • 多模態輸入的位置編號: 當模型的輸入包含多種模態時,每一種模態的位置編號都會從前一種模態的最大位置 ID 加一開始.
  • 時間交錯演算法 (Time-interleaving): 為了讓模型能夠同時接收視覺和聽覺資訊,對於帶有音訊的視訊,Qwen2.5-Omni 採用了一種時間交錯方法. 這種方法會根據實際時間,每 2 秒將視訊的表示分割成塊 (chunks),然後將視覺表示放在前面,音訊表示放在後面,在 2 秒的間隔內交錯排列視訊和音訊的表示.

TMRoPE 的目的與優勢:

  • 同步音訊和視訊時間戳記: TMRoPE 的主要目的是顯式地整合時間資訊,從而同步視訊輸入的音訊和視覺資訊.
  • 提升位置資訊建模: TMRoPE 增強了模型對位置資訊的建模能力.
  • 最大化不同模態的整合: 透過時間對齊的位置嵌入,TMRoPE 有助於最大程度地整合各種模態的信息.
  • 實現同步理解和分析: 這使得 Qwen2.5-Omni 能夠同時理解和分析來自多種模態的資訊.
  • 支援視訊內容的時間同步: 對於視訊內容,音訊和視覺信號的時間方面的同步至關重要. TMRoPE 解決了這個挑戰.

總結來說,TMRoPE 是 Qwen2.5-Omni 中一個關鍵的技術創新,它通過將時間資訊融入到位置嵌入中,並結合時間交錯演算法,有效地解決了多模態輸入中,特別是視訊和音訊之間的時間對齊問題,從而提升了模型對多模態資訊的理解和分析能力.