TMRoPE 時間對齊嵌入

TMRoPE (Time-aligned Multimodal RoPE) 是由阿里巴巴集團的 Qwen 團隊開發的。該技術作為 Qwen2.5-Omni 模型的一部分，於 2025 年 3 月 26 日發布。TMRoPE 是一種新穎的位置嵌入技術，專為多模態人工智能領域設計，特別用於處理需要時間對齊的視頻和音頻數據。它能夠同步視頻和音頻輸入的時間戳，從而實現多模態數據的精確對齊和處理，在相關領域中具有重要應用價值。以下將詳細討論這個時間對齊嵌入：

TMRoPE 的概念與運作方式：

編碼 3D 位置資訊： TMRoPE 的目標是編碼多模態輸入的 3D 位置資訊，它是在 M-RoPE (Multimodal Rotary Position Embedding) 的基礎上加入了絕對時間位置資訊.
分解為三個組件： 原始的旋轉嵌入被分解為三個組件：時間 (temporal)、高度 (height) 和 寬度 (width).
文字輸入： 對於文字輸入，時間、高度和寬度這三個組件使用相同的位置 ID，這使得 M-RoPE 在功能上等同於 1D-RoPE.
音訊輸入： 對於音訊輸入，同樣使用相同的位置 ID，並引入絕對時間位置編碼，其中一個時間 ID 對應於 40 毫秒的音訊片段. Qwen2.5-Omni 會將原始波形轉換為 128 通道的梅爾頻譜圖，並採用 Qwen2-Audio 的音訊編碼器，使得每個音訊表示幀大致對應於原始音訊信號的 40 毫秒片段.
影像輸入： 處理影像時，每個視覺 token 的時間 ID 保持不變，而高度和寬度組件則根據 token 在影像中的位置分配不同的 ID.
帶有音訊的視訊輸入： 當輸入是帶有音訊的視訊時，音訊仍然以每幀每 40 毫秒使用相同的位置 ID 進行編碼。視訊則被視為一系列影像，每幀的時間 ID 遞增，而高度和寬度組件遵循與影像相同的 ID 分配模式. 由於視訊的幀率不是固定的，模型會根據每幀的實際時間動態調整幀之間的時間 ID，以確保一個時間 ID 對應 40 毫秒.
多模態輸入的位置編號： 當模型的輸入包含多種模態時，每一種模態的位置編號都會從前一種模態的最大位置 ID 加一開始.
時間交錯演算法 (Time-interleaving): 為了讓模型能夠同時接收視覺和聽覺資訊，對於帶有音訊的視訊，Qwen2.5-Omni 採用了一種時間交錯方法. 這種方法會根據實際時間，每 2 秒將視訊的表示分割成塊 (chunks)，然後將視覺表示放在前面，音訊表示放在後面，在 2 秒的間隔內交錯排列視訊和音訊的表示.

TMRoPE 的目的與優勢：

同步音訊和視訊時間戳記： TMRoPE 的主要目的是顯式地整合時間資訊，從而同步視訊輸入的音訊和視覺資訊.
提升位置資訊建模： TMRoPE 增強了模型對位置資訊的建模能力.
最大化不同模態的整合： 透過時間對齊的位置嵌入，TMRoPE 有助於最大程度地整合各種模態的信息.
實現同步理解和分析： 這使得 Qwen2.5-Omni 能夠同時理解和分析來自多種模態的資訊.
支援視訊內容的時間同步： 對於視訊內容，音訊和視覺信號的時間方面的同步至關重要. TMRoPE 解決了這個挑戰.

總結來說，TMRoPE 是 Qwen2.5-Omni 中一個關鍵的技術創新，它通過將時間資訊融入到位置嵌入中，並結合時間交錯演算法，有效地解決了多模態輸入中，特別是視訊和音訊之間的時間對齊問題，從而提升了模型對多模態資訊的理解和分析能力.