admin

MMAudio 自動配音效模型

高品質的自動音訊合成模型

其創新之處在於採用多模態聯合訓練方法，能同時利用影音和文字資料進行訓練。模型能根據影片和/或文字提示生成同步的音訊，並包含一個同步模組確保音訊與影片畫面一致。

詳細說明了模型架構、使用方法（包含命令列和圖形介面）、預訓練模型下載和安裝步驟，以及已知限制和未來發展方向，例如訓練和評估部分仍在進行中。整體而言，MMAudio專案旨在提供一個強大且易於使用的影片到音訊合成工具。

MMAudio extra 1

Watch this video on YouTube

MMAudio extra 3

Watch this video on YouTube

MMAudio extra 4

Watch this video on YouTube

DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型，代表在漫畫生成領域的重大進展，實現了文本可調整的角色客製化，並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵，實現精確的版面控制，並透過 MLLM 調整角色特徵以符合面板的文字提示，從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero，包含大量漫畫頁面和標註面板，以支援此任務。實驗結果顯示。

Motion Prompting 可控影像模型

用於控制影片生成模型

利用點軌跡 (point trajectories) 作為提示，以極其靈活的方式編碼單點或大量點的運動，甚至包含物體運動、場景變化、遮擋和稀疏運動。研究者訓練一個以任意動作為條件的影片生成模型，並透過設計不同的動作提示來操控影片生成結果，例如控制物體運動、模擬物理現象、控制攝影機視角，甚至是動作轉移和影像編輯。網站分享了不同參數（如軌跡密度、文字提示）對結果的影響，並與其他相關方法進行比較。

支援 Radiance Fields、3D Gaussians 和 mesh等多種格式。其核心是 Structured LATent, (SLAT 結構化潛在推理），採用為 SLAT 量身打造的校正流變換器（Rectified Flow Transformers）作為骨幹。專案提供了多達 20 億個參數的大規模預訓練模型，訓練資料包含 50 萬個不同類型的三維物件。TRELLIS 在效能上顯著超越現有方法，並展現出靈活的輸出格式選擇和局部三維編輯能力。文中包含模型架構、安裝步驟、預訓練模型、使用範例（包含最小化範例和網頁Demo）、授權資訊以及引用資訊等細節。

輸出的 3D 型以 Mixamo 加入 Rigging 教學

Best Free 3D Model Generator AI in 2025 - Free & Open Source 3D AI Models are Here!

Watch this video on YouTube

ComfyUI + Live Portrait 教學

短片說明如何在 ComfyUI 中使用「Live Portrait」，將靜態人像圖轉換成具有動態表情的動畫。教學涵蓋了安裝及設定自訂節點、建立工作流程、以及微調動畫以達到寫實或風格化效果等步驟，並詳細解釋如何調整臉部設定（眨眼、嘴部動作、俯仰角度等），以及如何使用預錄影片或手動設定來製作動畫。此外，也提供了影像及影片素材的選擇建議，以及處理解析度和裁切等常見問題的方法，目標是讓使用者能有效地將靜態圖片轉換成生動的動畫人像。最後，還以指令範例說明如何設定動作的播放時間與間隔。

ComfyUI Tutorial Series Ep 26: Live Portrait & Face Expressions

Watch this video on YouTube

LayoutLM 文件理解和資訊提取

Hugging Face Transformers 框架中的 LayoutLM 模型

重點介紹了 LayoutLM 模型如何結合文字資料與文件版面資訊，從而更有效地理解文件結構並提取關鍵資訊，例如表格、發票或收據中的資訊。教學使用 FUNSD 資料集作為範例，並逐步演示了如何預處理資料、載入 LayoutLM 模型、進行預測以及將預測結果視覺化地顯示在文件的影像上，藉由命名實體辨識 (NER) 標記出文件中的關鍵資訊。文章的目標是讓讀者學會如何運用 LayoutLM 模型處理結構化文件，並提取有用的資訊。

Google Agentspace 企業整合平台

一個將生成式 AI 與企業數據整合平台。

它透過三個主要功能提升企業效率：首先，使用 NotebookLM 提供新型態的數據互動方式，例如語音摘要等，讓員工更容易理解複雜資訊；其次，它整合了 Google 的搜尋能力，建構企業內部的多模態搜尋代理程式，讓員工能快速且全面地找到所需資訊，無論數據結構為何或語言為何；最後，它能建立客製化的 AI 代理程式來自動化業務流程，藉此提升各部門的工作效率，例如行銷、財務和工程部門。文章並以多個客戶案例佐證 Agentspace 的效益，並強調其安全性與合規性。

Word2Vec詞嵌入技術

將文字轉換成電腦可理解的數值向量的方法。Word2Vec 有兩種主要模型：連續詞袋模型 (CBOW) 和跳字模型 (Skip-gram)，透過反向算法，根據上下文預測目標詞或反之，從而學習詞語間的關係。訓練後的詞向量具有語義相似性的特性，相似的詞彙在向量空間中距離較近，並能透過向量運算進行類比推理，例如「國王-男人+女人=王后」。Word2Vec 應用廣泛，例如搜尋引擎、推薦系統和機器翻譯，但其局限性在於每個詞只有一個固定向量，無法處理多詞片語的語義。

Word Embeddings: Word2Vec

Watch this video on YouTube

詞嵌入 (Word Embeddings) 的概念及其應用

詞嵌入將文字轉換成數值向量，讓機器學習模型能夠處理文字資料。相似的詞彙在向量空間中彼此靠近，距離和方向代表詞彙間的語義關係。片中說明了詞嵌入在自然語言處理 (NLP) 中的關鍵作用，例如文字分類、命名實體辨識和問答系統等。接著，解釋了兩種主要的詞嵌入方法：基於詞頻的方法 (例如TF-IDF) 和基於預測的方法 (例如Word2Vec, GloVe)，並比較了它們的差異。最後，介紹了更先進的基於上下文的方法 (Transformer 模型)，它能根據上下文調整詞彙的向量表示，進一步提升 NLP 的效能。這視頻旨在說明詞嵌入技術如何有效地將人類語言轉換成機器可理解的數值形式，從而推動自然語言處理的發展。

What are Word Embeddings?

Watch this video on YouTube

MV-Adapter 多視角影像生成

MV-Adapter: Multi-view Consistent Image Generation Made Easy

MV-Adapter 是一款多功能的即插即用適配器，可將現有的預先訓練的文本到圖像 (T2I) 擴散模型轉變為多視圖生成器。不同於以往需要完整微調的繁複方法，MV-Adapter 透過更新較少參數，有效降低計算成本並避免過擬合。

它利用創新的雙重自我注意力層和平行注意力架構，高效建模 3D 幾何知識，並整合了條件編碼器以處理不同輸入，例如文字、圖片或幾何資訊。實驗結果顯示，MV-Adapter 在不同基礎 T2I 模型和控制條件下，都能生成高保真、多視角一致的影像，展現其適應性和多功能性，為多視角影像生成設定了新的品質標準。

Page 14 of 47

« Previous 1 … 12 13 14 15 16 … 47 Next »