MMAudio 自動配音效模型

DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型,代表在漫畫生成領域的重大進展,實現了文本可調整的角色客製化,並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵,實現精確的版面控制,並透過 MLLM 調整角色特徵以符合面板的文字提示,從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero,包含大量漫畫頁面和標註面板,以支援此任務。實驗結果顯示。

Motion Prompting 可控影像模型

TRELLIS 3D 高品質三維模型

ComfyUI + Live Portrait 教學

短片說明如何在 ComfyUI 中使用「Live Portrait」,將靜態人像圖轉換成具有動態表情的動畫。 教學涵蓋了安裝及設定自訂節點、建立工作流程、以及微調動畫以達到寫實或風格化效果等步驟,並詳細解釋如何調整臉部設定(眨眼、嘴部動作、俯仰角度等),以及如何使用預錄影片或手動設定來製作動畫。 此外,也提供了影像及影片素材的選擇建議,以及處理解析度和裁切等常見問題的方法,目標是讓使用者能有效地將靜態圖片轉換成生動的動畫人像。 最後,還以指令範例說明如何設定動作的播放時間與間隔。

ComfyUI Tutorial Series Ep 26: Live Portrait & Face Expressions

LayoutLM 文件理解和資訊提取

Google Agentspace 企業整合平台

Word2Vec詞嵌入技術

將文字轉換成電腦可理解的數值向量的方法。Word2Vec 有兩種主要模型:連續詞袋模型 (CBOW) 和跳字模型 (Skip-gram),透過反向算法,根據上下文預測目標詞或反之,從而學習詞語間的關係。訓練後的詞向量具有語義相似性的特性,相似的詞彙在向量空間中距離較近,並能透過向量運算進行類比推理,例如「國王-男人+女人=王后」。Word2Vec 應用廣泛,例如搜尋引擎、推薦系統和機器翻譯,但其局限性在於每個詞只有一個固定向量,無法處理多詞片語的語義。

Word Embeddings: Word2Vec

詞嵌入 (Word Embeddings) 的概念及其應用

詞嵌入將文字轉換成數值向量,讓機器學習模型能夠處理文字資料。相似的詞彙在向量空間中彼此靠近,距離和方向代表詞彙間的語義關係。 片中說明了詞嵌入在自然語言處理 (NLP) 中的關鍵作用,例如文字分類、命名實體辨識和問答系統等。接著,解釋了兩種主要的詞嵌入方法:基於詞頻的方法 (例如TF-IDF) 和基於預測的方法 (例如Word2Vec, GloVe),並比較了它們的差異。最後,介紹了更先進的基於上下文的方法 (Transformer 模型),它能根據上下文調整詞彙的向量表示,進一步提升 NLP 的效能。這視頻旨在說明詞嵌入技術如何有效地將人類語言轉換成機器可理解的數值形式,從而推動自然語言處理的發展。

What are Word Embeddings?

MV-Adapter 多視角影像生成

Page 2 of 35
1 2 3 4 35