DiffSensei 客製化漫畫

結合擴散的圖像生成和多模態大型語言模型 (MLLM)

DiffSensei 效能超越現有模型，代表在漫畫生成領域的重大進展，實現了文本可調整的角色客製化，並公開程式碼、模型和數據集。

DiffSensei 使用遮罩交叉注意力來整合角色特徵，實現精確的版面控制，並透過 MLLM 調整角色特徵以符合面板的文字提示，從而靈活調整角色的表情、姿勢和動作。研究團隊也公開了一個大型數據集 MangaZero，包含大量漫畫頁面和標註面板，以支援此任務。實驗結果顯示。