MV-Adapter 多視角影像生成


RAG 向量中的文件分割策略

文件分割策略對於大型語言模型(LLM)的資訊檢索效能影響。現有資訊檢索基準測試通常以整篇文件的相關性評估效能,忽略了文件分割策略的重要性。RAG 文件分割(Text Chunking) 基於字元/詞(Token) 的分割、遞迴式分割、語義分割等,以找出最適合用於後續基於檢索增強生成(RAG)應用的最佳方法。

The BEST Way to Chunk Text for RAG

PyTorch vs TensorFlow

https://www.youtube.com/watch?v=CY3OZdHm-Kg


Flux Redux 統一風格 AI 角色教學

利用 Flux Redux 及其相關工具,製作一致風格AI角色同背景教學。重點是藉 Flux LoRa 訓練保持角色面部一致性。教學詳細講解如何使用 Redux Advanced Custom Nodes 控制圖像生成,透過調整 downsampling factor 控制風格變化,並利用 mask 參考圖像控制角色服裝及背景風格。最後,示範咗點樣將生成嘅圖像導入AI影片生成工具,製作動畫短片,實現角色風格一致但服裝同背景多樣化嘅效果。 整個過程強調簡潔易用,並提供實際案例同操作步驟。

Flux Redux Consistent Style Character And Background Easily In For AI Characters


Ollama 結構化輸出

Unlocking the Power of Ollama’s Structured JSON Output

Switti 高速 text2img 模型


Prefixing – 簡易提升 RAG 準確度

在向量數據庫應用中,「prefixes」指的是在文本塊輸入嵌入模型之前,在文本塊前插入一段描述其目的的文本。「prefixes」是一個簡單但有效的技術,可以顯著提高向量數據庫應用的準確性達 200%。

在 Olama 官方庫中的五個嵌入模型中,只有三個支持「prefixes」,Nomic、Snowflake Arctic 和 Mixed Bread 等。

儘管傳統的 LLM 可能更大,但它們不適合生成嵌入。嵌入模型專為生成嵌入而設計,它們的速度要快得多,並且可以產生更好的結果。Prefixing」嘅簡單技巧嵌入技巧。

Don’t Embed Wrong!

FLOAT – 最強 LipSync 工具

FLOAT 是個音訊驅動人像影片模型。模型提供能夠生成更自然、更具表現力的面部動畫,反映出說話者的情感狀態。

關鍵詞彙表

  • 擴散模型 (Diffusion models): 一種生成模型,通過逐漸向數據添加噪聲,然後學習逆轉該過程來生成新數據。
  • 流匹配 (Flow matching): 一種生成模型訓練技術,其目標是學習將簡單分佈轉換為目標數據分佈的變換。
  • 運動潛在空間 (Motion latent space): 一個表示人像運動的低維空間,從輸入的人像圖像中學習得到。
  • 音頻驅動說話人像生成 (Audio-driven talking portrait generation): 使用音頻信號作為輸入,生成與音頻同步的說話人像視頻的任務。
  • 情感增強 (Emotion enhancement): 根據輸入的語音情感標籤,增強生成的人像動畫的情感表現力。
  • 幀級 AdaLN (Frame-wise AdaLN): 一種自適應層歸一化技術,在每個時間步長根據條件信息調整特徵統計量,用於增強生成運動的多樣性。
  • 函數評估次數 (NFEs): 評估生成模型所需的時間步長或迭代次數,用於衡量模型的效率。
  • 3DMM 頭部姿態參數 (3DMM head pose parameters): 一種基於 3D Morphable Model 的人臉姿態表示,可以控制生成人像的頭部方向。

手把手教你如何部署大型語言模型

如何使用 vLLM 框架部署大型語言模型。教學包含使用 8B 同 70B 兩個版本作示範,並說明如何在 NVIDIA GPU 上安裝 VLLM,以及如何處理記憶體限制。

台大資訊 深度學習之應用 | ADL TA Recitation: LLM Deployment 手把手教你如何部署大型語言模型

Page 14 of 46
1 12 13 14 15 16 46

Popular Tags