Klap 4 Shorts/TikToks

Civitai中国镜像

LLaVA 大型多模態模型

威斯康星 – 麥迪遜大學,微軟研究院,哥倫比亞大學的一群研究者發佈了LLaVA多模態大模型。LLaVA是一種新穎的端到端訓練的大型多模態模型,結合了視覺編碼器和Vicuna對於通用的視覺和語言理解, 實現令人印象深刻的聊天功能。

作者提供測試版 Demo,你可直接用手機測試。

Continue reading →

Virbo – A.I. 快速製作影片

AI 產生的影片腳本

先進的 AI 腳本生成器在幾分鐘內生成引人入勝的腳本,並將它們無縫地呈現為動態說話頭像影片。

Vibro 有趣的地方是當使用 A.I. 生成劇本,它讓你將原來輸入的劇本進行個性化。例如我輸入:

按一下 “Expand” 之後,它回自動修改你的內容:

Vibro 提供免費試用,限制輸出為兩分鍾的影片。不過,細心觀察以下影片,你會發現 LipSync 效果似乎仍有待改善。

至於廣東話發音,免費版提供 2 女 1 男聲:

T2I-Adapter – 類似 ControlNet 的可控性模型

T2I-Adapter

兼容 Stable Diffusion 1.6 及 XL 版。支援 T2I(Text-to-Image)、草圖、canny、線稿圖、深度圖以及 OpenPose 骨骼圖 …

T2I-Adapter 由騰訊 ARC 團隊開發,並於 2023 年 3 月在 GitHub 上開源。T2I-Adapter 是一個基於深度學習的模型,可以將文字轉換為圖像,同時保持一定的可控性。

T2I-Adapter 的工作原理是使用一個生成式對抗網路 (GAN) 來生成圖像。GAN 由兩個模型組成:一個生成器和一個判別器。生成器負責生成圖像,判別器負責判斷圖像是真是假。

T2I-Adapter 在一個包含大量文字和圖像的數據集上訓練。訓練過程中,生成器學習生成與文字描述相匹配的圖像。判別器學習區分真實圖像和生成圖像。

T2I-Adapter 可以生成各種圖像,包括風景、人物、物體等。它還可以生成具有特定風格的圖像,例如卡通、油畫等。

T2I-Adapter 的開發團隊由以下人組成:

  • 劉宇軒,騰訊 ARC 團隊的工程師
  • 劉洋,騰訊 ARC 團隊的工程師
  • 王鑫,騰訊 ARC 團隊的工程師
  • 王子航,騰訊 ARC 團隊的工程師
  • 張立峰,騰訊 ARC 團隊的主管

T2I-Adapter 是一個強大的工具,可用於各種創意應用,例如圖像生成、藝術創作等。

OpenAI 即將推出更強大的 AI 繪圖模型 Dall-E 3

OpenAI 也制定了保護措施,阻止使用者產生色情或暴力圖形藝術或公眾人物圖像。OpenAI 的政策研究員 Sandhini Agarwal 表示,對於色情內容的非常明確的請求,必須經過分類器並且會被拒絕。

Dall-E 3 還允許用戶透過 ChatGPT 來完善創作,就好像他們要求真正的藝術家進行更改一樣。「你真的不必擔心很長的提示,」首席研究員兼 Dall-E 團隊負責人 Aditya Ramesh 說。“相反,您可以與 ChatGPT 進行交互,就像與同事交談一樣。”

Dall-E 團隊的首席研究員 Gabriel Goh 向《Wired》雜誌展示了這項技巧,他要求 Dall-E 3 為一家想像中的麵館製作幾張宣傳海報。在收到幾個選項後,Goh 透過 ChatGPT 要求 Dall-E 3 選擇其中一個並將其變成懸掛在餐廳外的標誌的插圖。

Dall-E 3 現已透過付費版本 ChatGPT Plus 提供。

Wav2Lip (Lipsync 工具)

ChatGPT, Bard, Claude2 比較

[ACM Multimedia, 2020] Wav2Lip: Accurately Lip-syncing Videos In The Wild
Wav2Lip 簡介(英文)

Open In Colab

我從三個不同的 A.I. 平台嘗試找更多關於 Wav2Lip 的資料時出現如下的情況:

Continue reading →

Google Bard Extensions 可連結至第三方應用程式

港學者獲 AI 新法轉化語言 – 最佳論文獎

「中大創新」成立助初創企業發展

Page 20 of 26
1 18 19 20 21 22 26