admin

Apple 開放 MLX 機器學習 API

GitHub – ml-explore/mlx: MLX: An array framework for Apple silicon

MLX: An array framework for Apple silicon. Contribute to ml-explore/mlx development by creating an account on GitHub.

Awni Hannun 宣怖 Apple 正式開放 ML Framework 並於 GitHub 設立模型庫及應用介面範例。各種使用MLX 框架的獨立範例。

MNIST範例是學習如何使用 MLX 的良好起點。

一些更有用的例子包括：

Transformer 語言模型訓練。
使用LLaMA或Mistral產生大規模文字。
使用Mixtral 8x7B 的專家混合 (MoE) 語言模型
使用LoRA進行參數高效率微調。
使用穩定擴散產生影像。
使用OpenAI 的 Whisper進行語音辨識。
使用BERT進行雙向語言理解
使用GCN對圖結構資料進行半監督學習。

Genmo 創意研究實驗室

簡單易用的多功能高質影像視頻

Make videos, 3D models, images, art and more with Genmo AI, your creative copilot.

Genmo 致力於建立跨模式創作和分享生成藝術的工具。我們正在推動生成模型能力的前沿。如今的免費平台只需單擊即可社交創作無限量的影片。 Genmo 目前處於測試階段，將來會添加更多內容。

免費版可生成最長 6 秒 2304 x 1280 的高清影片。

亦可控制鏡頭的運鏡方式

Replay v0.2 announcement: image-to-video, longer length, high resolution

Watch this video on YouTube

除此，Genmo 亦提供生成圖片，文字對話等。

Gemini AI – 2023-12-13 正式上線！

Google 發佈最強AI大模型！

Gemini 是史上最強大、最通用、專為多模式而設計，並推出三種不同大少的模式進行最佳化：Ultra、Pro 和 Nano。

從今天開始，Google Bard 將使用 Gemini Pro 的微調版本來進行更高級的推理、計劃、理解等。這是 Bard 自推出以來最大的升級。它將在 170 多個國家和地區提供英語版本，我們計劃在不久的將來擴展到不同的模式並支援新的語言和地點。

原生多模態（Natively Multimodel)：Google Gemini 的突破

以往創建多模態大模型的方法，通常是先分別訓練文本、圖像、音頻等單一模態的模型，然後將它們拼接在一起。這樣的模型雖然在某些特定任務上表現不錯，不過面對更具概念性，或者複雜推理的任務，往往表現不太理想。

Gemini 提出了原生多模態的概念，即從一開始就對不同的模態進行整合訓練，然後用額外的多模態數據進行微調。這樣訓練出來的模型可以更好地理解不同模態之間的關係，從而提高在複雜任務上的表現。

Google 還將 Gemini 引入 Pixel。 Pixel 8 Pro 是第一款運行 Gemini Nano 的智慧型手機，它支援記錄器應用程式中的 Summarize 等新功能，並從 WhatsApp 開始推出 Gboard 中的智慧回覆功能，明年還將推出更多訊息應用程式。

在接下來的幾個月中，Gemini 將出現在我們更多的產品和服務中，例如搜尋、廣告、Chrome 和 Duet AI。

Google 已經開始在搜尋器中試驗 Gemini，它使用戶的搜尋生成體驗 (SGE) 更快，延遲減少了 40%，同時品質也提高了。

Google 谷歌 Gemini 碾压 GPT-4！人类最强 AI 模型问世，迈出 AGI 的第一步 | 回到Axton

Watch this video on YouTube

SeamlessM4T v2- 即時語音翻譯模型

透過語音翻譯的多模態模型，讓世界更緊密地連結在一起

Meta : 最先進的語音和文字翻譯的基礎模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ，目前已更新到 v2，於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比，此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型，可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務：

語音轉語音翻譯 (S2ST)
語音轉文字翻譯 (S2TT)
文字轉語音翻譯 (T2ST)
文本到文本翻譯 (T2TT)
自動語音辨識 (ASR)

(more…)

HeyGen’s Avatar 2.0 – 兩分鍾生成個性化頭像視頻

釋放您的創造力 – 製作未來的影片。

創新的影片平台，利用生成式人工智慧的力量來簡化您的影片創作過程。

LaVie 高質量視頻生成框架

GitHub

這是個高質量視頻生成框架，使用級聯潛在擴散模型（Cascaded Latent Diffusion Models）進行文本到視頻（Text-to-Video）生成

這是個高質量視頻生成框架，使用級聯潛在擴散模型（Cascaded Latent Diffusion Models）進行文本到視頻（Text-to-Video）生成，是Vchitect視頻生成系統的主要組成部分。項目提供了使用PyTorch實現的LaVie的官方代碼。

您可以從GitHub頁面下載。通過文本描述，生成與文本相對應的視頻。項目還提供了預訓練模型和示例代碼，助您進行推理和生成自己的視頻。

LaVie是一個基於機器學習的視頻生成框架，它使用了一種稱為級聯潛在擴散模型（Cascaded Latent Diffusion Models）的技術。這種模型可以通過將文本描述轉化為視頻序列來實現文本到視頻的生成。

LaVie項目的GitHub頁面還提供了示例代碼和相關配置文件，可以幫助您更好地理解和使用該框架。您可以根據示例代碼進行自己的實驗和應用。

請注意，LaVie的使用可能需要具備一定的機器學習和深度學習知識，以及相應的計算資源。如果您對LaVie感興趣，建議您仔細閱讀項目的文檔和代碼，並根據需要進行相應的學習和實踐。

1 步出圖 SD Turbo 及 SDXL Turbo

Stabilityai 推出 sdxl-turbo

SDXL-Turbo 是一種快速生成文字到圖像的模型，可在單一網路評估中根據文字提示合成逼真的圖像。

Stability 示範：https://clipdrop.co/stable-diffusion-turbo

SDXL-Turbo 不使用 guidance_scale 或 negative_prompt，因此我們停用它並設定 guidance_scale=0.0。模型產生尺寸為 512×512 的圖像，但更高的圖像尺寸也可以。只需一個步驟就足以產生高品質的影像。

SDXL-Turbo 是SDXL 1.0 的精煉版本，經過即時合成訓練。SDXL-Turbo 基於一種稱為對抗擴散蒸餾 (ADD) 的新穎訓練方法（請參閱技術報告），該方法允許在高影像品質下以 1 到 4 個步驟對大規模基礎影像擴散模型進行取樣。這種方法使用分數蒸餾來利用大規模現成的影像擴散模型作為教師訊號，並將其與對抗性損失相結合，以確保即使在一個或兩個取樣步驟的低步驟狀態下也能確保高影像保真度。

Draw Things: 為 iPhone 及 Mac M1 進行優化的 Stable Diffusion XL

完全免費：全中文介面並直接支援 SD 1.5 及 XL 模型，

基於流行的穩定擴散模型，Draw Things 可協助您在幾分鐘而不是幾天內建立您想要的影像。

雖然 AppStore 上已有多個 Apps 以 Stable Diffusion 作為基楚應用，例如 Diffusion Bee, 但新版 Draw Things 可算是目前最齊功能、最接近 GitHub 上的 Automatic 1111 的 GUI 版，它甚至內建 ControlNet, 直接執行 SD 1.4, 1.5 及 XL Checkpoint 及 Lora 模型。

你亦可於 App 內直接下載上千個模型並自動轉換成支援 Apple 的 Core ML 引擎，優化執行 Transformer 架構模型。出圖速度比直接執行 Stable Diffusion WebUI 版更快。

#蘋果神經引擎

第一代 Apple 神經引擎 (ANE – Apple Neural Engine) 作為我們 2017 年旗艦機型 iPhone X 中 A11 晶片的一部分發布。它在半精度浮點數資料格式下的峰值吞吐量為 0.6 兆次浮點運算 (TFlops) （ float16 或FP16），並且它有效地支援了設備上的ML 功能，例如Face ID 和Memoji。

到 2021 年，第五代 16 核 ANE 的處理能力是原來的 26 倍，即 15.8 TFlops。神經引擎的可用性也從 2017 年的 iPhone 擴展到從 A12 晶片開始的 iPad，從 M1 晶片開始擴展到 Mac。Apple 神經引擎的演變。iPhone 13 Pro 上的 A15 Bionic 晶片上的 16 核神經引擎的峰值吞吐量為 15.8 teraflops，比 iPhone X 提升了 26 倍。

通用和高保真音訊驅動的 3D 說話人臉合成

GeneFace：通用和高保真音訊驅動的 3D 說話人臉合成

Arxiv Paper: https://arxiv.org/abs/2301.13430Source Code: https://github.com/yerfor/GeneFaceOpenReview Discussion: https://openreview.net/forum?id=YfwMIDhPccD

GeneFace是一個通用且高保真的音訊驅動3D說話人臉合成模型，該模型的官方 PyTorch 實現程式碼可以在 GitHub 上的 yerfor/GeneFace 存儲庫中找到（https://github.com/yerfor/GeneFace)。

GeneFace 的目標是生成具有良好的嘴唇同步和表情表達能力的說話人臉。該模型的推論流程非常直觀，並且能夠在不同音訊域中實現更好的嘴唇同步效果。您可以觀看 GeneFace 與以前基於 NeRF 的方法進行的清晰嘴唇同步比較的視頻，以更好地了解其效果。同時，您也可以訪問該項目的頁面以獲取更多詳細信息。

如果您想要快速開始使用 GeneFace，存儲庫中提供了預訓練模型和處理過的數據集。您可以按照存儲庫中的指南進行操作，進行模型推論或使用自己的目標人物視頻進行訓練。同時，存儲庫還提供了有關環境準備、數據集準備和模型訓練的詳細說明。

除了存儲庫中提供的 May.mp4 視頻外，GeneFace 還提供了其他 8 個目標人物視頻，這些視頻也是在實驗中使用的。您可以根據存儲庫中的指南，使用這些視頻進行自己的訓練。

Krita-ai-diffusion 實時 A.I. 生成式人工智慧繪圖

開源 GitHub – krita-ai-diffusion

免費的 Krita 圖像處理軟件使用 AI 生成圖像

互動式工作流程，其中人工智慧生成僅用作繪畫時的一種協同工具。

Inpaint：使用 Krita 的選擇工具標記區域並刪除或取代影像中的現有內容。簡單的文字提示可用於指導生成。
Outpaint：擴展畫布，選擇空白區域並自動填入與現有影像無縫融合的內容。
生成：透過用文字或現有圖像描述它們，從頭開始創建新圖像。支援SD1.5和SDXL。
優化：使用強度滑桿優化現有影像內容，而不是完全取代它。這也非常適合透過繪製（粗略）近似值並以高強度進行細化來為影像添加新內容！
即時繪畫：讓人工智慧即時解讀您的畫布以獲得即時回饋。看影片
控制：直接使用草圖或線條藝術指導圖像創建。使用現有影像或 3D 場景的深度或法線貼圖。從快照傳送角色姿勢。使用分割圖控制構圖。
決議：在任何決議下都能有效率地工作。該插件將自動使用適合 AI 模型的分辨率，並縮放它們以適合您的圖像區域。
升級：將影像升級並豐富至 4k、8k 以上，而不會耗盡記憶體。
作業佇列：根據硬體的不同，影像產生可能需要一些時間。該插件允許您在處理圖像時排隊和取消作業。
歷史：並非每張圖像都會成為傑作。隨時預覽結果並瀏覽前幾代和提示。
強大的預設設定：多功能的預設樣式預設允許簡單的 UI 覆蓋許多場景。
自訂：建立您自己的預設 – 選擇穩定擴散檢查點、新增 LoRA、調整取樣器等。

[英文] 詳細教學：

This One Simple Plugin Adds Realtime AI Assistance to Krita

Watch this video on YouTube

Page 39 of 47

« Previous 1 … 37 38 39 40 41 … 47 Next »