admin

AI 演算法工程師如何開發一個 AI 專案

【大模型工程开发】AI算法项目开发参考流程与案例

Watch this video on YouTube

影片旨在澄清外界對 AI 演算法工程師的誤解，並介紹了 AI 專案開發的實際情況和所需技能，強調了演算法工程師在專案中除了模型開發，也需要具備工程開發能力，並能根據專案需求靈活調整開發策略。

國外網站上常見兩種職位：
- 數據科學家 (Data Scientist): 專注於演算法開發，目標是提高模型準確度和效率，並降低資源開銷。他們會參與數據競賽，優化模型，進行數據清洗等工作。
- AI 工程師 (AI Engineer/Machine Learning Engineer): 專注於 AI 應用開發，將已開發好的模型部署成實際可用的應用。例如，將模型部署成 API 服務，並考慮模型工程化、服務穩定性、並發處理、模型可視化以及在嵌入式系統或效能不佳的機器上優化等問題。
影片中也提到，還有一類頂尖的演算法工程師，他們會提出新的演算法或模型架構。

本片的 GitHub 方案

正確的 LLM 微調數據處理方法

【LLM大模型】如何整理训练数据以及微调优化建议

Watch this video on YouTube

這部影片主要探討了大型語言模型（LLM）微調數據的整理方法，並針對微調優化提出了實用建議，核心問題包含：

微調數據集的形式： 應該如何整理微調數據集？
AI 輔助數據整理： 是否能利用 AI 協助整理數據？
微調效果不佳的原因： 為什麼微調後模型效果不明顯？
業務場景數據來源： 實際業務中，微調所需的數據從何而來？

影片內容重點

基礎知識科普： 影片首先簡要介紹了大型語言模型的基礎概念，例如自迴歸模型和指令微調等。
數據格式探討： 深入討論了數據格式的重要性，並介紹了 llama factory 框架支持的兩種主要數據格式：Pack 和 saregpt。同時說明如何根據不同的微調任務（如指令微調、預訓練、Function Calling 等）選擇合適的數據格式。
微調優化建議： 分享了多項優化微調效果的建議，包括：
- 清晰定義任務目標
- 確保數據質量與多樣性
- 增加額外信息以豐富數據
- 靈活調整訓練策略
業務場景數據獲取： 探討了在實際業務場景中，如何獲取和標註微調數據，並強調了數據質量對模型性能的關鍵影響。建議觀眾在開始微調前，務必明確任務目標，並仔細整理和清洗數據。

總體而言，這部影片內容豐富且深入淺出，對於希望了解大型語言模型微調數據整理和優化方法的觀眾來說，具有相當高的參考價值。

ACE++ 圖像生成與編輯任務

ACE++ 基於指令的擴散框架，只要輸入一張圖像即可生成與角色一致的新圖像，專門用來處理各種圖像生成和編輯任務。靈感來自 FLUX.1-Fill-dev 的輸入格式，以雙階段訓練方法來減少對圖像擴散模型進行微調所需的工作量。這框架提供了全面的模型集，涵蓋了完整微調和輕量級微調，在生成圖像品質和遵循提示能力方面展現了卓越的性能，可以廣泛應用於人像一致性、靈活指令描述和局部編輯等不同情境。

總結近期在人工智慧影片技術上的突破

這是近期較完整的影片，總結了近期在人工智慧影片技術上的突破，這些技術正快速改變著影片製作的流程。影片亦展望了未來 AI 和 3D 影片的融合創作，能夠在一個統一的場景圖中，以更高的抽象層次協調和導演式的指揮創作，實現更輕量化、更高效的影片製作流程。

AI Video Is Already Unrecognizable (And It's Only March)

Watch this video on YouTube

以 Gradio 本地運行 RAG DeepSeek R1

影片教你如何建立一個簡單的 Web 應用程式，使用 Ollama LangChain 和 Gradio，透過檢索增強生成 (RAG) 來查詢 PDF 文件。無論你是 AI 的初學者或已有經驗，只要有興趣用 Web 運行 AI 模型，這教學都非常實用。由於支持離線運作，因此能夠增加安全性，保障私隱，特別是對於使用 AI 處理公司內部文件嘅任務。

Run DeepSeek R1 Locally With Ollama | Build a Local Gradio App for RAG

Watch this video on YouTube

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型，專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性，因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意，並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法，成功生成長達五分鐘的歌曲，並在多種音樂風格和語言中展現了令人印象深刻的結果。（支持生成塑料粵語歌）

GitHub – alisson-anjos/YuE-exllamav2-UI

Contribute to alisson-anjos/YuE-exllamav2-UI development by creating an account on GitHub.

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!

Watch this video on YouTube

Page Assist 瀏覽器擴充功能

Page Assist 是一個瀏覽器外掛，透過 Ollama 於本機運行 AI 模型，Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料，十分注重隱私。專案是由 MIT 授權。

OpenHealth 專案是一個開源的 AI 健康助理，作者描述自己五年來花費超過十萬美元、看過三十多位醫生，卻無法確診自體免疫疾病的痛苦過程。受到這個經歷的啟發，他開發了一個開源 AI 工具，可以幫助人們分析自己的醫療記錄，從不同的醫院提取並整理數據，並藉由 AI 模型進行分析，找出潛在的疾病。這個工具的目的是解決醫療資訊分散的問題，讓患者能夠更全面地了解自己的健康狀況，並提供給醫生參考，但作者也強調，此工具僅為輔助診斷，不能取代專業醫療人員的判斷。

DeepSeek-VL2-small 視覺模型

DeepSeek-VL2-small 是 DeepSeek-VL2 的小型版本，混合專家 (MoE) 視覺語言模型，旨在提升 DeepSeek-VL 的視覺效能。此模型在視覺問答、光學字元辨識和文件理解等多種任務上展現了卓越的能力。DeepSeek-VL2-small 擁有 28 億(2.8b)個參數，在效能上可與現有的其它開源模型競爭，甚至超越它們。模型的程式碼採用 MIT 許可證，模型本身的使用則受到 DeepSeek 模型許可證的約束，允許商業用途。

DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型（LLM）的推理能力，特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法，即透過少量高品質的合成數據集，讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程，並使用大型語言模型生成自然語言解釋，進而微調一個只有 15 億（1.5b)參數的小型模型，使其能夠進行複雜的數學推理，並在思考（think）和回答（answer）標籤中呈現其推理過程，而最終結果顯示即使是小型模型，也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性，包括數學、程式碼和其他領域，才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON

Watch this video on YouTube

Page 7 of 47

« Previous 1 … 5 6 7 8 9 … 47 Next »