AI 演算法工程師如何開發一個 AI 專案

【大模型工程开发】AI算法项目开发参考流程与案例

影片旨在澄清外界對 AI 演算法工程師的誤解,並介紹了 AI 專案開發的實際情況和所需技能,強調了演算法工程師在專案中除了模型開發,也需要具備工程開發能力,並能根據專案需求靈活調整開發策略。

  • 國外網站上常見兩種職位:
    • 數據科學家 (Data Scientist): 專注於演算法開發,目標是提高模型準確度和效率,並降低資源開銷。他們會參與數據競賽,優化模型,進行數據清洗等工作。
    • AI 工程師 (AI Engineer/Machine Learning Engineer): 專注於 AI 應用開發,將已開發好的模型部署成實際可用的應用。例如,將模型部署成 API 服務,並考慮模型工程化、服務穩定性、並發處理、模型可視化以及在嵌入式系統或效能不佳的機器上優化等問題。
  • 影片中也提到,還有一類頂尖的演算法工程師,他們會提出新的演算法或模型架構。

本片的 GitHub 方案


正確的 LLM 微調數據處理方法

【LLM大模型】如何整理训练数据以及微调优化建议

這部影片主要探討了大型語言模型(LLM)微調數據的整理方法,並針對微調優化提出了實用建議,核心問題包含:

  1. 微調數據集的形式: 應該如何整理微調數據集?
  2. AI 輔助數據整理: 是否能利用 AI 協助整理數據?
  3. 微調效果不佳的原因: 為什麼微調後模型效果不明顯?
  4. 業務場景數據來源: 實際業務中,微調所需的數據從何而來?

影片內容重點

  • 基礎知識科普: 影片首先簡要介紹了大型語言模型的基礎概念,例如自迴歸模型和指令微調等。
  • 數據格式探討: 深入討論了數據格式的重要性,並介紹了 llama factory 框架支持的兩種主要數據格式:Pack 和 saregpt。同時說明如何根據不同的微調任務(如指令微調、預訓練、Function Calling 等)選擇合適的數據格式。
  • 微調優化建議: 分享了多項優化微調效果的建議,包括:
    • 清晰定義任務目標
    • 確保數據質量與多樣性
    • 增加額外信息以豐富數據
    • 靈活調整訓練策略
  • 業務場景數據獲取: 探討了在實際業務場景中,如何獲取和標註微調數據,並強調了數據質量對模型性能的關鍵影響。建議觀眾在開始微調前,務必明確任務目標,並仔細整理和清洗數據。

總體而言,這部影片內容豐富且深入淺出,對於希望了解大型語言模型微調數據整理和優化方法的觀眾來說,具有相當高的參考價值。


ACE++ 圖像生成與編輯任務

ACE++ 基於指令的擴散框架,只要輸入一張圖像即可生成與角色一致的新圖像,專門用來處理各種圖像生成和編輯任務。靈感來自 FLUX.1-Fill-dev 的輸入格式,以雙階段訓練方法來減少對圖像擴散模型進行微調所需的工作量。這框架提供了全面的模型集,涵蓋了完整微調和輕量級微調,在生成圖像品質和遵循提示能力方面展現了卓越的性能,可以廣泛應用於人像一致性、靈活指令描述和局部編輯等不同情境。


總結近期在人工智慧影片技術上的突破

這是近期較完整的影片,總結了近期在人工智慧影片技術上的突破,這些技術正快速改變著影片製作的流程。影片亦展望了未來 AI 和 3D 影片的融合創作,能夠在一個統一的場景圖中,以更高的抽象層次協調和導演式的指揮創作,實現更輕量化、更高效的影片製作流程。

AI Video Is Already Unrecognizable (And It's Only March)

以 Gradio 本地運行 RAG DeepSeek R1

影片教你如何建立一個簡單的 Web 應用程式,使用 Ollama LangChain 和 Gradio,透過檢索增強生成 (RAG) 來查詢 PDF 文件。無論你是 AI 的初學者或已有經驗,只要有興趣用 Web 運行 AI 模型,這教學都非常實用。由於支持離線運作,因此能夠增加安全性,保障私隱,特別是對於使用 AI 處理公司內部文件嘅任務。

Run DeepSeek R1 Locally With Ollama | Build a Local Gradio App for RAG

YuE 支持粵語的開源音樂模型

YuE 是一套開源的音樂基礎模型,專為歌詞生成完整歌曲而設計。這個名為 “lyrics2song” 的任務極具挑戰性,因為它需要處理音樂的長時序特性、音樂的複雜性、歌詞的語意,並運用語意增強的音訊雙符記技術、歌詞鏈式思考以及三階段訓練等創新方法,成功生成長達五分鐘的歌曲,並在多種音樂風格和語言中展現了令人印象深刻的結果。(支持生成塑料粵語歌

YuE - Local Music Generation with Audio Prompts - FOSS - 6GB VRAM!

Page Assist 瀏覽器擴充功能

Page Assist 是一個瀏覽器外掛,透過 Ollama 於本機運行 AI 模型,Page Assist 提供了一個十分完善的 Ollama介面。Page Assist 強調不會收集個人資料,十分注重隱私。專案是由 MIT 授權。


OpenHealth 開源 AI 健康助理

OpenHealth 專案是一個開源的 AI 健康助理,作者描述自己五年來花費超過十萬美元、看過三十多位醫生,卻無法確診自體免疫疾病的痛苦過程。 受到這個經歷的啟發,他開發了一個開源 AI 工具,可以幫助人們分析自己的醫療記錄,從不同的醫院提取並整理數據,並藉由 AI 模型進行分析,找出潛在的疾病。 這個工具的目的是解決醫療資訊分散的問題,讓患者能夠更全面地了解自己的健康狀況,並提供給醫生參考,但作者也強調,此工具僅為輔助診斷,不能取代專業醫療人員的判斷。


DeepSeek-VL2-small 視覺模型

DeepSeek-VL2-small 是 DeepSeek-VL2 的小型版本,混合專家 (MoE) 視覺語言模型,旨在提升 DeepSeek-VL 的視覺效能。此模型在視覺問答、光學字元辨識和文件理解等多種任務上展現了卓越的能力。DeepSeek-VL2-small 擁有 28 億(2.8b)個參數,在效能上可與現有的其它開源模型競爭,甚至超越它們。模型的程式碼採用 MIT 許可證,模型本身的使用則受到 DeepSeek 模型許可證的約束,允許商業用途。


DeepSeek R1 的冷啟動 1.5b 微調

影片主要講解了如何使用冷啟動技術來提升小型語言模型(LLM)的推理能力,特別是在數學問題上的表現。影片的核心在於重現 DeepSeek R1 模型論文中提到的冷啟動方法,即透過少量高品質的合成數據集,讓模型在強化學習前就能夠生成清晰且連貫的思考鏈。這些數據集利用數學編譯器來產生精確的步驟式解題過程,並使用大型語言模型生成自然語言解釋,進而微調一個只有 15 億(1.5b)參數的小型模型,使其能夠進行複雜的數學推理,並在思考(think)和回答(answer)標籤中呈現其推理過程,而最終結果顯示即使是小型模型,也能透過冷啟動技術達到令人印象深刻的推理能力。影片也強調了冷啟動數據集的多樣性,包括數學、程式碼和其他領域,才能使模型具有強大的通用能力。

DeepSeek R1 Coldstart: How to TRAIN a 1.5B Model to REASON

Page 7 of 47
1 5 6 7 8 9 47