Gemini API – 正式推出

Gemini 是由 Google 開發的最新大型語言模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務,例如:

  • 推理: Gemini 可以使用其知識庫來回答問題並做出預測。例如,它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
  • 創造力: Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
  • 翻譯: Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言,包括英語、中文、法語、德語和西班牙語。
  • 摘要: Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。

Gemini 與其他 GPT 模型的不同之處在於:

  • 規模: Gemini 是目前最大的 GPT 模型,它具有 2800 億個參數,比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
  • 多模態: Gemini 可以處理多種模態的數據,包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
  • 因果推理: Gemini 可以進行因果推理,這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。

Gemini 是一個非常強大的語言模型,它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。

(more…)

SeamlessM4T v2- 即時語音翻譯模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ,目前已更新到 v2,於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比,此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務:

  • 語音轉語音翻譯 (S2ST)
  • 語音轉文字翻譯 (S2TT)
  • 文字轉語音翻譯 (T2ST)
  • 文本到文本翻譯 (T2TT)
  • 自動語音辨識 (ASR)
(more…)

Popular Tags