API – Infer.store

Google AI for Developers

使用 Gemini API，能快速開發並將想法轉化為程式碼來建立 AI 應用程式。

Gemini 是由 Google 開發的最新大型語言模型，它具有 2800 億個參數，比之前的 GPT-3 模型大 10 倍。Gemini 的主要特點之一是它可以處理更複雜的任務，例如：

推理： Gemini 可以使用其知識庫來回答問題並做出預測。例如，它可以回答有關歷史事件、科學概念或時事的問題。它還可以根據過去的數據預測未來的趨勢。
創造力： Gemini 可以生成文本、圖像和音樂。它可以寫詩、故事和劇本。它還可以創建逼真的圖像和音樂。
翻譯： Gemini 可以將文本從一種語言翻譯成另一種語言。它可以翻譯多種語言，包括英語、中文、法語、德語和西班牙語。
摘要： Gemini 可以將長篇文章或視頻總結成更短、更易於理解的格式。它可以幫助人們快速了解複雜的信息。

Gemini 與其他 GPT 模型的不同之處在於：

規模： Gemini 是目前最大的 GPT 模型，它具有 2800 億個參數，比之前的 GPT-3 模型大 10 倍。這使它能夠處理更複雜的任務。
多模態： Gemini 可以處理多種模態的數據，包括文本、圖像、音頻和視頻。這使它能夠生成更豐富、更逼真的內容。
因果推理： Gemini 可以進行因果推理，這意味著它可以理解事件之間的因果關係。這使它能夠做出更準確的預測和決策。

Gemini 是一個非常強大的語言模型，它具有廣泛的應用前景。它可以被用於改進搜索引擎、機器翻譯、內容生成和決策支持等領域。

(more…)

透過語音翻譯的多模態模型，讓世界更緊密地連結在一起

Meta : 最先進的語音和文字翻譯的基礎模型

無縫 M4T

Meta 三個月前公佈的 SeamlessM4T (Massively Multilingual and Multimodal Machine Translation model) ，目前已更新到 v2，於 GitHub 開放下載最新的源碼。SeamlessM4T v2 採用 UnitY2 架構的更新版本。與 SeamlessM4T v1 相比，此新模型在品質以及語音生成任務中的推理延遲方面有所改進。

M4T 是一體式大規模多語言和多模式的機器翻譯模型，可為近 100 種語言的語音和文字提供高品質翻譯。

SeamlessM4T 模型支援以下任務：

語音轉語音翻譯 (S2ST)
語音轉文字翻譯 (S2TT)
文字轉語音翻譯 (T2ST)
文本到文本翻譯 (T2TT)
自動語音辨識 (ASR)

(more…)

Gemini API – 正式推出

SeamlessM4T v2- 即時語音翻譯模型

無縫 M4T

無縫 M4T

Popular Tags