這個網站主要分享什麼內容？

分享 3C、軟體、美食旅遊與生活記事，偏向長期筆記與工具整理。

如何搜尋文章？

使用搜尋頁面輸入關鍵字即可快速找到文章。

如何訂閱網站更新？

可使用 RSS 或 Atom 訂閱網站更新。

Google 推出比 GPT 4 還強大的 AI 模型 Gemini，複合式 AI 未來將搭載於 Bard 及 Pix…

Gemini

Google 近日推出最新且最具突破性的人工智能模型 Gemini。Gemini 在各方面表現均比現有 GPT-4 AI 模型還要強大，是一款具有複合性能力的 AI，不論是 Coding、圖片、影片或文字的處理上都沒問題，並且共有三種版本：Gemini Ultra、Gemini Pro 和 Gemini Nano。Gemini 將逐步推出到 Google 各種產品和平台上，包括 Bard、Pixel 8 Pro 和其他產品中。此外，從 12 月 13 日起，開發者和企業可以透過 Google AI Studio 或 Google Cloud Vertex AI 存取 Gemini Pro 的 API。

從上方影片可以看到 Gemini 用鏡頭看桌面，Gemini 能夠聽懂人講話、看懂人類的畫、並且和人類與鏡頭互動。當人發問，Gemini 會回應並提供更多意見、想法，成果非常驚人。

Gemini 在許多領先的基準測試中表現出最先進的性能，是迄今為止 Google 最有能力和最通用的 AI 模型。

Google DeepMind 的 CEO 和共同創辦人 Demis Hassabis 強調，Gemini 的推出是他們長期以來構建新一代 AI 模型願景的實現，Gemini 能夠理解和操作文字、Coding、音檔、圖片和影片在內的不同類型的資訊。

Gemini 有三種版本：Ultra、Pro 和 Nano，分別針對不同的應用和需求進行優化。

UltraL：是最大型的模型，適用於高度複雜的任務
Pro：適用於廣泛的任務
Nano：則是最高效的模型，適合在行動裝置上的任務。

Gemini 在文字和 Coding 等一系列測試中效能皆超越了 GPT-4。

Gemini 功能

與現有的 AI 模型如 GPT-4 相比，Gemini 在多模態理解和處理方面展現了更先進的性能。它在理解和處理複雜數據方面的能力可能超越了 GPT-4，特別是在處理圖片、音檔和影片在內的非文字數據方面。此外，Gemini 還能在移動裝置上運行，這是目前大多數 AI 模型，包括 GPT-4，所無法辦到的。在 MMLU（大規模多任務語言理解）上，它首次超越人類專家的表現。

上方影片清楚的說明 Gemini 在科學、研究領域的實際應用範例：

科學研究中的問題：科學家常常面臨從成千上萬的科學論文中人工找數據的困難，這是一個耗時且必須的工作。Google DeepMind 的研究人員就明顯遇到了這個問題。
Gemini 的角色：DeepMind 科學家使用 Gemini 提供了對科學的深刻理解，幫助篩選和從科學文獻中高效率提取資料，識別相關的論文並有效率找到關鍵數據。
案例研究：一個 2022 年研究中的遺傳學數據資料集，最初需要手動審無數的論文。Gemini 被用來處理自 2021 年以來新增的超過 200,000 篇論文，並將篩選到剩下 250 篇相關論文。
多模態功能：Gemini 的多模態性質使其能夠理解並處理不僅是文字或圖表而已。它還可以產生代碼以更新研究中的圖表，使用更新的數據集來製作更新的圖表，其中包括直到 2023 年的數據。
更廣泛的應用：Gemini 的功能不僅適用於生物學和科學，還適用於任何依賴大數據資料庫的領域，如法律或金融，顯示了它在各個領域數據蒐集和分析的潛力。

在家庭上，還可以用來解決爸媽協助小朋友的作業上：

作業輔助：Gemini 是一款專為協助家長幫助孩子完成家庭作業而設計的工具，特別是在數學和物理學方面。
多模態學習與問題解決：它具有簡單的界面，利用 Gemini 在數學推理和多模態學習方面的能力。使用者可以上傳手寫答案的照片，Gemini 不僅可以解決這些問題，還能理解和評估所提供的答案。
錯誤辨識與解釋：Gemini 能夠辨識解答中的錯誤，如上方影片示範中的問題 1 和 3。它可以指出具體錯誤，例如使用了正確的公式但計算錯誤，並提供詳細解釋。
客製化解釋：Gemini 提供解決問題的拆解式解答，並且能夠理解細節的資訊，能夠針對複雜主題提供定制化解釋。
個人化練習題：為了增強學習，Gemini 根據使用者答案中辨識出的錯誤，提供個人化練習題，此功能有助於加強對概念的理解和提高解決問題的能力。

在 Coding 方面，從上方影片可以看出 Gabriela Surita 強調 Gemini 具有先進的複合性功能，包含理解、解釋和產生多種程式語言，如：Python、Java、C++ 等。它在首次嘗試解決 Coding 功能時的表現超越了前身 PaLM 2，達到了 75％的成功率，並且在自我檢查和修正後，成功率可以提高到超過 90％。

Rémi Leblond 介紹了 AlphaCode2，這是 AlphaCode 的增強版本。AlphaCode2 由 Gemini 驅動，其性能明顯超過原始 AlphaCode，解決的問題數量是前者的兩倍，並超過了 85％人類。AlphaCode2 在與人類合作寫程式時表現更佳，工程師可以為程式碼樣本設定特定屬性。這種協作被視為 Coding 的未來，AI 模型將協助解決問題、設計代碼，甚至參與實際寫程式碼，革命性的 Coding 即將展開！

Gemini

此外，Google 在開發 Gemini 時強調了對負責任和安全的承諾。該模型進行了全面的安全評估，包括對偏見和有害內容的檢測，並與外部專家合作，對潛在風險進行測試。

Gemini 將逐步推出到谷歌的各種產品和平台上，包括在谷歌的 Bard、Pixel 8 Pro 和其他產品中的應用。此外，從 12 月 13 日起，開發者和企業客戶可以通過 Google AI Studio 或 Google Cloud Vertex AI 訪問 Gemini Pro 的 API。

總的來說，Gemini 的推出不僅展示了谷歌在 AI 領域的創新實力，還代表了 AI 技術對社會進步和人類福祉的巨大潛力。隨著 Gemini 的應用日益廣泛，我們可以期待它在創造性、知識擴展、科學進步和全球數十億人的生活和工作方式上帶來的轉變。

傳送門：Gemini 官網