newsence
來源篩選

Gemini Can Now Book You an Uber or Order a DoorDash Meal on Your Phone: Here's How It Works

Wired - AI

Starting with the Samsung Galaxy S26, Google's Gemini can automate tasks in popular mobile apps. We got a live demo of the new feature in action.

newsence

Gemini 現在能幫你在手機上預約 Uber 或訂購 DoorDash 外送:運作原理詳解

Wired - AI
3 天前

AI 生成摘要

從 Samsung Galaxy S26 開始,Google 的 Gemini 可以自動執行熱門行動應用程式中的任務。我們現場實測了這項新功能的實際運作情況。

Gemini 現在可以幫你在手機上預約 Uber 或訂購 DoorDash 外送。以下是它的運作方式

你可能會有一種似曾相識的感覺。

十年前,Google 和 Apple 等公司曾承諾,他們各自的語音助理可以代表你完成任務。Apple 曾表示 Siri 可以叫 Uber——但今天試試看,Siri 只會幫你打開 Uber 應用程式。Google 曾聲稱你可以透過 Google 助理在星巴克「照舊來一份」,但體驗非常笨拙,Google 最終移除了這項功能。

但現在,在大語言模型和能理解自然語言的 AI 時代,我們看到同樣的承諾再次回到檯面上。在三星的 Galaxy Unpacked 發表會上,Google 和三星展示了你將如何使用 Gemini 語音助理在特定的第三方應用程式中完成任務:預約 Uber,或透過 Uber Eats、DoorDash 或 Grubhub 訂餐。(預計今年晚些時候 Android 17 發布時,將支援更多應用程式。)

這項功能目前仍處於早期預覽階段,初期僅在美國和韓國提供,將從 3 月 11 日上市的 Galaxy S26 智慧型手機開始搭載,隨後將作為軟體更新推送到 Google Pixel 10 系列。以下是它的運作方式。

步驟解析

圖片可能包含電子產品、行動電話與手機 圖片可能包含電子產品、行動電話、手機與文字

對 Gemini 說「幫我叫一輛去機場的 Uber」,你會看到它在一個虛擬視窗中打開 Uber 應用程式。Gemini 會繼續在背景執行此操作,但你可以透過點擊即時通知來監控它的進度。你可以看到整個過程,儘管設計初衷是讓你讓它在背景執行,而你則專注於更重要的事情。

如果它需要更多資訊,例如如果你在紐約三州地區,而它不確定你想去三個主要機場中的哪一個,它會回來詢問你。完成後,你會收到通知,並被引導至 Uber 應用程式的預約階段。Gemini 不會替你做預約決定,因此你必須選擇要 UberX 還是 UberXL,確認車資,然後點擊預約。

Google Android 生態系統總裁 Sameer Samat 告訴 WIRED:「我將一些你可能希望自動化的任務稱為『數位雜務』——那些你知道必須做,但並不一定有興趣親自完成的事情。」

圖片可能包含電子產品、行動電話與手機 圖片可能包含電子產品、行動電話與手機

Samat 向我展示了使用 Grubhub 進行任務自動化(Task Automation)的更複雜範例。(目前一次只能執行一個自動化任務。)他打開了一個群組簡訊對話串,幾位朋友正在討論在桌遊之夜前從 Pizza Hut 訂披薩。對話中有人提到了特定的披薩口味。他喚起 Gemini 並要求它「搞定訂單」。接著,Gemini 就知道要從螢幕獲取上下文,並整齊地整理好每個人的訂單。

Samat 隨後要求 Gemini「在 Grubhub 上訂購這些並送到家」,隨即啟動了任務自動化流程。Gemini 打開了 Grubhub 的虛擬視窗並開始工作。幾分鐘後,Gemini 回報購物車中已加入所有品項。Samat 唯一要做的就是確認一切無誤並點擊下單。

在某些情況下 Gemini 可能會遇到問題,但它總是會先嘗試尋找解決方案,然後才回來詢問你。畢竟,如果一個助理在你只想讓它代勞時卻不斷問你問題,那還有什麼意義呢?他說有一次,Gemini 回來問他想要什麼尺寸和餅皮類型。另一次,餐廳在忙碌時段限制了大披薩的訂購數量,Gemini 便回來詢問改訂兩個中披薩是否可以。

Samat 重申,Gemini 並不只是記住了應用程式的「地圖」——這是我們在早期 AI 代理(如 Rabbit R1)中看到的做法。Gemini 利用其推理能力制定計劃,像人類一樣觀察螢幕並進行操作。即使應用程式在今天到明天之間發生了視覺上的變化,Gemini 仍然可以搞清楚該怎麼做。Samat 說:「它對這類變化具有魯棒性(健壯性)。」

在另一個例子中,Samat 向我展示了一個 Google Keep 筆記,上面有一份即將舉行的燒烤活動的參加名單,並註明了誰是純素食者。他要求 Gemini 計算需要多少熱狗和麵包——Gemini 完成了計算,然後 Samat 詢問 Gemini 是否可以將必要的品項加入 DoorDash 上的 Safeway 購物車,幾分鐘後,所有東西都已準備在購物車中了。

AI 視覺

Gemini 現在可以幫你在手機上預約 Uber 或訂購 DoorDash 外送。以下是它的運作方式

Gemini 的任務自動化只是它完成任務的三種方式之一。如果有「模型上下文協定」(Model Context Protocol, MCP)整合——這是一種讓 LLM 與第三方應用程式溝通的開源通用語言——那麼 Gemini 就可以在後端執行任務。(在這種情況下,你不會看到整個過程的演練;你只會在提出要求後看到最終的結帳步驟出現。)開發者還可以構建「應用程式功能」(App Functions),讓 Gemini 以結構化的方式與其互動。但如果兩者都不存在,Gemini 就會親自打開應用程式,並在按鈕、文字框和選單中進行操作以完成任務。

Samat 說:「這是我們第一次在 Android 上對應用程式執行此操作,因此正確完成它非常重要。我認為這是技術上令人興奮的一步。我們將此視為行動智慧新時代的開始,而 Android 是我們認為你能最先看到未來的地方。」

當涉及到授予 Gemini 存取應用程式的權限時,隱私疑慮隨之而來。Samat 表示,這就是為什麼 Google 在第一批任務自動化中沒有包含任何過於敏感的應用程式。他說這些數據不會用於廣告,且使用者可以刪除 Gemini 看到的數據。「我們確實認為讓人們對系統產生信任非常重要,而這來自於對其行為的控制和透明度。」

雖然目前仍需要智慧型手機螢幕來完成任務,但 Samat 預見未來你可以透過其他裝置啟動這些任務——例如一副智慧眼鏡、一個 AI 掛飾,甚至是汽車。(今年將有幾款搭載 Android XR 的新智慧眼鏡上市。)他說公司正在研究其他方法,讓最終的身分驗證能在這些裝置上完成。畢竟,你不會希望有人偷了你的智慧眼鏡後,叫 Gemini 訂購 55 個漢堡、55 份薯條、55 個塔可——好吧,你明白我的意思。