Gemini Can Now Book You an Uber or Order a DoorDash Meal on Your Phone: Here's How It Works
Wired - AI
Starting with the Samsung Galaxy S26, Google's Gemini can automate tasks in popular mobile apps. We got a live demo of the new feature in action.
Wired - AI
Starting with the Samsung Galaxy S26, Google's Gemini can automate tasks in popular mobile apps. We got a live demo of the new feature in action.
AI 生成摘要
從 Samsung Galaxy S26 開始,Google 的 Gemini 可以自動執行熱門行動應用程式中的任務。我們現場實測了這項新功能的實際運作情況。
你可能會有一種似曾相識的感覺。
十年前,Google 和 Apple 等公司曾承諾,他們各自的語音助理可以代表你完成任務。Apple 曾表示 Siri 可以叫 Uber——但今天試試看,Siri 只會幫你打開 Uber 應用程式。Google 曾聲稱你可以透過 Google 助理在星巴克「照舊來一份」,但體驗非常笨拙,Google 最終移除了這項功能。
但現在,在大語言模型和能理解自然語言的 AI 時代,我們看到同樣的承諾再次回到檯面上。在三星的 Galaxy Unpacked 發表會上,Google 和三星展示了你將如何使用 Gemini 語音助理在特定的第三方應用程式中完成任務:預約 Uber,或透過 Uber Eats、DoorDash 或 Grubhub 訂餐。(預計今年晚些時候 Android 17 發布時,將支援更多應用程式。)
這項功能目前仍處於早期預覽階段,初期僅在美國和韓國提供,將從 3 月 11 日上市的 Galaxy S26 智慧型手機開始搭載,隨後將作為軟體更新推送到 Google Pixel 10 系列。以下是它的運作方式。
對 Gemini 說「幫我叫一輛去機場的 Uber」,你會看到它在一個虛擬視窗中打開 Uber 應用程式。Gemini 會繼續在背景執行此操作,但你可以透過點擊即時通知來監控它的進度。你可以看到整個過程,儘管設計初衷是讓你讓它在背景執行,而你則專注於更重要的事情。
如果它需要更多資訊,例如如果你在紐約三州地區,而它不確定你想去三個主要機場中的哪一個,它會回來詢問你。完成後,你會收到通知,並被引導至 Uber 應用程式的預約階段。Gemini 不會替你做預約決定,因此你必須選擇要 UberX 還是 UberXL,確認車資,然後點擊預約。
Google Android 生態系統總裁 Sameer Samat 告訴 WIRED:「我將一些你可能希望自動化的任務稱為『數位雜務』——那些你知道必須做,但並不一定有興趣親自完成的事情。」
Samat 向我展示了使用 Grubhub 進行任務自動化(Task Automation)的更複雜範例。(目前一次只能執行一個自動化任務。)他打開了一個群組簡訊對話串,幾位朋友正在討論在桌遊之夜前從 Pizza Hut 訂披薩。對話中有人提到了特定的披薩口味。他喚起 Gemini 並要求它「搞定訂單」。接著,Gemini 就知道要從螢幕獲取上下文,並整齊地整理好每個人的訂單。
Samat 隨後要求 Gemini「在 Grubhub 上訂購這些並送到家」,隨即啟動了任務自動化流程。Gemini 打開了 Grubhub 的虛擬視窗並開始工作。幾分鐘後,Gemini 回報購物車中已加入所有品項。Samat 唯一要做的就是確認一切無誤並點擊下單。
在某些情況下 Gemini 可能會遇到問題,但它總是會先嘗試尋找解決方案,然後才回來詢問你。畢竟,如果一個助理在你只想讓它代勞時卻不斷問你問題,那還有什麼意義呢?他說有一次,Gemini 回來問他想要什麼尺寸和餅皮類型。另一次,餐廳在忙碌時段限制了大披薩的訂購數量,Gemini 便回來詢問改訂兩個中披薩是否可以。
Samat 重申,Gemini 並不只是記住了應用程式的「地圖」——這是我們在早期 AI 代理(如 Rabbit R1)中看到的做法。Gemini 利用其推理能力制定計劃,像人類一樣觀察螢幕並進行操作。即使應用程式在今天到明天之間發生了視覺上的變化,Gemini 仍然可以搞清楚該怎麼做。Samat 說:「它對這類變化具有魯棒性(健壯性)。」
在另一個例子中,Samat 向我展示了一個 Google Keep 筆記,上面有一份即將舉行的燒烤活動的參加名單,並註明了誰是純素食者。他要求 Gemini 計算需要多少熱狗和麵包——Gemini 完成了計算,然後 Samat 詢問 Gemini 是否可以將必要的品項加入 DoorDash 上的 Safeway 購物車,幾分鐘後,所有東西都已準備在購物車中了。
Gemini 的任務自動化只是它完成任務的三種方式之一。如果有「模型上下文協定」(Model Context Protocol, MCP)整合——這是一種讓 LLM 與第三方應用程式溝通的開源通用語言——那麼 Gemini 就可以在後端執行任務。(在這種情況下,你不會看到整個過程的演練;你只會在提出要求後看到最終的結帳步驟出現。)開發者還可以構建「應用程式功能」(App Functions),讓 Gemini 以結構化的方式與其互動。但如果兩者都不存在,Gemini 就會親自打開應用程式,並在按鈕、文字框和選單中進行操作以完成任務。
Samat 說:「這是我們第一次在 Android 上對應用程式執行此操作,因此正確完成它非常重要。我認為這是技術上令人興奮的一步。我們將此視為行動智慧新時代的開始,而 Android 是我們認為你能最先看到未來的地方。」
當涉及到授予 Gemini 存取應用程式的權限時,隱私疑慮隨之而來。Samat 表示,這就是為什麼 Google 在第一批任務自動化中沒有包含任何過於敏感的應用程式。他說這些數據不會用於廣告,且使用者可以刪除 Gemini 看到的數據。「我們確實認為讓人們對系統產生信任非常重要,而這來自於對其行為的控制和透明度。」
雖然目前仍需要智慧型手機螢幕來完成任務,但 Samat 預見未來你可以透過其他裝置啟動這些任務——例如一副智慧眼鏡、一個 AI 掛飾,甚至是汽車。(今年將有幾款搭載 Android XR 的新智慧眼鏡上市。)他說公司正在研究其他方法,讓最終的身分驗證能在這些裝置上完成。畢竟,你不會希望有人偷了你的智慧眼鏡後,叫 Gemini 訂購 55 個漢堡、55 份薯條、55 個塔可——好吧,你明白我的意思。