貓奴 | ChatGPT迎來“炸裂”升級!能看、能聽、會說,超級AI助理即將誕生?
ChatGPT又迎來大升級,這次是“多模態”,能開口說話,識別物體。
當地時間週一,OpenAI宣佈,將在ChatGPT推出新的語音和圖像功能,新功能將於未來兩週內面向Plus和企業用戶推出。
OpenAI介紹稱,ChatGPT推出的語音和圖像功能提供了一種新的、更直觀的界面,允許用戶進行語音對話或向ChatGPT顯示用戶正在談論的內容。新功能可以給用戶提供在生活中使用ChatGPT的更多方式:
1)用戶可以在旅行時拍下一張地標的照片,並就它的有趣之處與ChatGPT進行現場對話;
2)當用戶在家時,拍下冰箱和餐具室的照片,ChatGPT可以給出晚餐食譜;
3)如果用戶在幫自己的孩子做一道數學題,拍張照片,圈出題集,ChatGPT會給出提示。
新功能有哪些用途?
據OpenAI介紹,語音輸入功能類似於手機上的語音助手,用戶只需按下一個按鈕,說出自己的問題,ChatGPT 就會將其轉換爲文本,然後生成答案,再將答案轉換爲語音,播放給用戶。
OpenAI 還開發了一種新的文本轉語音模型,可以根據幾秒鐘的樣本語音,生成與之相似的人聲。用戶可以從五種選項中選擇 ChatGPT 的聲音,而且這種模型還有更多的潛在用途,包括將播客翻譯成其他語言,同時保留播客主持人的聲音。
OpenAI表示,它與配音演員合作,共同構建了該功能的文本到語音AI模型。
圖像輸入功能則類似於 Google Lens,用戶可以拍攝自己感興趣的事物,並上傳到 ChatGPT 中。ChatGPT會嘗試識別用戶想要詢問的內容,並給出相應的回答。用戶還可以用應用中的繪圖工具來幫助表達自己的問題,或者配合語音或文本輸入來進行交流。
OpenAI給出的例子是,用戶拍了一張自行車的圖片,詢問ChatGPT如何調低座椅,根據用戶的提問,ChatGPT很快識別出車座調節類型和需要的工具。
隨後,用戶又詢問其工具箱中哪個是所需的工具,ChatGPT也是成功識別,並提示用戶需要拿哪一個尺寸。
設想即將實現?
可以看出,ChatGPT的功能越來越強大,非常智能。此前,OpenAI首席執行官Sam Altman和比爾·蓋茨都曾對ChatGPT未來的應用前景進行設想。
Altman曾私下告訴開發者,希望將ChatGPT打造成“超級智能個人工作助理”,可以根據個人及工作需求執行多種任務,如按照用戶的風格起草郵件或文件,提供相關業務的最新信息。
蓋茨也曾表示,技術競賽將推動頂級AI助理的誕生,顛覆現有生產力,可能會從根本上改變用戶的行爲,乃至取代搜索和購物網站。
不過,ChatGPT也提示,這些功能也帶來了新的風險,例如惡意行爲者可能冒充公衆人物或實施欺詐。
編輯/ruby