發(fā)布會先是講了蘋果手表和耳機。
耳機產品中有兩個點讓作者比較驚喜,其中一個是AirPods4支持通過點頭和搖頭來對一些通知進行控制。
當用戶在雙手拿著東西的時候突然來電話了,這個時候就可以通過點頭來接聽電話,或是通過搖頭來拒接電話。
第二個點是耳機能夠識別用戶說話的聲音。當用戶戴著耳機聽音樂突然遇到了熟人。開始和熟人打招呼,這個時候耳機的音量就會自動降低,直到用戶和他的朋友結束這一次對話。耳機的音量會自動恢復。
這兩個場景都可以算是比較典型的痛點。蘋果也通過新技術解決了這兩個問題。其實整個發(fā)布會看下來,我們會發(fā)現(xiàn)蘋果很少說AI這個詞,一般會用機器學習,神經網絡等等來替代,其描述還是更準確一些。
講完了耳機之后就開始了整個發(fā)布會最重要的部分,開始講iPhone了。用一句話來形容iPhone和AI的關系庫克是這樣說的:“iphone16是為Apple Intelligence而設計的”?梢夾I技術的應用場景在新一代iPhone16中有多么被重視。
作為AI能力的基礎保障iPhone16的CPU升級到了18處理器,相對于上一代iPhone15的處理器跨越了兩代。這一點非常驚喜,具體的性能對比見下圖。
不只是CPU方面有明顯的性能提升,在GPU方面提升也非常巨大,相對于iPhone15提升達到了40%。
硬件性能的提升為iOS系統(tǒng)的各個AI技術的應用場景提供了優(yōu)秀的保障,下面就來iphopne16的三大重點改變。
一、iPhone16增加了一個實體按鈕
這個實體按鈕可以被設置成不同的功能。例如可以點擊直接開啟錄音或者是翻譯。還可以是某些APP里面某個具體的功能。
這種按鈕其實在國產手機努比亞Z60ultra里也有相同的設計,但是能夠自定義的能力范圍和蘋果相比還有一些差距。
這種差距對用戶體驗的影響還是比較大的,例如走路時走著走著突然想到了一個靈感,這個時候點擊一次就能開始錄音記錄和點擊兩三次區(qū)別非常大。
這個按鈕的核心意義就是進一步縮短用戶與手機中各種服務的距離。這個設計目標其實幾乎已經成為了各個手機廠商的共識。像近幾年出現(xiàn)的息屏顯示就是為了幫助用戶在手機完全沒有解鎖沒有點亮的狀態(tài)下能夠看到一些服務相關的信息。
包括鎖屏上可以進行的通知可以放置的。應用小部件都是基于同樣的目標產生的設計方案。國產手機廠商中OPPO曾經做了一些服務原子化的能力,也是基于這個目標。
除此之外,iPhone16還展示了其他幾種AI能力的具體應用。但實際上這些能力都沒有超出我們已經看到過的AI產品的能力。具體如下:
1、文字寫作能力
例如在郵件中可以基于用戶寫的內容進行改寫,使內容更加適合對話場景,例如更適合工作場景的語氣和措辭。
這個能力不僅限于在蘋果自家的應用中使用,按照發(fā)布會中的介紹,這個能力幾乎可以在任何第三方應用中使用是一個系統(tǒng)級的能力。
2、文字理解能力
這個能力主要會應用在一些提醒的場景中。例如在手機的通知中心以前我們只能根據(jù)通知的時間來進行排序,但是時間并不能代表這條通知是否重要。甚至會由于通知的排序。完全依照時間而導致我們錯過一些重要的信息。
而有了文字理解能力之后,系統(tǒng)就會去理解通知中包含的具體信息。例如可能可以識別廣告信息,把這些理解為不重要的信息,可能會識別某個聯(lián)系人發(fā)過來的內容,標記為一條重要的信息。
這樣就可以按照重要程度,至少可以按照重要和不重要兩類來對通知進行區(qū)分,幫助用戶獲取更重要的內容。
除了通知的場景,在郵件的場景這個能力也很重要。傳統(tǒng)的郵件除了標題之外,我們往往只能看到開頭的一兩行文字,而這一兩行文字往往又是一些無意義的文字。
下面這張圖片是作者郵箱中一封真實的郵件。他的本意是想提醒我。有一款我感興趣的游戲正在打折。引導用戶去購買。
但實際上在我沒有查看詳情之前,甚至無法知道具體是哪一款游戲正在打折。而恰恰是這個最重要的信息是無法被識別到的。
而有了文字理解能力之后就可以對郵件的內容形成摘要例如把上面那張圖片中的信息寫為艾爾登法環(huán)正在打9折,這樣就比現(xiàn)有的信息有效很多。
下面這張圖是蘋果發(fā)布會中的截圖:
3、圖/視頻理解能力
手機操作系統(tǒng)中對于圖片和視頻的理解能力主要會被應用在相冊應用的搜索功能上。這個能力其實已經并不新鮮了,我們在小米手機中就可通過搜索圖片中包含的內容來找到一張圖片。
而蘋果發(fā)布會展示的這項能力,好像在搜索條件的復雜程度上有一些突破。因為以作者實際的經歷來看,在小米中我只搜索過單個的物體,例如某個圖片中包含翅膀。
而蘋果發(fā)布會中演示的可以是一個帶有描述詞的長句子。這一能力具體的范圍可能還需要拿到真機之后才能確定。
4、圖/視頻生成能力
除搜索圖片之外,在使用已有的圖片生成視頻時,這一能力也很重要。其實就是找到很多有關系的圖片制作成一個影集視頻的功能。
對于圖片的生成,發(fā)布會中也用了聲中表情這個場景來進行演示。在輸入框中輸入文字就可以生成對應的表情圖片,如下圖:
紋身圖的能力我們都已經很熟悉了,但是作者確實覺得蘋果打的這個場景對于中國用戶來說不夠好。
因為微信中自帶的搜索表情包的能力。實際使用上要比單個的圖片生成體驗更好,可以有更多的選擇,更快的速度以及一些更有趣的內容。如下圖:
除了生成圖片之外,對于圖片的編輯能力蘋果也進行了介紹,這方面都是老生常談了,就不詳細展開了。
重點來了!!
如果說這次發(fā)布會中選出三個最重要的內容的話,那么作者覺得有兩個是硬件上的改動。一個是軟件層面的新東西。
二、脫胎換骨的siri
以前的Siri雖然也能回答一些簡單的問題,但是對于控制手機方面的能力是非常弱的,而全新的Siri可以完成非常復雜的任務。
例如通過語音操控就可以完成打開某個應用。找到特定信息,再把它分享給另一個應用中的某個聯(lián)系人。對于操作系統(tǒng)的控制可以貫穿于多個應用和幾乎全量信息之中。
按照蘋果官網的介紹,在買票的場景下可以自動找到對應的身份號碼完成買票的操作。
如果用戶和他的朋友在某個聊天產品中進行對話,他的朋友推薦了一首歌,這個時候用戶可以直接向Siri發(fā)布播放的命令。
Siri可以識別到屏幕上的內容。準確理解用戶的意圖,完成播放任務,這種基于屏幕內容識別和大量上下文記憶的能力在長期使用的設備中意義非常重大,可以減少非常多信息的重復表述,提升操作效率。
全新的Siri其實更像是一個通用Chatbot了。除了上面所說的完成任務之外,還可以像使用ChatGPT那樣與他進行對話,回答問題的能力生成內容的能力都有了極大的提升。
尤其是對話時,對于信息的識別接收能力變得非常強,在對話式交互的過程中,有一個難點就是在沒有練習過的句子人類很難非常流暢的完成表達。
一般可能會有多次的停頓或者是錯誤的讀音,說錯的信息等等。大家可以聯(lián)想一下在微信里發(fā)語音的過程,我們是不是經常會遇到說錯了話之后取消發(fā)送,又不得不重新從頭兒開始講的時候。
這種方式其實對語音交互的效率影響非常大,而蘋果這次演示的與Siri對話的過程,即使用戶說的話是磕磕巴巴的,還有錯誤,然后又糾正。最后依然得到了正確的結果。
這種能力其實有點像現(xiàn)在的語音筆記產品。都是對于一些非常口語化的,容易出錯的語音內容進行識別之后,再用大模型的能力進行糾正改寫,然后得到一些更為正確的書面化的信息。
這個過程是讓命令更準確的過程,也是讓機器能以更高成功率完成任務的能力。
三、最后一個重點是相機控制按鈕
要注意這個按鈕和我們剛才所說的自定義功能按鈕并不是一個而是兩個獨立的按鈕,在最新的iPhone16上,右側是開機和相機按鈕,左側是自定義功能按鈕以及音量按鈕。
雖然發(fā)布會中把這個按鈕也稱作相機相機。但仔細的理解之后就會發(fā)現(xiàn)這個按鈕其實是Apple Intelligence的重要交互入口。
作為相機的控制方式,這個按鈕雖然實現(xiàn)了更快速的打開相機進行抓拍,并且也能夠通過單擊,雙擊,滑動等等方式快速方便的使用相機相關的功能。
但作者覺得這個按鈕更應該被理解成Apple Intelligence的入口。
原因是蘋果把相機作為了設備與環(huán)境交互的最重要媒介。就像發(fā)布會中演示的,通過相機可以識別一家。餐廳,然后去看這家餐廳相關的評價,找到預定這家餐廳位置的入口。
其他的場景還有拍照搜索商品。在路上看到了一個很喜歡的自行車。直接用這個按鈕調用相機之后就可以通過谷歌找到相同商品的購買鏈接。
這方面的應用非常重要。就像現(xiàn)在國內都在做的AI搜索產品,其實還沒有一個明確的商業(yè)模式。
之前在和一些做AI搜索產品的朋友交流時也會發(fā)現(xiàn),大家其實都能夠意識到搜索后服務是比較重要的,但是Aftersearch能夠關聯(lián)上什么服務還沒有一個明確的答案。
有的公司認為是要做內容社區(qū),但是作者覺得這個方向比較遠,也比較虛。有的公司覺得是要做個人知識庫。相對靠譜一些但成功的幾率也不是很大。
電商其實是一種變現(xiàn)模式非常明確的選擇,但是產品得成為流量的來源才可以。就像上面所說的蘋果選擇了相機作為設備與環(huán)境交互的主要媒介就存在這個潛力,用戶的很多種需求的起點都有可能變成相機。
如果用戶能夠形成把相機作為很多種目的的起點。那么后續(xù)可以銜接的其他業(yè)務就非常多了。并且這種交互方式相對于GUI界面的點擊方式也存在效率上的優(yōu)勢。
整個發(fā)布會在作者認知中的三大重點已經講完了~
|