AI一周見聞:谷歌從模型到應(yīng)用全面沖刺,OpenAI3D建模只需100秒,Meta開源新模型,AI學(xué)會(huì)人類感知 | 見智研究|天天視訊

每周日AI一周見聞與您相約。AI一周見聞涵蓋四大部分:每周見聞、企業(yè)新品發(fā)布、AI黑科技、下周看點(diǎn)。

每周見聞

本周要點(diǎn)匯總:

1、谷歌從模型到應(yīng)用全面進(jìn)擊AI,PaLM2讓Bard更強(qiáng)大,辦公套裝Workspace叫板Office。

2、3D建模大突破,OpenAI推出文本生成3D模型—Shap-E,生成3D模型從2分鐘優(yōu)化到100秒。


(資料圖)

3、Meta開源 ImageBind 新模型,AI學(xué)會(huì)人類感知,圖片是嫁接橋梁。

4、GPT4最強(qiáng)對(duì)手Claude史詩(shī)升級(jí),解讀百頁資料僅需一分鐘。

5、還有三種黑科技,AI超寫實(shí)數(shù)字人為何凸顯商業(yè)價(jià)值、AI更懂視頻等內(nèi)容。

企業(yè)新品發(fā)布

1、谷歌從模型到應(yīng)用全面進(jìn)擊AI

本周谷歌的I/O發(fā)布會(huì)備受矚目,新品發(fā)布效果超出市場(chǎng)的預(yù)期。谷歌不僅僅發(fā)布了新模型PaLM2,還將AI全面接入辦公套裝Workspace,直接叫板Office。

值得關(guān)注的是,新推出PalM2模型有四種大小,包括Gecko、Otter、Bison和Unicorn。Gecko作為最輕量的版本,可以部署到移動(dòng)端,易于微調(diào)各類細(xì)分模型,提供每秒處理20個(gè)token的能力。

此前大模型在邊緣側(cè)終端的應(yīng)用主要是依靠API接口調(diào)用的方式,大模型的訓(xùn)練和推理仍在云端進(jìn)行,對(duì)邊緣側(cè)終端及芯片形態(tài)更新沒有太大需求。

輕量化Gecko版本,能夠提供AIGC更為定制化、時(shí)延更低,安全性、隱私性更好的應(yīng)用,開拓AI模型在終端芯片推理的場(chǎng)景,邊緣側(cè)智能終端以及SoC有望全面升級(jí),進(jìn)入新的更新?lián)Q代周期。

見智研究認(rèn)為:谷歌的PalM2模型推出,能夠更好的驅(qū)動(dòng)機(jī)器人Bard升級(jí),不僅能夠使用100中語言回復(fù)用戶,多模態(tài)版本的Bard還更新了圖像、編程、應(yīng)用集成等功能;而且還在醫(yī)學(xué)上被認(rèn)達(dá)到臨床專家水平。

此外,PalM2大模型的又一亮點(diǎn)就是全球首個(gè)支持移動(dòng)端部署的大模型AI,被看做是點(diǎn)燃移動(dòng)邊緣端的Ai大模型競(jìng)賽。意味著大模型競(jìng)賽的路線現(xiàn)在已經(jīng)從PC端拓展到手機(jī)和IOT領(lǐng)域。

從谷歌的研發(fā)力和生態(tài)的角度來看:

在AI基礎(chǔ)設(shè)施上:A3虛擬機(jī)訓(xùn)練速度目前比其他設(shè)施快80%,成本低50%;Vertex AI平臺(tái)能夠給開發(fā)者提供多種基礎(chǔ)模型,用于微調(diào)從而盡快得到專屬模型。

在應(yīng)用生態(tài)上:谷歌搜索推出Converse的生成式AI功能,不僅能夠?qū)戉]件、寫文案、做表格、PPT能力直接對(duì)標(biāo)Office,而且在決定購(gòu)買性價(jià)比更好的產(chǎn)品時(shí)候特別有用。

之后最值得關(guān)注的是谷歌將推出基于Bard的拓展插件,擴(kuò)大機(jī)器人的應(yīng)用場(chǎng)景,比如讓Adobe 生成全新的圖像,用REDFIN進(jìn)行一個(gè)地區(qū)的所有房地產(chǎn)市場(chǎng)研究,購(gòu)物、訂酒店、找工作都不在話下。

2、3D建模重大突破,OpenAI推出文本生成3D模型—Shap-E

傳統(tǒng)3D模型需要開發(fā)者進(jìn)行手動(dòng)建模,而Shap-E模型可以只用過自然語言的描述創(chuàng)建3D模型,極大的提高了創(chuàng)作的效率和質(zhì)量。Shap-E模型可在GitHub上免費(fèi)獲得,并支持在PC上本地運(yùn)行。下載完所有文件和模型后,不需要聯(lián)網(wǎng)。最重要的是,它不需要OpenAI API密鑰,完全免費(fèi)。

見智研究認(rèn)為:Shap-E應(yīng)用于更常見的擴(kuò)散模型,與此前發(fā)布的Point-E模型區(qū)別在于:Shap-E直接創(chuàng)建物體的形狀和紋理,并采用稱為神經(jīng)輻射場(chǎng)(NeRF)的特征來克服早期模型的模糊性,使三維場(chǎng)景看起來像逼真的環(huán)境。Point-E是根據(jù)文本提示生成3D點(diǎn)云。

此外,每個(gè)Shap-E樣本在單個(gè)NVIDIA V13 GPU上生成大約需要100秒,Point-E將花費(fèi)多達(dá)兩分鐘的時(shí)間在同一硬件上渲染。因此Shap-E比Point-E運(yùn)行效率更快。

但該模型也仍有一定的缺陷,比如它在組合概念方面的能力有限,未來通過收集或生成更大的帶注釋的3D數(shù)據(jù)集可能有助于解決這些問題。生成的樣本通常看起來粗糙或缺乏細(xì)節(jié),編碼器有時(shí)會(huì)丟失詳細(xì)的紋理。

雖然文字生成3D模型暫且比不上圖片的呈現(xiàn)效果,但仍舊是未來一個(gè)重要的方向。

3、Meta開源ImageBind 新模型,AI學(xué)會(huì)人類感知

Meta在開源大模型的路上一騎絕塵,繼兩個(gè)月前開源LLaMA大模型之后,再次于5月9日開源了一個(gè)新的AI模型—— ImageBind。這個(gè)模型與眾不同之處便是可以將多個(gè)數(shù)據(jù)流連接在一起,包括文本、圖像/視頻和音頻、視覺、IMU、熱數(shù)據(jù)和深度(Depth)數(shù)據(jù)。這也是業(yè)界第一個(gè)能夠整合六種類型數(shù)據(jù)的模型。

見智研究認(rèn)為:ImageBind無需針對(duì)每一種可能性進(jìn)行訓(xùn)練,而是直接預(yù)測(cè)數(shù)據(jù)之間的聯(lián)系的方式類似于人類感知。

ImageBind 通過圖像的綁定屬性,將每個(gè)模態(tài)的嵌入與圖像嵌入對(duì)齊,即圖像與各種模式共存,可以作為連接這些模式的橋梁,例如利用網(wǎng)絡(luò)數(shù)據(jù)將文本與圖像連接起來,或者利用從帶有 IMU 傳感器的可穿戴相機(jī)中捕獲的視頻數(shù)據(jù)將運(yùn)動(dòng)與視頻連接起來。這對(duì)于多模態(tài)發(fā)展來說具有重大意義。

4、GPT4最強(qiáng)對(duì)手Claude史詩(shī)升級(jí),解讀百頁資料僅需一分鐘

據(jù)Anthropic官方介紹,升級(jí)后的Claude-100k版本,對(duì)話和任務(wù)處理能力雙雙得到極大提升。一方面,是“一次性可處理文本量”的增加,另一方面則是“記憶力”的增加。

見智研究認(rèn)為:此前大模型都存在對(duì)讀取超長(zhǎng)文本的困難,而Claude-100k打開此該領(lǐng)域的天花板,GPT-4也不過才做到3.2萬token,而Claude-100k能做到一次記憶10萬token;能學(xué)習(xí)論文、幾小時(shí)的博客、財(cái)報(bào)等等都不在話下,更重要的是它不僅能通讀全文總結(jié)其中的要點(diǎn),還能進(jìn)一步完成具體任務(wù),如寫代碼、整理表格等。本次更新對(duì)于機(jī)器文本學(xué)習(xí)來說是重大躍遷。

AI黑科技

1、 AI藝人、女友商業(yè)價(jià)值顯現(xiàn)

本周AI女友Caryn、“AI孫燕姿”都爆火出圈;無論是和網(wǎng)友談戀愛收費(fèi)每分鐘1美元 ,還是永生藝人,都讓數(shù)字人的商業(yè)價(jià)值備受矚目。

見智研究認(rèn)為:AI虛擬人、數(shù)字人商業(yè)價(jià)值的提高,本質(zhì)原因是AI讓建模數(shù)字人的成本大幅降低。此前,CG建模數(shù)字人的制作周期通常需要1-2個(gè)月,報(bào)價(jià)在百萬元左右不等,而現(xiàn)在AI建模技術(shù)的快速迭代,讓3D寫實(shí)數(shù)字人的價(jià)格降至千元級(jí)別。這也是為什么該應(yīng)用能夠快速進(jìn)行推廣的核心原因。

2、AI看視頻:檢索關(guān)鍵字,精準(zhǔn)卡位時(shí)間點(diǎn)

Twelve Labs能夠做到讓AI讀懂視頻,并且通過關(guān)鍵字搜索的方式從視頻中提取特征,例如動(dòng)作、對(duì)象、屏幕上的文本、語音和人物。


見智研究認(rèn)為:此功能必然是視頻創(chuàng)作者的福音,能夠讓機(jī)器批量檢索大量視頻,并且精準(zhǔn)定位所需要的視頻畫面,效率非常高。此功能是將視頻中的信息逐一定義為向量,從而實(shí)現(xiàn)快速檢索的功能。

3、 4D渲染—實(shí)現(xiàn)高清動(dòng)態(tài)還原

Synthesia Research 發(fā)布HumanRF(運(yùn)動(dòng)中人類的高保真神經(jīng)輻射場(chǎng)),通過視頻輸入來捕捉運(yùn)動(dòng)中人的全部外觀細(xì)節(jié),能夠讓合成的視頻更加高清,從4MP的分別率升級(jí)到12MP運(yùn)行。HumanRF極大的解決了攝像機(jī)拍攝后進(jìn)行高分辨率視頻合成的困難。


見智研究認(rèn)為:4D高清合成的突破性,對(duì)于視頻創(chuàng)作來說具有重大意義。當(dāng)下看到可以應(yīng)用場(chǎng)景包括電影制作、電腦游戲或視頻會(huì)議等,邊界還能夠不斷拓展到超寫實(shí)數(shù)字人的視頻生成領(lǐng)域。

下周關(guān)注重點(diǎn)

OpenAI向所有ChatGPT Plus 用戶開放聯(lián)網(wǎng)功能和眾多插件!從Alpha 到 Beta,它們將允許ChatGPT 訪問互聯(lián)網(wǎng)并使用70多個(gè)第三方插件。這些插件包括創(chuàng)建新網(wǎng)站,文本轉(zhuǎn)音頻,購(gòu)物比價(jià)下單,總結(jié)和分析PDF文檔,創(chuàng)建專屬自己的智能工作流等等,涵蓋日常生活的衣食住行各個(gè)方面。

風(fēng)險(xiǎn)提示及免責(zé)條款 市場(chǎng)有風(fēng)險(xiǎn),投資需謹(jǐn)慎。本文不構(gòu)成個(gè)人投資建議,也未考慮到個(gè)別用戶特殊的投資目標(biāo)、財(cái)務(wù)狀況或需要。用戶應(yīng)考慮本文中的任何意見、觀點(diǎn)或結(jié)論是否符合其特定狀況。據(jù)此投資,責(zé)任自負(fù)。

關(guān)鍵詞: