走進(jìn)今年 CVPR 的工業(yè)展區(qū),映入眼簾的是熟悉的 MEGVII 字眼和以藍(lán)色為主基調(diào)的展位,藍(lán)白相間的 booth roof 甚是亮眼,這多少讓記者有些驚訝。曠視,這家來(lái)自中國(guó)的計(jì)算機(jī)視覺獨(dú)角獸公司,竟然「霸占」了全世界頂尖學(xué)術(shù)會(huì)議的 C 位。
CVPR,全稱 IEEE 國(guó)際計(jì)算機(jī)視覺與模式識(shí)別會(huì)議,在計(jì)算機(jī)視覺領(lǐng)域是和 ECCV、ICCV 并稱的三大頂尖會(huì)議。今年的 CVPR 于當(dāng)?shù)貢r(shí)間 6 月 16 日在美國(guó)加州長(zhǎng)灘開幕,前后共 5 天,吸引了超過 9200 多名參會(huì)者、284 家贊助商和 104 家展商。論文方面,來(lái)自全球的 14,104 位作者提交了 5000 多篇論文。
不遠(yuǎn)千里來(lái)到長(zhǎng)灘會(huì)議中心的曠視研究員,在今年的 CVPR 上滿載而歸:拿下 6 個(gè)挑戰(zhàn)賽世界冠軍,包括自動(dòng)駕駛、細(xì)粒度識(shí)別等等,數(shù)量位列今年國(guó)內(nèi)參會(huì)公司之首;首次在 CVPR 舉辦研討會(huì)和挑戰(zhàn)賽,吸引了超過 300 多支隊(duì)伍注冊(cè)參加;14 篇論文入選了今年的 CVPR,比去年多出 6 篇,其中 1 篇入選口頭報(bào)告(Oral Presentation,5.6% 接收率)。
參加 CVPR 對(duì)以算法為核心的曠視有重要的戰(zhàn)略意義。2019 年伊始,在成立八年之際,曠視宣布了從品牌到戰(zhàn)略的全面升級(jí),并且確立了以算法為核心基因,圍繞計(jì)算視覺及相關(guān)傳感技術(shù)開發(fā)感知、控制、優(yōu)化算法,包括但不限于人臉識(shí)別、手勢(shì)識(shí)別、文字識(shí)別、物體檢測(cè)、視頻分析、三維重建、智能傳感與控制等機(jī)器學(xué)習(xí)技術(shù)。
一方面,學(xué)術(shù)會(huì)議的同行評(píng)議,是考驗(yàn)曠視技術(shù)的試金石;另一方面,曠視也在借此機(jī)會(huì)吸引人才,鼓勵(lì)學(xué)術(shù)界思考中國(guó)計(jì)算機(jī)視覺行業(yè)的特殊需求,并回饋研究社區(qū)。
曠視首席科學(xué)家和研究院院長(zhǎng)孫劍告訴機(jī)器之心,“在一次和姚期智先生(也是曠視學(xué)術(shù)委員會(huì)主席)的座談上,姚先生說的非常好:‘發(fā)表論文、參加學(xué)術(shù)會(huì)議,其實(shí)是有人對(duì)你的工作鼓掌,激勵(lì)你繼續(xù)前行。’”
6 項(xiàng)冠軍背后的算法優(yōu)勢(shì)
挑戰(zhàn)賽可以看成是技術(shù)預(yù)演的過程,處于研究和產(chǎn)品之間的環(huán)節(jié)。通過挑戰(zhàn)賽,研究員可以打造更好的集成架構(gòu)、優(yōu)化算法、測(cè)試極端情況,在挑戰(zhàn)賽上驗(yàn)證過的技術(shù)有助于加快產(chǎn)品落地。
今年,曠視橫掃了 6 個(gè)挑戰(zhàn)賽項(xiàng)目,涵蓋自動(dòng)駕駛、細(xì)粒度識(shí)別、終端圖像處理、3D 物體識(shí)別等眾多領(lǐng)域,且含金量都很高,分別是:
1.自動(dòng)駕駛方向
WAD nuScenes 3D Detection Challenge
WAD Domain Adaption Detection Challenge
WAD Domain Adaption Tracking Challenge
2.細(xì)粒度圖像識(shí)別
FGVC iNaturalist
FGVC Herbarium
3.圖像恢復(fù)和增強(qiáng)
NTIRE Real Image Denoising Challenge
以 iNaturalist 為例,這是細(xì)粒度圖像識(shí)別里的標(biāo)桿性比賽,要求參賽團(tuán)隊(duì)在上千種動(dòng)植物子類別中實(shí)現(xiàn)圖像識(shí)別,被看作是該領(lǐng)域的 ImageNet。iNaturalist 所屬的細(xì)粒度視頻分類(FGVC)研討會(huì),在 CVPR 上已經(jīng)舉辦過六屆。
曠視的參賽團(tuán)隊(duì)來(lái)自南京研究院,細(xì)粒度圖像分析是其基礎(chǔ)研究方向之一,他們也涉獵小樣本、深度學(xué)習(xí)、物體檢測(cè)、圖卷積等領(lǐng)域。南京研究院的負(fù)責(zé)人魏秀參告訴機(jī)器之心,今年 iNaturalist 的難度相比往年有所提升,主要體現(xiàn)在三個(gè)方面:
首先,數(shù)據(jù)集不僅涵蓋了一千多個(gè)動(dòng)植物品類,而且有些動(dòng)植物類別之間的差別普通人根本看不出,比如你知道下圖哪張是「白腹藍(lán)彩鹀」,哪張是「靛彩鹀」嗎?這些問題只有植物專家或者動(dòng)物專家才能回答。
上圖是靛彩鹀,下圖是白腹藍(lán)彩鹀
其次,這是一個(gè)長(zhǎng)尾分布的數(shù)據(jù)。所謂的長(zhǎng)尾分布指的是大約 20% 的類別包含 80% 的圖像,而 80% 的類別只覆蓋 20% 的數(shù)據(jù),所以整個(gè)數(shù)據(jù)集呈現(xiàn)指數(shù)遞減趨勢(shì),這對(duì)解決實(shí)際問題帶來(lái)了很大的挑戰(zhàn)性。
再者,除了識(shí)別動(dòng)植物,在具體的一個(gè)類別,還需要識(shí)別動(dòng)植物不同的發(fā)育期狀態(tài)。比如說一些兩棲動(dòng)物可能會(huì)有一些變態(tài)反應(yīng),不同的狀態(tài)需要進(jìn)行精細(xì)的甄別。
魏秀參介紹說,此次參加挑戰(zhàn)賽的模型集成了最前沿細(xì)粒度技術(shù)成果,包括 Coarse-to-fine hierarchical classification、iSQRT、Class-Balanced Focal Loss 等;同時(shí),團(tuán)隊(duì)也提出「后驗(yàn)概率重校準(zhǔn)」技術(shù),即通過先驗(yàn)知識(shí)對(duì)模型輸出的后驗(yàn)概率進(jìn)行校準(zhǔn),極大提高擁有較少訓(xùn)練圖像的長(zhǎng)尾類別的識(shí)別準(zhǔn)確率。最終結(jié)果,曠視在 iNaturalist 挑戰(zhàn)賽上比第二、三名領(lǐng)先了一個(gè)身位。
在另一個(gè)細(xì)粒度圖像識(shí)別的比賽 Herbarium Challenge(植物標(biāo)本挑戰(zhàn)賽)中,參賽團(tuán)隊(duì)需要從植物標(biāo)本中鑒定開花植物物種(Melastomes),數(shù)據(jù)來(lái)自紐約植物園。曠視擊敗了去年的冠軍、今年的第二名大連理工。
多說一個(gè)細(xì)節(jié):在細(xì)粒度圖像識(shí)別的挑戰(zhàn)賽上獲勝的模型使用了曠視自研的 Brain++ AutoML 技術(shù)。曠視內(nèi)部采用了 One-shot 神經(jīng)架構(gòu)搜索的方法,兼顧了性能、效率、靈活性,使得 Brain++ AutoML 可以在實(shí)際模型生成中實(shí)現(xiàn)快速落地和調(diào)用。
這是曠視南京研究院第一次參加 CVPR 的挑戰(zhàn)賽。從 2017 年組建至今,南京研究院希望將此機(jī)會(huì)將多年積累的技術(shù)放到國(guó)際舞臺(tái)上比一比。魏秀參后來(lái)透露,挑戰(zhàn)賽的勝利提升了團(tuán)隊(duì)的自信心和凝聚力。
相比于在 iNaturalist 挑戰(zhàn)賽上的突破,曠視研究院檢測(cè)組負(fù)責(zé)人俞剛帶隊(duì)獲得自動(dòng)駕駛挑戰(zhàn)賽三項(xiàng)冠軍更像是「常規(guī)操作」。在去年 CVPR 上,俞剛帶隊(duì)就獲得了自動(dòng)駕駛識(shí)別挑戰(zhàn)賽實(shí)例視頻分割(Instance-level Video Segmentation)的冠軍。今年,曠視分別在 BDD100K & D²-City 目標(biāo)檢測(cè)遷移學(xué)習(xí)挑戰(zhàn)賽、D²-City & BDD100K 目標(biāo)跟蹤遷移學(xué)習(xí)挑戰(zhàn)賽以及 nuScenes 3D 檢測(cè)上獲得冠軍。
俞剛(中)在 CVPR 現(xiàn)場(chǎng)領(lǐng)獎(jiǎng)
nuScenes 3D 檢測(cè)是此次自動(dòng)駕駛挑戰(zhàn)賽的一個(gè)亮點(diǎn)。nuScenes 是今年自動(dòng)駕駛公司 Aptiv 發(fā)布的一個(gè)全新數(shù)據(jù)集,除了包括每段 20 秒的 1000 個(gè)場(chǎng)景以及 140 萬(wàn)幅圖像外,該數(shù)據(jù)集使用了新的 3D 方法來(lái)整合物體檢測(cè),并且發(fā)布了 39 萬(wàn)個(gè)激光雷達(dá)掃描輸出。盡管曠視目前并未明確涉獵自動(dòng)駕駛業(yè)務(wù),但俞剛表示,曠視希望通過 3D 和 2D 的結(jié)合,提前布局以應(yīng)對(duì)未來(lái)精度敏感的產(chǎn)品落地。
在這項(xiàng)挑戰(zhàn)賽中,曠視設(shè)計(jì)了一個(gè)多尺度、多任務(wù)的模型,借助新型檢測(cè)網(wǎng)絡(luò),結(jié)合均衡采樣等策略,極大提高了模型的檢測(cè)精度,尤其是在小物體上。最終,曠視模型比官方基準(zhǔn)(45.3%)高出 18 個(gè)點(diǎn),達(dá)到 63.3%,比第二名也高出 8.8 個(gè)點(diǎn),擊敗了包括香港中文大學(xué)在內(nèi)的頂尖團(tuán)隊(duì)。
另外兩個(gè) D²-City & BDD100K 的場(chǎng)景遷移挑戰(zhàn)賽,看重的是算法的檢測(cè)和泛化能力。D²-City 是滴滴發(fā)布的大型數(shù)據(jù)集,而 BDD100K 則是去年加州伯克利大學(xué)發(fā)布的開源數(shù)據(jù)集。前者是國(guó)內(nèi)數(shù)據(jù),后者是美國(guó)路況,場(chǎng)景差異巨大,這就考驗(yàn)了算法在不同場(chǎng)景的遷移能力。
首次主辦挑戰(zhàn)賽,大型數(shù)據(jù)集助推科研發(fā)展
除了作為參賽者的身份外,曠視也首次在 CVPR 舉辦了研討會(huì)和挑戰(zhàn)賽——DIW 物體檢測(cè)挑戰(zhàn)賽(Detection In the Wild Challenge Workshop)。一家創(chuàng)業(yè)公司回饋社區(qū),加速技術(shù)推進(jìn)。這樣的做法確實(shí)令人驚喜。
國(guó)內(nèi)的技術(shù)公司在過去一直扮演著模仿和追趕的角色,但在人工智能時(shí)代,這些企業(yè)正逐步掌握話語(yǔ)權(quán)。眾多在工業(yè)界發(fā)現(xiàn)的問題學(xué)術(shù)界鮮有涉獵,只有在數(shù)據(jù)量龐大、場(chǎng)景多元的中國(guó)才能被挖掘出來(lái),這些問題的解決將對(duì)整個(gè)研究領(lǐng)域帶來(lái)巨大的推動(dòng)作用,但需要有公司拋磚引玉。這就是曠視正在做的事情。
曠視為物體檢測(cè)任務(wù)引入了兩個(gè)新的基準(zhǔn)挑戰(zhàn)賽:Objects365 和 CrowdHuman。Objects365 用于解決 365 個(gè)物體類別的大規(guī)模檢測(cè)問題。挑戰(zhàn)賽設(shè)置了兩個(gè)方向:60 萬(wàn)訓(xùn)練圖像上的所有 365 個(gè)物體類別、以及用于在訓(xùn)練圖像的子集上處理 100 個(gè)具有挑戰(zhàn)性的類別。而 CrowdHuman 是為人群人體檢測(cè)問題而設(shè)計(jì),數(shù)據(jù)集包含了 34 萬(wàn)人類實(shí)例。
本質(zhì)上,曠視希望通過挑戰(zhàn)賽的形式,由數(shù)據(jù)層面出發(fā)推動(dòng)算法性能,拉高技術(shù)的上限達(dá)到實(shí)際產(chǎn)品需要的水準(zhǔn)。俞剛負(fù)責(zé)此次挑戰(zhàn)賽的籌備,他告訴機(jī)器之心,此次挑戰(zhàn)賽總共有 300 多個(gè)隊(duì)伍報(bào)名注冊(cè),有 70 多個(gè)隊(duì)伍給出了實(shí)驗(yàn)結(jié)果。參賽的前幾名選手的結(jié)果比曠視內(nèi)部的基準(zhǔn)都高了很多,這給曠視帶來(lái)了許多創(chuàng)新思路。
DIW Workshop 現(xiàn)場(chǎng)
夜攝 Demo 展示:底層架構(gòu)加快產(chǎn)品轉(zhuǎn)化
自 2016 年起,CVPR 專門辟出一塊區(qū)域用作工業(yè)展區(qū),允許科技公司展示技術(shù)產(chǎn)品,增加和學(xué)界的交流。曠視今年帶來(lái)了 4 個(gè) demo:動(dòng)作控制街頭霸王對(duì)打、單攝視頻虛化、夜攝超畫質(zhì)以及 SLAM 機(jī)器人。
夜攝超畫質(zhì)的 demo 位于曠視 CVPR 展臺(tái)的一角,有一個(gè)用紙箱搭建的暗光環(huán)境,紙箱內(nèi)擺放了各種玩偶作為拍攝對(duì)象。用來(lái)測(cè)試的機(jī)型是剛剛搭載曠視夜攝技術(shù)的 Oppo Reno 10。
曠視超畫質(zhì)樣張展示(右),遇到有多點(diǎn)燈光等人工照明的城市風(fēng)光場(chǎng)景時(shí),曠視超畫質(zhì)技術(shù)都能給用戶帶來(lái)非凡的夜拍體驗(yàn)
經(jīng)過測(cè)試,機(jī)器之心記者發(fā)現(xiàn)該 demo 體現(xiàn)了兩個(gè)特點(diǎn):一是拍照速度快,和傳統(tǒng)夜攝功能要求握住手機(jī)拍攝幾秒不同,Oppo Reno 10 的夜攝拍照和平時(shí)拍照的速度差異不大;二是圖像細(xì)節(jié)逼真,因?yàn)榧埾淅镉忻€團(tuán),在暗光環(huán)境里手機(jī)依然能清晰地呈現(xiàn)出一根根毛線的細(xì)節(jié)。
目前,高端手機(jī)在正常光線下拍照下的成像差距不大,只有在極端情況才能體現(xiàn)差異,比如夜攝。去年谷歌發(fā)布的 Pixel 3 和今年華為發(fā)布的 P30 都依靠?jī)?yōu)秀的夜攝能力收獲了一票用戶。
但曠視的視覺專家王玨告訴機(jī)器之心,谷歌和華為背后所使用的圖像降噪方法依然有缺點(diǎn)。傳統(tǒng)的圖像降噪是用多幀降噪來(lái)彌補(bǔ)夜間進(jìn)光量不足的問題,歸根結(jié)底是圖像噪聲和信號(hào)比太高,通過照片疊加可以增強(qiáng)信號(hào)去掉噪聲,但弊端是需要拍多張并且保持手機(jī)不動(dòng),這需要用戶等上 3-4 秒的時(shí)間。手一抖就容易在照片出現(xiàn)拖影,也就是攝影界俗稱的「鬼影」。
王玨團(tuán)隊(duì)想到了針對(duì)原始圖像的神經(jīng)網(wǎng)絡(luò)方法。這條路過去幾乎沒有人走過,不僅僅是由于學(xué)界對(duì)原始圖像的圖像降噪還處于早期階段,體量巨大的神經(jīng)網(wǎng)絡(luò)模型如何在手機(jī)端上快速運(yùn)行是另一大挑戰(zhàn)。
一個(gè)看似簡(jiǎn)單的手機(jī)夜攝業(yè)務(wù),中間有許多不為人知的細(xì)節(jié)打磨。這個(gè)過程,既有研究思路上的創(chuàng)新:比如曠視研究員從上世紀(jì) 70、80 年代的一些經(jīng)典論文中研究了噪聲的統(tǒng)計(jì)規(guī)律和模擬的方法,研究了成像模式以后,數(shù)據(jù)生成的流程就被極大地簡(jiǎn)化。
同時(shí),也依賴于曠視內(nèi)部多年來(lái)的技術(shù)積累。王玨透露,公司內(nèi)部有一個(gè) Model Zoo 的「武器庫(kù)」,這個(gè)平臺(tái)存儲(chǔ)了許多模型,基于不同的平臺(tái)、功耗要求、運(yùn)算速度。研究團(tuán)隊(duì)基于自身業(yè)務(wù)的需求,只要從 Model Zoo 中挑選幾十個(gè)模型架構(gòu)加以微調(diào),就可以極大地加快開發(fā)速度。最終模型的大小只有 2.5G,整個(gè)拍照曝光時(shí)間控制在 300 毫秒左右。
項(xiàng)目落地之余,王玨也帶領(lǐng)團(tuán)隊(duì)「順便」參加了 CVPR 的去噪挑戰(zhàn)賽—NTIRE 2019 Real Image Denoising Challenge - Track 1: Raw-RGB,獲得了冠軍。團(tuán)隊(duì)在研討會(huì)上分享完技術(shù)細(xì)節(jié)后,臺(tái)下的來(lái)自谷歌和三星的研究員都對(duì)曠視如何能將模型做到這么小、在終端跑地那么快表示好奇。
王玨透露,這里面有曠視的底層系統(tǒng)化人工智能框架「曠視 Brain++」和人工智能數(shù)據(jù)管理平臺(tái)「曠視 Data++」的功勞。曠視從 2014 年開始就在開發(fā) Brain++Engine,在 TensorFlow 還未出世、Caffe 和 Theano 等機(jī)器學(xué)習(xí)框架不適用自身業(yè)務(wù)的年代,曠視希望通過「曠視 Brain++」打造一套端到端的算法引擎,打通從數(shù)據(jù)到部署的算法全要素、全流程生產(chǎn)。王玨說,他們的模型一旦訓(xùn)練完之后,Brain++Engine 可以做到一鍵打包在手機(jī)上封裝,實(shí)現(xiàn)終端優(yōu)化和加速。
「曠視 Data++」是另一個(gè)曠視自研的數(shù)據(jù)標(biāo)注和管理平臺(tái)。這可以節(jié)省研究員大量的時(shí)間,加速研究效率。前文提到的 Objects365 物體檢測(cè)數(shù)據(jù)集就是「曠視 Data++」提供的。
研究思路:應(yīng)用導(dǎo)向和前沿探索雙管齊下
此次曠視入選 CVPR 的 14 篇論文,涉及了行人重識(shí)別、場(chǎng)景文字檢測(cè)、全景分割、圖像超分辨率、語(yǔ)義分割、時(shí)空檢測(cè)等技術(shù)方向。除了應(yīng)用導(dǎo)向的工作以外,也探索了一些前沿學(xué)術(shù)問題。
孫劍是這樣總結(jié)的,“我們研究的的問題分兩類: 直接和產(chǎn)品相關(guān)的技術(shù)問題,間接和產(chǎn)品相關(guān)的基礎(chǔ)問題。”
“前者因?yàn)橛?lsquo;曠視 Brain++’這個(gè)系統(tǒng),可以很高效的將研發(fā)出來(lái)的技術(shù)或者算法模型直接應(yīng)該到產(chǎn)品上去。”
“后者的關(guān)鍵在于兩方面。一方面是選題,既不能搞短期的小修小補(bǔ),也不能搞漫無(wú)邊際的發(fā)散式研究,這是個(gè)認(rèn)識(shí)和判斷問題;另一方面是選題后的堅(jiān)持和變通?;A(chǔ)研究的一個(gè)很大特性是成功的可預(yù)測(cè)性低,這就要求既要我們堅(jiān)持大方向,也要懂得適時(shí)的變通,修正目標(biāo)或路線,這其實(shí)是個(gè)平衡問題。”
曠視目前的業(yè)務(wù)主線分為三塊:以手機(jī)為核心的個(gè)人設(shè)備大腦場(chǎng)景,以城市傳感器為核心的城市大腦場(chǎng)景,以及包含智能制造、智能物流、智能零售的供應(yīng)鏈大腦場(chǎng)景。
以曠視研究院物體檢測(cè)組為例,此次入選 CVPR 的 4 篇論文主要來(lái)自個(gè)人設(shè)備大腦和城市大腦的場(chǎng)景需求,將產(chǎn)品中遇到的問題抽象出一些概念和細(xì)節(jié),當(dāng)成研究問題去解決。
比如,來(lái)自曠視研究院檢測(cè)組的論文《Shape Robust Text Detection with Progressive Scale Expansion Network》提出了一種新穎的漸進(jìn)式尺度可拓展網(wǎng)絡(luò) PSENet 模型,針對(duì)場(chǎng)景文字檢測(cè)中任意形狀文本問題。
曠視的文字檢測(cè)技術(shù)有很多應(yīng)用落腳點(diǎn),比如車牌檢測(cè)、證件照檢測(cè)。這篇論文主要討論了場(chǎng)景文本檢測(cè)領(lǐng)域的兩個(gè)挑戰(zhàn):其一,邊界框在定位任意形狀的文字時(shí)的性能很差,精度很低;其二,對(duì)于場(chǎng)景中兩個(gè)彼此接近、互相干擾的文本,現(xiàn)有技術(shù)可能會(huì)產(chǎn)生誤檢。論文提出的 PSENet 模型能夠?yàn)槊總€(gè)文本實(shí)例生成不同比例的核 (kernel),并將最小比例的 kernel 逐步擴(kuò)展生成完整形狀比例的 kernel,以適應(yīng)不同大小的文本實(shí)例。
PSENet 模型的 pipeline
另一篇來(lái)自檢測(cè)組的論文《TACNet: Transition-Aware Context Network for Spatio-Temporal Action Detection》,在時(shí)空動(dòng)作檢測(cè)研究領(lǐng)域針對(duì)時(shí)間維度問題提出了網(wǎng)絡(luò)——TACNet(上下文轉(zhuǎn)換感知網(wǎng)絡(luò)),可以改善時(shí)空動(dòng)作檢測(cè)性能。這篇論文的應(yīng)用落腳點(diǎn)是動(dòng)作行為檢測(cè),針對(duì)城市管理領(lǐng)域的產(chǎn)品設(shè)計(jì)。以老人的意外摔倒為例,一個(gè)月可能都沒有發(fā)生一次意外,用人工檢測(cè)視頻里的摔倒行為成本很高,但是算法可以有效地檢測(cè)動(dòng)作行為。
這篇論文的主要貢獻(xiàn)是定義真實(shí)行為和非真實(shí)行為的邊界。TACNet(上下文轉(zhuǎn)換感知網(wǎng)絡(luò))可以將類似于真實(shí)行為的模糊狀態(tài)樣本定義為「轉(zhuǎn)換狀態(tài) (transitional states)」,簡(jiǎn)單來(lái)說是將視頻不重要的部分弱化,而將注意力放在真正產(chǎn)生動(dòng)作行為上。
轉(zhuǎn)換狀態(tài)是藍(lán)框,活動(dòng)狀態(tài)是綠框,黃框是 ground truth
同時(shí),曠視也在放眼未來(lái)做長(zhǎng)期的預(yù)演。國(guó)內(nèi)計(jì)算機(jī)視覺公司競(jìng)爭(zhēng)進(jìn)入白熱化,頭部公司之間的在已有技術(shù)上的差距并不明顯,要形成差異,必須著眼于計(jì)算機(jī)視覺的未來(lái),提前筑起技術(shù)優(yōu)勢(shì)壁壘。
曠視入選此次 CVPR 的論文中,關(guān)于 3D 點(diǎn)云結(jié)構(gòu)的研究和圖像超分辨率研究屬于前沿探索。以物體檢測(cè)為例,盡管目前大部分的計(jì)算機(jī)視覺工作都是圍繞 2D,但 2D 檢測(cè)本身存在天花板。其網(wǎng)絡(luò)結(jié)構(gòu)主要是一個(gè)金字塔形狀,圖像越卷積下去越小,特征圖譜丟失的信息越多,對(duì)檢測(cè)的最終結(jié)果有很大的影響。
除了調(diào)整 2D 網(wǎng)絡(luò)結(jié)構(gòu)做優(yōu)化之外,曠視認(rèn)為研究 3D 檢測(cè),與 2D 信息形成互補(bǔ)是一個(gè)趨勢(shì)。點(diǎn)云所提供的形狀信息對(duì)物體檢測(cè)和定位帶來(lái)有效的幫助,和 2D 信息的紋理顏色等特征互補(bǔ)。
在論文《Modeling Local Geometric Structure of 3D Point Clouds using Geo-CNN》中,曠視提出了 Geo-CNN 模型,將深度卷積神經(jīng)網(wǎng)絡(luò)應(yīng)用于 3D 點(diǎn)云數(shù)據(jù)局部區(qū)域中點(diǎn)的幾何結(jié)構(gòu)建模。
圖像超分辨率的論文《Zoom in with meta-SR: A Magnification-Arbitrary Network for Super-Resolution》來(lái)自曠視研究院基礎(chǔ)模型組,負(fù)責(zé)人張祥雨說,這篇研究背后的思路是基于權(quán)重預(yù)測(cè),這是他個(gè)人非常看好的一個(gè)研究方向。他們提出了一種稱為 meta-SR 的新方法,具體來(lái)說,meta-SR 可以通過將任意縮放因子作為輸入來(lái)動(dòng)態(tài)地預(yù)測(cè)每個(gè) upscale 濾波器的權(quán)重,并使用這些權(quán)重來(lái)生成其他任意大小的高分辨率圖像 (HR)。
基礎(chǔ)模型組在曠視研究院內(nèi)負(fù)責(zé)公司中長(zhǎng)期的研究項(xiàng)目,著重在前沿探索,包括權(quán)重預(yù)測(cè)、自動(dòng)化機(jī)器學(xué)習(xí)(AutoML)、邊界框標(biāo)注都是張祥雨的關(guān)注重點(diǎn)。
結(jié)語(yǔ):曠視的技術(shù)信仰
這是曠視第五次參加 CVPR 了。過去,中國(guó)公司參加學(xué)術(shù)會(huì)議更多是為了刷存在感,互相之間比拼論文數(shù)量非要爭(zhēng)個(gè)高低。但在今年 CVPR 上,記者能看到這家創(chuàng)業(yè)公司身上成長(zhǎng)的痕跡:
論文課題和產(chǎn)品落地之間有更緊密的聯(lián)系。寫論文的目的不是為了刷學(xué)術(shù)業(yè)績(jī),而是將科研結(jié)果轉(zhuǎn)化成產(chǎn)品競(jìng)爭(zhēng)力。通過學(xué)術(shù)會(huì)議獲得同行認(rèn)可,并最終帶來(lái)實(shí)際的商業(yè)價(jià)值。
曠視研究院算法總監(jiān)范浩強(qiáng)告訴機(jī)器之心,“曠視始終相信,要堅(jiān)持產(chǎn)品導(dǎo)向,為產(chǎn)品找技術(shù),用學(xué)界標(biāo)桿作為產(chǎn)品定義的牽引。”
成長(zhǎng)是一個(gè)過程,曠視經(jīng)歷過起步的艱辛,也走過不少?gòu)澛贰S釀傇?jīng)回憶,過去檢測(cè)組的成員都只能復(fù)現(xiàn)前沿的論文,他一直鼓勵(lì)研究員不要去抄代碼,自己去摸索論文細(xì)節(jié)來(lái)復(fù)現(xiàn)。經(jīng)過幾年的積累,團(tuán)隊(duì)開始主攻算法的自主研發(fā),贏了幾個(gè)挑戰(zhàn)賽后,團(tuán)隊(duì)也找到了方向和信心。
王玨對(duì)夜攝項(xiàng)目落地的感觸特別深,加入曠視之前,王玨是 Adobe 的首席科學(xué)家,在計(jì)算機(jī)視覺計(jì)算機(jī)圖形學(xué)和人機(jī)交互有著卓越的學(xué)術(shù)貢獻(xiàn)。在曠視,王玨的目標(biāo)是為開拓新的市場(chǎng)和業(yè)務(wù)線,提供強(qiáng)有力的技術(shù)支持,這需要王玨去適應(yīng)角色的轉(zhuǎn)變,從一個(gè)研究者到一個(gè)項(xiàng)目管理者。
“你怎么才能把研究做成一件可以預(yù)測(cè)的事情,工程追求的一種可控性,研究充滿了不確定性。在這兩者之間實(shí)際上是有矛盾的。經(jīng)過這個(gè)項(xiàng)目,我們現(xiàn)在就很從容,整個(gè)團(tuán)隊(duì)得到鍛煉,我們也知道怎么和客戶打交道。”
“我始終相信兩點(diǎn):中國(guó)不缺乏聰明人,中國(guó)有世界上最好的發(fā)展機(jī)會(huì),”孫劍補(bǔ)充道。“我們就是要把一幫聰明人聚起來(lái),齊心協(xié)力,貫徹‘發(fā)展就是硬道理’。”
今年的 CVPR 已經(jīng)落下帷幕,但曠視的故事還將繼續(xù)。