第396章 我这有几千张gu你要吗(第2页)
宣讲安排在下午两点,是下午场的第二个报告。
现在是上午十点四十分。
时间够。
……
上午的大会主题报告,任少卿坐在后排,把论文草稿掏出来又过了一遍。
台上是一位西工大的老先生,做人脸识別做了二十多年,满头白髮,声音洪亮,ppt是黑底绿字的经典配色,一页一页往下翻,每一页都有至少三段话。
老先生讲的是基於可形变模型的人脸特徵点对齐,理论体系扎实、推导完备,是这个领域里毫无疑问的泰斗级工作。
任少卿认认真真地听,认认真真地鼓掌。
然后继续低头看自己的论文。
……
下午两点整,任少卿走上讲台。
报告厅里坐了大概七八十人,前排是几位头髮花白的老教授,中间是一群年龄不一的副教授和研究员,后排是一大片跟他差不多大乃至更年轻的博士生和硕士生。
任少卿把u盘插进去,屏幕上亮出报告封面:
《基於改进卷积神经网络的目標检测:突破传统特徵工程的范式》
他扫了一眼台下,做了个深呼吸。
“各位老师、各位同学,下午好。我叫任少卿,来自中科大与微软亚洲研究院的联合培养项目。今天我要跟大家分享的工作,核心出发点是一个我认为非常重要的问题——传统的手工特徵,在目標检测任务上,是不是已经遇到了天花板?”
后排有几个博士生坐直了一点。
前排的老先生们,表情没什么变化。
任少卿继续往下走。
他讲架构,讲他对alexnet的改进,讲数据增强,讲在pascalvoc上跑出来的结果。
讲得快,但逻辑清晰,每一步推进都有据可查。
讲到第七页,他把那张对比折线图放到了最大。
“……在相同的测试集上,我们的方法在map指標上比当前最优的dpm模型高出了11。3个百分点。这个差距,我认为不是调参层面的改进,而是底层特徵提取范式的本质性跃迁。”
报告厅里安静了大概两秒钟。
然后,前排左边第二个位置的老先生开口了。
任少卿认识这位老先生。
西安交大计算机视觉领域的老前辈,做了三十年图像处理,手底下出来的博士生如今遍布国內各大高校和研究院,標准的一代宗师。
“小伙子,”
老先生语气並不严厉,甚至带著点慈祥,
“你这个结果,训练的时候用了多少gpu?”
“四张nvidiagtx780,训练了大约十二天。”
老先生点了点头,慢条斯理地说:
“我想问你,这十二天、四张显卡跑出来的东西,在工程落地上怎么解决?你这个模型,推理一张图片需要多长时间?”
“目前大概是0。5到0。8秒每帧——”
“那实时检测呢?”
老先生温和地打断,
“工业摄像头要求的是25帧以上,你离这个目標还差多远?”
任少卿顿了一下。
——他当然知道差多远。他只是同样知道,五年后这个问题会变成什么样的答案。