Computer Vision的入门课程。评价非常好,是Stanford Vision Lab 2016年的课程。
我是用百度云看的,没有字幕也能应付,如需字幕可以在网易云课堂观看。
第一讲是Computer Vision的导论,由Fei-Fei Li主讲,她之后就生孩子去了。
个人评价,同样是第一节导论课,P大很多课程相形见绌了。
以下是笔记。
首先她强调了vision的重要性,未来85%以上的Internet信息将由Pixel(image&video)组成。现在的sensor也越来越多,带来massive data。
然后她带我们review Computer Vision的历史。
首先是视觉的诞生,big bang of evolution,有说法是大量生物的出现源于视觉?,it’s where vision began.
然后是camera的诞生,视作视觉的copy,只是三维变为二维图片。这是物理工程界的大事件。
之后涉及到视觉加工处理的脑机制,生理学的内容。visual cortex(视觉皮质)在大脑后部,不同于嗅觉听觉的加工在其附近,是极其复杂的。哈佛学者首次发现edge的变化excite neurons。neuron根据edge形状按列排布。
然后和Computer Vision有关系了。科学家开始尝试extract edge structures,MIT1996年成立了第一个vision lab。CV正式诞生。
David Marr在《Vision》中提到视觉的两大特点:start with simple edge structures (not holistic thing);hierarchical. 这对deep learning有了建设性的意义。
21世纪初CV的第一个商用产品是real-time face detection(实时人脸识别),用到了camera中。
人们渐渐意识到我们识别一个物体,只需要它的轮廓,甚至几个features。接着,一些benchmark(基准)建立,来检测image recognization的水平。2012年是转折的一年,CNN(convolutional neural network,卷积神经网络)获得imagenet冠军,error rate大幅下降。
本次课程是CNN(deep learning的一种)在CV上的应用,但其实也局限在image recognization/detection/classification,还有其他CV分支,如perceptual grouping, 3D model,甚至和NLP结合输出一个故事(far beyond)等等。
李飞飞最后补充道:CNN历史可追溯到80年代,2012年的CNN和30年前并无数学上的差别,so why it works? 有两个方面:硬件性能的提升:CPU的transistor集成度提高1000倍(根据摩尔定律),而且现在有了NVIDIA的GPU加速(GPU更适合大规模机械性运算,详见知乎);dataset的增多,多了 107 倍,big data是Machine Learning的巨大推动力。
Computer Vision can better our lives.
第一节课感觉像听了托福听力讲座,有点意思。