请选择 进入手机版 | 继续访问电脑版
设为首页收藏本站

一起SAT论坛

 找回密码
 立即注册

QQ登录

只需一步,快速开始

更多»
搜索
热搜: 活动 交友 discuz
查看: 1479|回复: 2

[经验分享] 李飞飞:从清洁工到斯坦福教授,我是如何成功逆袭的?

[复制链接]

176

主题

337

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
11641
发表于 2017-3-1 23:13:45 | 显示全部楼层 |阅读模式

做清洁工、中餐馆收银员,帮人遛狗,开干洗店……
这些事情,你能和深受爱戴的斯坦福人工智能实验室和计算机视觉实验室负责人——李飞飞教授联系到一起嘛?
16岁从中国来美国追梦,为了梦想成真一路上她做过太多奇奇怪怪的事。
幸运的是,她的智慧笃定和不忘初心成就了她的今天。
“作为人工智能领域的领导者之一,对于开创那些最前沿、可以造福人类的技术,以及培养出未来可以做这些贡献的技术人才,我始终抱有极大的热情和责任。”飞飞教授如是说。“我觉得这是我的夙愿和使命。”
同时,她也是技术工业领域“种族多样性”的坚定拥护者。
“我目睹了太多天赋异禀的斯坦福博士生却因为签证的事情困扰不已,我实在对给这些天才们设置如此多的关卡障碍这件事感到不可理喻。”
作为众多美国移民中的一员,她深知移民这条路上所要做的牺牲和强大的意志力。
当她在普林斯顿大学读书时,为了让她的父母在美国谋生,她四处和朋友、甚至中学数学老师借钱,买下了一家干洗店。为了生计,她不得不平时上课,周末在干洗店打工。
在她读研究生期间,她的母亲查出来癌症和中风,一夜之间仿佛天塌了一般。“最现实的生存挑战是如何全力以赴、如何身兼重任并诚实的面对心中的梦想。”回忆起那段往事,飞飞教授感慨道。
近日,李飞飞教授被纽约卡内基集团授予“2016年优秀移民(Great Immigrant of 2016)”的称号。卡内基集团(the Carnegie Corporation)是美国最权威的授予机构,每年,他们会选出约40名的已入籍移民予以表彰,以奖励他们对美国社会所做出的显著贡献。
李飞飞教授接受了CNNMoney记者的采访,将门编译了这篇文章,和您一起分享她的美国梦。
李飞飞幼年和父母在中国的合影
问:你初到美国的生活是怎样的?
虽然我的父母都是知识分子,但是他们不会说英文。因此,虽然有着一颗工程师和科学家的心,我的父亲只能做相机修理工作,母亲则是一名收银员。
我们没有钱,为了学业我做了各种各样的工作。但我没有因此而感到沮丧,因为我的家人和我一样为了生计在努力工作,我们相互扶持,共同度过难关。
我需要从头开始学英文,但我的学习成绩还不错——特别是数学和科学。
我所在的Parsippany 高中在新泽西州只是中等,但在那里我遇到了很多对我关怀备至的老师们,他们帮我一起度过了这个难关。毕业时我的成绩在班里是第六名。
李飞飞在她的高中
问:你是否真的融入了Parsippany的集体中?
我们也有一些移民来的朋友,但大家都一样,为了生计忙碌着。
我在高中时期没有特别多的朋友。那是一段残酷的时光,我不是很喜欢那时的自己。但我的高中老师是一个白人,他的关心真的帮了我很多。
至今我仍十分感念那些在Parsippany中学帮助过我的老师们。作为一个毫不起眼、一句英文都不会说的外来学生,他们的关心令我倍加难忘。
问:什么曾是你经历过的最大的挑战?
探寻知识和真理是流淌在我的血液里的基因。我希望可以了解全宇宙、可以成为一个富有理性思维的人。
我申请了一堆学校,但只有普林斯顿给了我差不多全额的奖学金。
这是早期时候在当地的报纸上对李飞飞的一篇报道
在我移民到美国的头两年,我的大部分时间都是中国餐馆和洗衣房里度过。直到我到了普林斯顿,才开始了身边被优秀的人才所环绕的日子。
因此,我好爱普林斯顿。
但与此同时,我在Parsippany的家人的生活却很艰难。
我决定给他们买下一家干洗店,这样他们就可以以此为生。每天放学后,我通过电话来帮助他们。
对我来说,这像是一个双城生活的故事。周一到周五,我是普林斯顿物理系的学生,到了周末,我回到Parsippany,帮家里打理洗衣店的生意。在那个时候,有很多人都辍学开起了干洗店。
李飞飞在西藏追寻梦想的身影
1999年我本科毕业时,刚好赶上了大牛市。好多人都拿到了来自华尔街的offer。但那个时候,我希望能去西藏,在那儿做一年的藏药研究。这听上去是不是有些疯狂。
之后,我的梦想是去读一个PhD,尽管在这期间我一分钱也挣不到。
作为中国人的女儿,我心中有强烈地要照顾好我的父母的责任感。如果高盛给我一个报酬丰厚的工作,我就会分心。虽然只要我接受了这个工作,就能缓解我父母经济上的困难。所以,尽管被很多投资银行和管理咨询公司邀请去参加他们的面试,我都没有去。很多年以后,麦肯锡给我发了offer,我也没有接受。对我来说,真正的挑战是,你需要充分发挥自己的潜力,同时兼顾自己所身负的责任,然后又必须忠于自己的内心。
不过,我的父母非常支持我的想法。他们当初来到美国是为了追寻自己的梦想,所以他们认为我也应该去追求自己的梦想。
之后,我去了加州理工学院,攻读人工智能和计算神经科学方向的博士学位。在那个时候,我的母亲得了癌症,后来又中风了。我们共同渡过了一段很艰难的日子,但幸好我们一起走了过来。
李飞飞在普林斯顿毕业
问:你是如何克服这些困难的?
我是一个拼命三郎,这是我的DNA使然。如果我老是在感叹为什么会有那么多的困难,对我来说,是一件很分散注意力的事情。还好我的父母、我的老师们,都在我的身后支持着我。
其实支持你的人不需要很多,可能就是那么几个人,你的人生就发生了巨大的改变。
问:你希望你能给你的孩子留下些什么?
这是一个很有意思的问题。我希望能尽自己最大的努力,去为自己的孩子创建一个更美好的世界。
问:现在有哪些你日常在做的事正在帮助你达成这个目标?
和我的孩子们在一起玩耍和观察就是一件吧。我的研究领域是智能(intelligence)。我的孩子们给了我太多关于到底什么是智能的启发。看着孩子们成长、变得越来越聪明,这是一件充满乐趣的事情。
这听上去有点极客,但我相信“爱”是这背后终极支撑的力量。作为一个技术人士,我会一直把它记在心里。
http://www.etchina.com.cn/30308.html


回复

使用道具 举报

176

主题

337

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
11641
 楼主| 发表于 2017-3-1 23:19:44 | 显示全部楼层
李飞飞最新论文:用深度学习和谷歌街景估算美国人口结构


  雷锋网按:最近,一篇名为《Using Deep Learning and Google Street View to Estimate the Demographic Makeup of the US》的论文发布到了arxiv.org上,作为这篇论文的联合作者之一,李飞飞在她的推特上向公众推荐了这篇论文。这篇论文主要论述了如何将谷歌街景车搜集来的机动车辆数据,结合机器学习算法,从而估算出本地区人口的特征和组成,甚至这一地区居民的政治倾向。




  下面是这篇论文的一些节选内容,原文地址为:https://arxiv.org/abs/1702.06683。由雷锋网编译。


  几千年来,统治者和政策制定者进行全国人口调查,用来搜集人口数据。在美国,最细致的人口调查工作就是“美国社区调差”(ACS),由美国普查局执行,每年花费10亿美元和6500人以上的人力。这是一个劳动密集型数据搜集过程。


  最近几年,计算方法崛起成为解决社会科学领域问题的有效方法。比如用Twitter上的数据预测失业率、使用书里的大量文本分析文化等等。这些例子表明,计算方法可以促进社会经济领域的研究发展,最终可以详细、实时地分析人口趋势,并且成本很便宜。


  我们的研究表明,结合公共数据和机器学习方法,可以得到社会经济数据和美国人的政治倾向。我们的流程里,针对几个城市耗费少量人力来搜集数据,然后用来预测全美的状况。


  具体而言,我们分析了由谷歌街景汽车在200个城市里搜集来的5000万张图片。我们的数据主要是关于机动车辆,因为90%的美国家庭都拥有至少一辆汽车,而且人们对汽车的选择受到多种人口因素的影响,包括家庭需求、个人偏好和资金等。


  基于深度学习的CNN计算机视觉框架,不仅能够在复杂的街景下识别出汽车,还能鉴定出一系列汽车特征,包括材料、型号和年份。对于一个未经训练的人来说,汽车之间的不同是难以发觉的。比如,同一型号的汽车,不同年份的在尾灯有微小变化(比如2007产的Honda Accord和2008年产Honda Accord)。然而,我们的系统就能够将汽车分成2657类,每张图片的分析时间只需0.2秒。该系统可以在2周时间里对5000万张图片分类,而一个专业的人类分类员,假设他每张需要10秒时间,将会花费15年的时间完成这个任务。






  利用谷歌街景汽车搜集来5000万张图片,我们使用图像识别算法(Deformable Part Model)来学习自动搜集汽车图片。搜集每一辆汽车图片后,我们部署CNN模型,用来进行物体分类,来判定每一辆车的材料、型号、车型和年份。然后,我们根据城镇名字分类数据库,划分到两个数据库里。第一个是"训练库",包含了所有名字以A、B、 C开头的地区,这个数据库包括了35个城市,训练产生模型;第二个是“测试库”,包括所有名字以D、Z为开头的地区,这个数据库用来提升模型。


  我们总共搜集了2200万辆(占全美汽车总数8%)汽车的数据,用来准确估算这个地区的收入、种族、教育和投票程式(voting pattern)。结果显示出的关系出人意料的简单和有力。比如,如果在一个城市里15分钟的车程中,遇到的轿车数量高于卡车数量,那么这个城市倾向于在下届大选中投票给民主党(88%几率);反之则倾向于投票给共和党(82%)。我们的结果表明,自动系统监测使用良好的空间分辨率,能够接近实时地监测人口趋势,可以有效地辅助劳动密集型的调查方法。
http://tech.sina.com.cn/it/2017-02-28/doc-ifyavvsk3846510.shtml

回复 支持 反对

使用道具 举报

176

主题

337

帖子

1万

积分

管理员

Rank: 9Rank: 9Rank: 9

积分
11641
 楼主| 发表于 2017-3-1 23:43:29 | 显示全部楼层
谷歌云首席科学家李飞飞:人工智能的过去与未来
2017-01-14 17:08:49
DoNews 1月14日消息(记者 周勤燕)斯坦福大学计算机系终身教授、人工智能实验室主任,谷歌云首席科学家李飞飞今日参加在2017年极客公园创新大会,并发表主题演讲。李飞飞在演讲中回顾了人工智能在过去60年间经历了的发展阶段,并展望了人工智能的未来。

李飞飞指出,人类的历史有上千年,但人工智能只有大概 60 年的历史。“60 年代、70 年代、80 年代的人工智能, 没有我们预期的做得那么好,问题出在它的演进的过程。到了 80 年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。”

此后又出现了“神经网络”这个算法,并且在2012年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命,所以很多人说,Deep Learning(深度学习) 的三个 Ingredients(元素) : Algorithms(算法)Data(数据)和 Computation(运算)。它给我们带来了一次革命性的飞跃。

Language(语言)和 Vision(视觉),是最近人工智能界非常关注的点。未来人工智能将发展到什么程度呢?李飞飞以一幅图片举例,现在计算机视觉可以告诉一张图里有一些人,这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N 句话。未来,我们将可以看到这里面的人是谁,他们的关系是什么,他们的情绪是什么,这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。(完)

以下是李飞飞的现场演讲内容:

我今天带来的,是比较学术的演讲。我想跟大家分享一下人工智能,站在我自己的实验室的角度,过去的发展的路径,和我们最近在做的一些工作。

人工智能到今天,已经带来了一场革命的开始,不管是天上、地下、云上、手机上,我们都会看到它给我们带来的一些兴奋的可能性。

其实,智能这个问题,从人类文明的最初期,有了人,就有了这个问题。人工智能没有那么长的时间,人类的历史有上千年的历史,但人工智能只有大概 60 年的历史。人工智能的早期,一个奠基性的人物是 Alan Turing ,大家都知道 Turing 是个数学家。大概在五六十年前,Turing 开始思考,怎么去创造一个 Thinking  Machine。他说:要建造一个智能的机器的话,可能最好的方法就是,通过最好的感官来提供给它,让它能够学会并且使用应用语言。

智能的 Machine,它需要两个特别重要的元素:

1、感知。我们可以看人最大的感知系统是视觉,人还有其他的感知系统,机器也可以有其它的感知系统,但视觉是一个最大的感知系统。

2、对含义的理解和推断。语言是人类最特别的一个能力,大多数人都会同意,动物是没有这样的能力的。

所以,Turing 远远没有建立起人工智能这个领域。但是,他带来了最起初的一些重要的思想元素:我们要做一个会思考的机器,里面需要包括:视觉、语言。

Turing 之后,有这么一位科学家,他是计算机界的一位泰斗,是跟马文·明斯基在 MIT 第一批读人工智能的博士生,后来他到斯坦福做教授,他的名字叫 Terry  Winograd。

Terry 是人工智能界,第一代把 Turing 的思想贯穿下去的人。他不光在人工智能领域做了最重要的工作,而且他后来转行去做人机交互,也把这个领域重新带动了起来。

Terry 带来了什么?Terry 把人工智能应用在了怎么去建造一个思考的机器上。他说一个人,或者一个机器,要去理解世界,需要去感知。感知以后,需要做的第一件事是对这个世界的结构进行理解。

这叫 Syntax  Understanding。Syntax 在自然语言处理领域叫语法,在计算机视觉这个领域可能叫三维结构。Terry 说,Syntax 以后,我们需要理解 Semantics(语义)。Semantis 做的事情就是 Understanding  Meaning(了解含义),语言有语言的含义,视觉有物体、有动作,有视觉的含义。

最后,当我们把 Semantics 和 Syntax 解决以后,智能的机器或者是人,主要解决的问题就是 Inference,Inference 就是统计推导、统计推理这个过程。

所以在 Terry 看来  ,要实现人工智能,需要有这 3 个要素:Syntax、Semantics、Inference。

有了这样的思想框架做引导,Terry 写了一篇在人工智能历史上非常重要的博士毕业论文。这个论文给了我们一个 System,我不知道在座有没有同行们听说过这个 SHRDLU,它用一个像积木一样的世界,用积木搭建了一个世界,在这个世界里,让我们来完成 Syntax(语法)、Semantics(语义)、Inference(推导)这样的 loop(循环)。

这篇论文是 70 年代初写的,从 70 年代初一直到 80 年代末 90 年代,其实,人工智能貌似没有太多的发展。为什么呢?如果 70 年代就有一个计算机系统,可以理解人的指令。为什么我们到 2016 年,才关注到人工智能?2016 年,亚马逊的 Echo 和 Alexa,也好像做的事情区别不大。

为什么 60 年代、70 年代、80 年代的人工智能,  没有我们预期的做得那么好,问题出在它的演进的过程。

在机器学习这个领域崛起之前,人工智能的系统都是 hand-design rules,这个 rule 十分复杂,而且都完全是用手工,用科学家的聪明的脑袋,想出来的 rule。

这些 rule,会有什么样的问题?其实 Terry 这样绝顶聪明的人,他能建立这个系统,这个 rule 肯定已经是包罗万象了,但是这些 rule 还是有 3 个比较大的致命问题:

1、Scalable(可扩展的)。你不可能把天下所有的 rule,都写进一个程序。

2、Adaptable(可适应的)。当你给系统设计这个 rule 的时候,你很难把它转换到另外一个 rule。比如说,英文的语法、语义,我可以设计很多 rule。可是,我要把它放进中文,它的语法就完全不一样了,我就得重新设计出来一套 rule。

3、它是一个 Closed  word。

所以说,Hand-design  Rules 在 AI 这个领域发展的早期,给我们带来了一些曙光,但是它并没有把我们带进真正的光明。到了 80 年代开始,一个重要的子领域在人工智能领域开始发展,就是机器学习。

机器学习是什么呢?机器学习和传统学习最大的区别,我在这里给大家画出来了。你可以想象,传统的学习,是用人认识这个知识,然后再灌输给它,让机器学习,这就像 Terry 他们做的事情一样。

但是,机器学习不一样,机器学习是把认知知识这一层给省掉了,可以直接把数据放进学习组件,让这个学习组件去学习一个知识,这个知识可以发挥作用。

但最近一个特别重要的算法,就是所谓的 Artificial Neural Network,从 80 年代开始,它叫神经网络。神经网络有很长的历史,50 年代 Rosenbatt 就提出了 PERCEPTRON 这个概念,这个概念就是把这些细胞怎么结合起来,然后一层一层地输入数据,然后输出结果(take layers of input and take output)。

到了 60 年代初,一个重要的神经生物学的发现,又推动了这个思路,这就是 Huble and Wiesel,在通过对猫的脑子做实验的时候发现,哺乳动物视觉的感知,实际就有这种神经网络的概念,它是一层一层的细胞不断的推进,从简单的层面到复杂的层面。

到了 1980 年,70 年代末,一个重要的日本计算机科学家,叫 Fukushima,做出了第一个 Neocognnitron 的神经网络,可以识别数字和字母。

到了 90 年代末,通过 Geoffrey Hinton、Yan LeCun 进一步的把学习的 rules 更优化了以后,就出现了今天大家比较熟悉的卷积神经网络。

最近,给我们带来最大的一次神经网络,或者叫深度学习冲击的 work,是 2012 年 Alex Krizhevsky 和他的导师 Geoffrey Hinton,一块写的 AlexNet,其实 AlexNet 和 1998 年的 Convolutional Neural Networks 区别不大。但是,为什么在 2012 年这个大致的历史时期,深度学习和神经网络发生了一次井喷式的成长和革命呢?是因为 3 个重要的因素:

1、这些算法的不断优化和成长。

2、互联网给我们带来的海量数据,这也是我和我的学生们,在 9 年前做的一项工作 ImageNet。

3、硬件的发展。

所以很多人就说,Deep Learning 的三个 Ingredients : Algorithms(算法)Data(数据)和 Computation(运算)。它给我们带来了一次革命性的飞跃。

有了这个深度学习和机器学习的崛起,我们其实可以重新回到 Turing 和 Terry 给我们搭建的 AI 大的思路和框架里,重新解决一些在没有机器学习前完全解决不了的问题。

比如说,计算机视觉里面 Syntax 这个问题,这个问题实际上就是三维场景的结构,视觉世界的结构。这个问题,在过去的二三十年,有了长足的发展,用了很多跟机器学习的方法。今天,为什么无人车可以开始产业化,在算法方面很大的原因要感谢 3D 视觉,这几十年来的成就。这是其中一部分。

第二部分,我们说 Semantics 这个问题,在计算机视觉里面它是物体分类、场景分类、物体切割这些。这个领域,也是在这几年有蓬勃的发展,我们 Image Captioning 团队一直在主持一个国际上的竞赛。从 2010 年开始,一直到 2015 年、2016 年,机器的进步,已经基本上达到了,甚至它有时候超越了人的水平。你现在看到的这幅图是机器的错误率,2010 年第一界 Image Captioning 的时候,错误率还在 28% 左右。到了去年 2015 年,这个错误率已经到了 3.6%,人也差不多就是这个水平。所以,这是一个非常长足的进步。

刚才,我给大家分享的是两个单独的元素:Syntax、Semantics。其实,就像 Terry 提出的一样,要真正做好 AI,要把这些元素全部结合起来。我们一步一步来看,下一步要结合的是 Syntax、Semantics 在计算机视觉里面它就是场景结构和语义,或者物体含义,一块的融合。

这项工作,也有不少人做,前段时间斯坦福的另外一位计算机视觉教授搜沃塞维塞西,他们做了项比较重要的工作,就把这个 3D 的建模和物体场景的识别,结合起来了。

我们再往下推进一步,可以看出,我们现在在尽量完善这个图片。我们现在把 Language 加进来,结合 Vision,这是 Turing 给我们提出来的人的智能终极目标之一。

所以,Language 和 Vision,是最近人工智能界非常关注的点。

下面这个工作,主要结合的是 Syntax 和 Inference,它结合了 Semantics,这是我的实验室最近和 Facebook 的一次合作。我们联合发现了一个 Benchmark(基准),它的意义是什么呢?我们跟 ImageNet 比较一下,ImageNet 主要在测试机器对 Semantics 的认知能力,就是物体分类。

这项工作,我们把它取名叫 CLEVR,它测试的是机器对 Language Vision 在 Syntax 和 Inference 方面能达到多好,它跟 ImageNet 基本上是反的。

具体是怎么做呢?具体我们用了一个图像引擎,去模仿很多很多的场景,又回到了更像积木一样的世界。

在这些场景里面,我们又自动生成了很多问题。比如说,这张图里有没有和半球一样大的积木?这些问题是在挑战这个计算机系统对场景结构的理解,这个结构里面包括物体的大小,或者物体的材料,包括数字计算,也包括比较的能力,也包括空间的关系,最后包括逻辑运算。所以,这在测试计算机好几层的能力。

这个数据库,组成了很多很多不同的场景,提出了很多不同的问题。然后,我们就可以通过用最好的深度学习模型,来测试计算机做的怎么样。其中最好的,比如用 CNN 和 LSTM, 没有听过也没有关系,这是一种深度学习的模型。然后我们就会发现,计算机现在远远达不到人类的,比如数数能力,或者现在对材料的分析还不够好。而且,我们也远远达不到比较的能力,人是很容易比较出一个东西比另外一个东西大,计算机现在还远远没有达到。

这项工作还告诉我们,在 Syntaxt 和 Inference 方面,人工智能其实还任重道远,CLEVR 这个 Benchmark,就给我们指出了一些比较明确的方向。

最后一点,我们怎么把 language、Syntax 和 Semantics 一块融合进来?这是最近我们做的一系列关于看图说话的工作。看图说话就是,一个图片进来,我希望这个计算机讲出一个故事,比如一句话「两个男人在玩飞盘」。这个模型,我们是用了一个图片的模型,再加上一个语言的模型。

图片的模型用的是卷机神经网络,语言的模型用的是一个 LSTM。

刚开始,这个计算机在还没有足够学习能力的时候,给出的语句是非常傻的,慢慢的它就开始学习这个图片的内容了。到了最后,它可以说出其中的内容。

在我结束之前,跟大家分享一下,我们认为下一步计算机视觉和人工智能,包括自然语言处理,还要往下怎么走。

Terry 和 Turing 给我们指出了这个结合 Syntaxt,Inference 和 Semantics 的路径,我们远远还没有完成这个愿景。比如说这幅图,现在计算机视觉可以告诉我们,这个图里有一些人,甚至这幅图的三维结构是什么,或者给我们一句话或者给我们几句话、N 句话,就像刚才我们看的。

但是,我们人看到的远远不止这些,我们人看到的是一个非常有意思的故事,我们知道这里面的人是谁,我们知道他们的关系是什么,我们知道他们的情绪是什么,我们知道这幅图的幽默点在哪里。它可以给我们带来很多很多信息,这是计算机现在远远没有达到的。
回复 支持 反对

使用道具 举报

您需要登录后才可以回帖 登录 | 立即注册 一键登录: 更多»

本版积分规则

QQ|权利声明|小黑屋|手机版|Archiver|一起SAT论坛 ( 闽ICP备16038975号  

GMT+8, 2018-10-15 19:21 , Processed in 0.140281 second(s), 31 queries .

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表