打开APP
userphoto
未登录

开通VIP,畅享免费电子书等14项超值服

开通VIP
从不会英语的清洁工到斯坦福人工智能教授,她是如何成功逆袭的?(附视频&演讲稿)

本文部分内容转载自girlup和Linkedin公众号。


2016年11月15日,谷歌在旧金山召开的新闻发布会上宣布,斯坦福大学人工智能实验室主任李飞飞,已经加盟公司并将领导谷歌云计算集团旗下新成立的机器学习部门。

 

李飞飞在图像识别领域可谓是一个家喻户晓的人物。


可以毫不夸张地说,她已经是一个站在了人类智能巅峰的华裔女性,她的研究可能改变未来的人类世界!


 


那她到底有多牛呢? 


她的主要贡献在于参与建立了两个数据库:Caltech 101 和 ImageNet(目前已经成为了全球最大的图像识别数据库)。


被 AI 研究者广泛使用来教机器分类物体。


再来看看她的简历:


斯坦福大学计算机系终身教授,人工智能实验室与视觉实验室主任。


主要研究方向为机器学习、计算机视觉、认知计算神经学,侧重大数据分析为主,已在 Nature、PNAS 等顶级期刊与会议上发表了 100 余篇学术论文。


先后获得: 

2006 年微软学者新星奖以及谷歌研究奖;


2009 年 NSF 杰出青年奖;


2011年3月荣获斯隆研究奖计算机科学奖;


2012 年雅虎实验室学者奖以及 2014 年 IBM 学者奖;

入选2015年“全球百大思想者”……

 

但是让我们更加吃惊的是,这个牛哄哄的女孩,竟然经历过大逆袭。


谁能想象得到:她曾经对于英文一窍不通,为了生活去做过清洁工、中餐馆收银员,帮人遛狗等工作,还到处借钱开干洗店……

 

是什么给她莫大的勇气和动力,是什么让他无惧前行?让我们先看看她在TED上的精彩演讲吧!



为什么值得聆听
Why you should listen




使用算法建立在机器学习方法,如神经网络模型,斯坦福大学人工智能实验室由李飞飞领导负责,她发明创造的软件能够识别场景图片,并且还能准确地使用自然语言描述它们。

Using algorithms built on machine learning methods such as neural network models, the Stanford Artificial Intelligence Lab led by Fei-Fei Li has created software capable of recognizing scenes in still photographs -- and accurately describe them using natural language.

李从事的神经网络工作和计算机视觉(斯坦福的视觉实验室)标志着人工智能研究的重要进步,并可能导致应用程序从更直观的图像搜索到机器人能够在不熟悉的情况下自主决定。

Li’s work with neural networks and computer vision (with Stanford’s Vision Lab) marks a significant step forward for AI research, and could lead to applications ranging from more intuitive image searches to robots able to make autonomous decisions in unfamiliar situations.
别人怎么评价
What others say
“直到最近,计算机软件变得足够聪明来识别图片对象。现在,斯坦福大学的研究人员利用机器学习已经创建了一个系统来取得下一步进展,即编写一个在任何数字图像发生的简单故事。”
——斯坦福大学消息,2014年11月18日。 

“Computer software only recently became smart enough to recognize objects in photographs. Now, Stanford researchers using machine learning have created a system that takes the next step, writing a simple story of what's happening in any digital image.” 
— Stanford News, November 18, 2014
李飞飞的TED演讲
Fei-Fei Li’s TED talk


李飞飞TED演讲中英文对照版


我先来给你们看点东西。

(视频)女孩: 好吧,这是只猫,坐在床上。 一个男孩摸着一头大象。 那些人正准备登机。 那是架大飞机。

李飞飞: 这是一个三岁的小孩 在讲述她从一系列照片里看到的东西。 对这个世界, 她也许还有很多要学的东西, 但在一个重要的任务上, 她已经是专家了: 去理解她所看到的东西。 我们的社会已经在科技上 取得了前所未有的进步。 我们把人送上月球, 我们制造出可以与我们对话的手机, 或者订制一个音乐电台, 播放的全是我们喜欢的音乐。 然而,哪怕是我们最先进的机器和电脑 也会在这个问题上犯难。 所以今天我在这里, 向大家做个进度汇报: 关于我们在计算机 视觉方面最新的研究进展。 这是计算机科学领域最前沿的、 具有革命性潜力的科技。

是的,我们现在已经有了 具备自动驾驶功能的原型车, 但是如果没有敏锐的视觉, 它们就不能真正区分出地上摆着的是一个压扁的纸袋, 可以被轻易压过, 还是一块相同体积的石头, 应该避开。 我们已经造出了超高清的相机, 但我们仍然无法把 这些画面传递给盲人。 我们的无人机可以飞跃广阔的土地, 却没有足够的视觉技术 去帮我们追踪热带雨林的变化。 安全摄像头到处都是, 但当有孩子在泳池里溺水时 它们无法向我们报警。 照片和视频,已经成为 全人类生活里不可缺少的部分。 它们以极快的速度被创造出来, 以至于没有任何人,或者团体, 能够完全浏览这些内容, 而你我正参与其中的这场TED, 也为之添砖加瓦。 直到现在,我们最先进的 软件也依然为之犯难: 该怎么理解和处理 这些数量庞大的内容? 所以换句话说, 在作为集体的这个社会里, 我们依然非常茫然,因为我们最智能的机器 依然有视觉上的缺陷。

”为什么这么困难?“你也许会问。 照相机可以像这样获得照片: 它把采集到的光线转换成 二维数字矩阵来存储 ——也就是“像素”, 但这些仍然是死板的数字。 它们自身并不携带任何意义。 就像”听到“和”听“完全不同, ”拍照“和”看“也完全不同。 通过“看”, 我们实际上是“理解”了这个画面。 事实上,大自然经过了5亿4千万年的努力 才完成了这个工作, 而这努力中更多的部分 是用在进化我们的大脑内 用于视觉处理的器官, 而不是眼睛本身。 所以'视觉”从眼睛采集信息开始, 但大脑才是它真正呈现意义的地方。

所以15年来, 从我进入加州理工学院攻读Ph.D. 到后来领导 斯坦福大学的视觉实验室, 我一直在和我的导师、 合作者和学生们一起 教计算机如何去“看”。 我们的研究领域叫做 '计算机视觉与机器学习'。 这是AI(人工智能)领域的一个分支。 最终,我们希望能教会机器 像我们一样看见事物: 识别物品、辨别不同的人、 推断物体的立体形状、 理解事物的关联、 人的情绪、动作和意图。 像你我一样,只凝视一个画面一眼 就能理清整个故事中的人物、地点、事件。

实现这一目标的第一步是 教计算机看到“对象”(物品), 这是建造视觉世界的基石。 在这个最简单的任务里, 想象一下这个教学过程: 给计算机看一些特定物品的训练图片, 比如说猫, 并让它从这些训练图片中, 学习建立出一个模型来。 这有多难呢? 不管怎么说,一只猫只是一些 形状和颜色拼凑起来的图案罢了, 比如这个就是我们 最初设计的抽象模型。 我们用数学的语言, 告诉计算机这种算法: “猫”有着圆脸、胖身子、 两个尖尖的耳朵,还有一条长尾巴, 这(算法)看上去挺好的。 但如果遇到这样的猫呢?(笑) 它整个蜷缩起来了。 现在你不得不加入一些别的形状和视角 来描述这个物品模型。 但如果猫是藏起来的呢? 再看看这些傻猫呢? 你现在知道了吧。 即使那些事物简单到 只是一只家养的宠物, 都可以出呈现出无限种变化的外观模型, 而这还只是“一个”对象的模型。

所以大概在8年前, 一个非常简单、有冲击力的 观察改变了我的想法。 没有人教过婴儿怎么“看”, 尤其是在他们还很小的时候。 他们是从真实世界的经验 和例子中学到这个的。 如果你把孩子的眼睛 都看作是生物照相机, 那他们每200毫秒就拍一张照。 ——这是眼球转动一次的平均时间。 所以到3岁大的时候,一个孩子已经看过了 上亿张的真实世界照片。 这种“训练照片”的数量是非常大的。 所以,与其孤立地关注于 算法的优化、再优化, 我的关注点放在了给算法 提供像那样的训练数据 ——那些,婴儿们从经验中获得的 质量和数量都极其惊人的训练照片。

一旦我们知道了这个, 我们就明白自己需要收集的数据集, 必须比我们曾有过的任何数据库都丰富 ——可能要丰富数千倍。 因此,通过与普林斯顿大学的 Kai Li教授合作, 我们在2007年发起了 ImageNet(图片网络)计划。 幸运的是,我们不必在自己脑子里 装上一台照相机,然后等它拍很多年。 我们运用了互联网, 这个由人类创造的 最大的图片宝库。 我们下载了接近10亿张图片 并利用众包技术(利用互联网分配工作、发现创意或 解决技术问题),像“亚马逊土耳其机器人”这样的平台 来帮我们标记这些图片。 在高峰期时,ImageNet是「亚马逊土耳其机器人」 这个平台上最大的雇主之一: 来自世界上167个国家的 接近5万个工作者,在一起工作 帮我们筛选、排序、标记了 接近10亿张备选照片。 这就是我们为这个计划投入的精力, 去捕捉,一个婴儿可能在他早期发育阶段 获取的”一小部分“图像。

事后我们再来看,这个利用大数据来训练 计算机算法的思路,也许现在看起来很普通, 但回到2007年时,它就不那么寻常了。 我们在这段旅程上孤独地前行了很久。 一些很友善的同事建议我 做一些更有用的事来获得终身教职, 而且我们也不断地为项目的研究经费发愁。 有一次,我甚至对 我的研究生学生开玩笑说:我要重新回去开我的干洗店 来赚钱资助ImageNet了。 ——毕竟,我的大学时光 就是靠这个资助的。

所以我们仍然在继续着。 在2009年,ImageNet项目诞生了—— 一个含有1500万张照片的数据库, 涵盖了22000种物品。 这些物品是根据日常英语单词 进行分类组织的。 无论是在质量上还是数量上, 这都是一个规模空前的数据库。 举个例子,在'猫'这个对象中, 我们有超过62000只猫 长相各异,姿势五花八门, 而且涵盖了各种品种的家猫和野猫。 我们对ImageNet收集到的图片 感到异常兴奋, 而且我们希望整个研究界能从中受益, 所以以一种和TED一样的方式, 我们公开了整个数据库, 免费提供给全世界的研究团体。(掌声)

那么现在,我们有了用来 培育计算机大脑的数据库, 我们可以回到”算法“本身上来了。 因为ImageNet的横空出世,它提供的信息财富 完美地适用于一些特定类别的机器学习算法, 称作“卷积神经网络”, 最早由Kunihiko Fukushima,Geoff Hinton, 和Yann LeCun在上世纪七八十年代开创。 就像大脑是由上十亿的 紧密联结的神经元组成, 神经网络里最基础的运算单元 也是一个“神经元式”的节点。 每个节点从其它节点处获取输入信息, 然后把自己的输出信息再交给另外的节点。 此外,这些成千上万、甚至上百万的节点 都被按等级分布于不同层次, 就像大脑一样。 在一个我们用来训练“对象识别模型”的 典型神经网络里, 有着2400万个节点,1亿4千万个参数, 和150亿个联结。 这是一个庞大的模型。 借助ImageNet提供的巨大规模数据支持, 通过大量最先进的CPU和GPU, 来训练这些堆积如山的模型, “卷积神经网络” 以难以想象的方式蓬勃发展起来。 它成为了一个成功体系, 在对象识别领域, 产生了激动人心的新成果。 这张图,是计算机在告诉我们: 照片里有一只猫、 还有猫所在的位置。 当然不止有猫了, 所以这是计算机算法在告诉我们 照片里有一个男孩,和一个泰迪熊; 一只狗,一个人,和背景里的小风筝; 或者是一张拍摄于闹市的照片 比如人、滑板、栏杆、灯柱…等等。 有时候,如果计算机 不是很确定它看到的是什么, 我们还教它用足够聪明的方式 给出一个“安全”的答案,而不是“言多必失” ——就像人类面对这类问题时一样。 但在其他时候,我们的计算机 算法厉害到可以告诉我们 关于对象的更确切的信息, 比如汽车的品牌、型号、年份。

我们在上百万张谷歌街景照片中 应用了这一算法, 那些照片涵盖了上百个美国城市。 我们从中发现一些有趣的事: 首先,它证实了我们的一些常识: 汽车的价格,与家庭收入 呈现出明显的正相关。 但令人惊奇的是,汽车价格与犯罪率 也呈现出明显的正相关性, 以上结论是基于城市、或投票的 邮编区域进行分析的结果。

那么等一下,这就是全部成果了吗? 计算机是不是已经达到, 或者甚至超过了人类的能力? ——还没有那么快。 目前为止,我们还只是 教会了计算机去看对象。 这就像是一个小宝宝学会说出几个名词。 这是一项难以置信的成就, 但这还只是第一步。 很快,我们就会到达 发展历程的另一个里程碑: 这个小孩会开始用“句子”进行交流。 所以不止是说这张图里有只“猫”, 你在开头已经听到小妹妹 告诉我们“这只猫是坐在床上的”。

为了教计算机看懂图片并生成句子, “大数据”和“机器学习算法”的结合 需要更进一步。 现在,计算机需要从图片和人类创造的 自然语言句子中同时进行学习。 就像我们的大脑, 把视觉现象和语言融合在一起, 我们开发了一个模型, 可以把一部分视觉信息,像视觉片段, 与语句中的文字、短语联系起来。

大约4个月前, 我们最终把所有技术结合在了一起, 创造了第一个“计算机视觉模型”, 它在看到图片的第一时间,就有能力生成 类似人类语言的句子。 现在,我准备给你们看看 计算机看到图片时会说些什么 ——还是那些在演讲开头给小女孩看的图片。

(视频)计算机: “一个男人站在一头大象旁边。” “一架大飞机停在机场跑道一端。”

李飞飞: 当然,我们还在努力改善我们的算法, 它还有很多要学的东西。 (掌声)

计算机还是会犯很多错误的。

(视频)计算机: “一只猫躺在床上的毯子上。”

李飞飞:所以…当然——如果它看过太多种的猫, 它就会觉得什么东西都长得像猫……

(视频)计算机: “一个小男孩拿着一根棒球棍。” (笑声)

李飞飞:或者…如果它从没见过牙刷, 它就分不清牙刷和棒球棍的区别。

(视频)计算机: “建筑旁的街道上有一个男人骑马经过。” (笑声)

李飞飞:我们还没教它Art 101 (美国大学艺术基础课)。

(视频)计算机: “一只斑马站在一片草原上。”

李飞飞:它还没学会像你我一样 欣赏大自然里的绝美景色。

所以,这是一条漫长的道路。 将一个孩子从出生培养到3岁是很辛苦的。 而真正的挑战是从3岁到13岁的过程中, 而且远远不止于此。 让我再给你们看看这张 关于小男孩和蛋糕的图。 目前为止, 我们已经教会计算机“看”对象, 或者甚至基于图片, 告诉我们一个简单的故事。

(视频)计算机: ”一个人坐在放蛋糕的桌子旁。“

李飞飞:但图片里还有更多信息 ——远不止一个人和一个蛋糕。 计算机无法理解的是: 这是一个特殊的意大利蛋糕, 它只在复活节限时供应。 而这个男孩穿着的 是他最喜欢的T恤衫, 那是他父亲去悉尼旅行时 带给他的礼物。 另外,你和我都能清楚地看出, 这个小孩有多高兴,以及这一刻在想什么。

这是我的儿子Leo。 在我探索视觉智能的道路上, 我不断地想到Leo 和他未来将要生活的那个世界。 当机器可以“看到”的时候, 医生和护士会获得一双额外的、 不知疲倦的眼睛, 帮他们诊断病情、照顾病人。 汽车可以在道路上行驶得 更智能、更安全。 机器人,而不只是人类, 会帮我们救助灾区被困和受伤的人员。我们会发现新的物种、更好的材料, 还可以在机器的帮助下 探索从未见到过的前沿地带。

一点一点地, 我们正在赋予机器以视力。 首先,我们教它们去“看”。 然后,它们反过来也帮助我们, 让我们看得更清楚。 这是第一次,人类的眼睛不再 独自地思考和探索我们的世界。 我们将不止是“使用”机器的智力, 我们还要以一种从未想象过的方式, 与它们“合作”。

我所追求的是: 赋予计算机视觉智能, 并为Leo和这个世界, 创造出更美好的未来。

谢谢。



◆ ◆ 

李飞飞到底有多牛逼?


一、 一家人的美国梦


1976 年,李飞飞出生于北京,后来在四川长大。


在她16岁的时候,父母为了完成自己的美国梦,带着她举家移民到了美国,这也开启了李飞飞自己的美国梦。


李飞飞和父母


虽然父母都是知识分子,但是都不会说英文。


因此,有着一颗工程师和科学家心的父亲到了美国,无奈只能做相机修理工作,而母亲则是一名收银员。

 

李飞飞刚到美国时英语几乎也是0基础,但是飞飞天生就对知识好奇,喜欢追求真理。


“想要理解很多本质的问题,如宇宙的起源,生命的意义等,我想要生命中拥有那种智慧。”


所以飞飞申请了一大批学校,普林斯顿给了她几乎全奖的奖学金。


 为了生计,我们不得不拼命奔波


“我目睹了太多天赋异禀的斯坦福博士生却因为签证的事情困扰不已,我实在对给这些天才们设置如此多的关卡障碍这件事感到不可理喻。”

 

作为众多美国移民中的一员,李飞飞深知移民这条路上所要做的牺牲和强大的意志力。


当她在普林斯顿大学读书时,因为没有钱,为了完成学业,她努力地做各种工作,去中国餐馆打工,给人打扫房间……

 

为了让她的父母在美国谋生,她四处和朋友、甚至中学数学老师借钱,买下了一家干洗店;


为了生计,她不得不平时上课,每天下课后,她也会通过打电话来参与干洗店的工作;


同时周末也会给家里的干洗店帮忙,接待那些来取送衣物干洗的人。


早期当地的报纸上对李飞飞的一篇报道

 

 责任?梦想?选择!挑战!


并不是每个美国移民都能实现自己的梦想,当初她随父母举家搬到大洋彼岸,“来到这个国家是为了追求梦想”就已经知道这个梦想的实现实在艰难。

 

1999 年,李飞飞从普林斯顿大学毕业,那时的华尔街一片辉煌,互联网泡沫的热潮接近顶峰,李飞飞接到了多家金融公司的工作邀请。

然而她却没有从中选择任何一份工作来减轻家庭经济负担。


 李飞飞当时说道:


作为中国人的女儿,我心中有强烈地要照顾好我的父母的责任感。如果高盛给我一个报酬丰厚的工作,我就会分心。虽然只要我接受了这个工作,就能缓解我父母经济上的困难。


 

李飞飞在普林斯顿毕业

 

那个时候,她希望能去西藏,在那儿做一年的藏药研究。


这听上去是不是有些疯狂?

 

她的父母支持她做出了最后选择,去西藏研究藏医。


虽然李飞飞知道自己终将回到学校,回到科研工作中来,读博士也是她的梦想,但西藏之行并非人生插曲。

 

在科学界,藏医与中医一样存在很多争议,但这并不妨碍李飞飞对它的兴趣。


她在媒体采访中提到,作为一个科学家,藏医可以在哲学和方法论层面上给她给多的理解。


她非常看重具体科研项目在更大领域范围内的意义,每一项研究开始之前都要经过深思熟虑。

 


她曾经放弃高盛的offer,追随梦想来到西藏

 

西藏归来之后,李飞飞去了加州理工学院,攻读人工智能和计算神经科学方向的博士学位。


博士期间母亲接连患上了癌症与中风,那是一段艰苦的日子,李飞飞说:


我们经历了很多困难,然后一起挺过来了。既要担起生活的责任,又要对得起自己的梦想。

 

她是改变图像识别方向的人


是什么吸引谷歌一次性将李飞飞和她的门生李佳一齐请进公司,并委以重任的?


显然是她的学术成就和影响力。

 

自 2009 年以来,李飞飞一直担任斯坦福人工智能实验室和斯坦福视觉实验室的负责人,并成为了终身副教授。



李飞飞在Stanford讲课

 

在她 2014 年的简历上,有 95 篇在Nature、PNAS 等顶级期刊与会议上发表的文章和联合发表的文章有 32 篇。


2015-2016 年,李飞飞署名发表的论文有 33 篇,还有一篇将在 2017 年发表在 CSCW 会议上。

 

唯恩师与孩子不可多得


李飞飞觉得自己十分幸运。


“我从 2000 年开始从事计算机视觉博士研究的时候,很幸运的成为第一批赶上这股新思想的人,刚好开始用机器学习的思路来重新思考计算机视觉里重要的感知和认知的问题。”


所以,Michael Jordan,GeoffHinton 还有 Jitendra Malik,我觉得这三个人是对我影响最深的三个人。

 

Jitendra Malik与李飞飞的合影

 

传承了恩师,李飞飞在斯坦福做老师的时候也是备受学生的喜爱。


她在斯坦福扎根之前在普林斯顿和UIUC做过几年,有的学生一路从普林斯顿跟到斯坦福,跨越三个时区,这是怎样的爱啊。

 

学生对于她的专业素养也是非常肯定。


有个故事,到Feifei的主页上查学生去向,在一群硅谷scientist,professor中间有一个空白的,这个人去了街上,收入是其他人的总和。

 

那个收入是其他学生的总和的学生对于菲菲的评价是:


Fei-Fei的学术水平非常厉害。她做出来的技术或者技术框架在一定时间内成为领域内的技术规范。其次,可以说“整个cv领域因她而不同”。

 

而这个改变了cv领域的女性,最让她开心的竟然是:


和我的孩子们在一起。我的研究领域是智能。我从他们身上学到了太多什么叫做智能,什么叫做“做人”。没有什么比看着这些孩子长大成人更幸福的了。

 


当后来有人问李飞飞,你是如何克服路上这些困难的时候。她说:“我是一个拼命三郎,这是我的DNA使然”。

 

因为在李眼里,如果总是去感叹为什么会有那么多的困难,这才是浪费时间和一件分散注意力的事情,还不如一心往前冲。

 

李飞飞在接受CNN采访时说:


真正生命中的最关键问题是如何充分发挥一个人的潜力,既要担待生活的责任,又要对得起自己的梦想。

 

力量源泉,与你共勉!

 

女性力量的崛起正在改变着中国甚至世界的职场格局,她们在各行各业都展现出相当的才华与风貌,用实力刷新人们对这个群体的认知。


她们告诉这个世界说:“要么出众,要么出局!”




想第一时间接收英语演讲文章&视频?置顶精彩英语演讲就对了!操作办法就是:进入公众号——找到“置顶公众号”—— 开启。


  

对公众号有建议或者好想法?

请添加:speechplus 随时勾搭英语演讲君



目前170000 人已关注我们


 
 
 
 
 
 
 

 
 
 
 
 
 
 



分享增长知识点赞是一种鼓励 


本站仅提供存储服务,所有内容均由用户发布,如发现有害或侵权内容,请点击举报
打开APP,阅读全文并永久保存 查看更多类似文章
猜你喜欢
类似文章
【热】打开小程序,算一算2024你的财运
李飞飞和ImageNet的洪荒之力
李飞飞加入谷歌后首次中国演讲:我的选择与机器认知进化
李飞飞介绍
ImageNet 缔造者:如何让冰冷的机器读懂照片背后的故事?
完整视频 | 谷歌云首席科学家李飞飞:一堂人工智能公开课
从洗衣妹到科学家,她是AI女神李飞飞
更多类似文章 >>
生活服务
热点新闻
分享 收藏 导长图 关注 下载文章
绑定账号成功
后续可登录账号畅享VIP特权!
如果VIP功能使用有故障,
可点击这里联系客服!

联系客服