Google盲人工程师讲述软件设计之路

最新推荐文章于 2020-11-06 12:31:54 发布

转载最新推荐文章于 2020-11-06 12:31:54 发布 · 786 阅读

文章标签：

#程序员 #人才

程序员励志专栏收录该内容

6 篇文章

订阅专栏

拉蒙是一位来自印度的盲人程序员，擅长复原盲文魔方并创造了世界纪录。他利用读屏软件克服视觉障碍，高效使用互联网，并致力于开发帮助视障者更好地使用计算机的技术。拉蒙还改进了LaTeX系统以便视障者能够阅读数学公式。

拉蒙的网络主页上，第一句话是这么写的：“在互联网上，没有人知道你不是一条狗！”在接下来的页面中，出现了很多他和导盲犬艾斯卡的照片。

　从康奈尔到硅谷，从IBM、Adobe一直到Google公司，十几年间，导盲犬艾斯卡一直陪伴着这位来自印度的程序员。“可惜，他现在已经13岁。老了，我没法带着他长途旅行了。”带着墨镜的拉蒙遗憾地说。前段时间，他参加了北京举行的Google创新论坛，成为了全场的焦点，很多人也是第一次想到这么一个问题：互联网让世界发生了翻天覆地的变化，那么，它给盲人带来了什么？

　天赋复原盲人魔方世界第一人

　“普通人的互联网，和盲人的互联网，是同一个互联网。”拉蒙似乎很高兴被问到这个问题。“这也是为什么互联网对于盲人来说是多么重要，这个工具赐予了人们平等。”

　“发电子邮件的时候，我们不会去关心对方用的什么电脑，什么键盘，屏幕是彩色的还是黑白的，只关心我们沟通了什么内容。你编辑了一篇文章放在网上，你不会去关心阅读你文章的人用的是PC还是移动设备。在万维网面前，没有限制，没有边界。所有人都是平等的。”

　坐在Google大楼的会议厅里，一桌人将他团团围住。拉蒙显然是个重要人物，而他显然也是所有人中最快乐的人物，从头到尾，都在用笑话点缀着对话，永远都有话说。

　他的手也似乎一直闲不下来。扳手指的动作让他看起来有些紧张。坐在旁边的美籍华人查尔斯给他递去一张纸。拉蒙放松了下来，边聊天边开始折纸。查尔斯是和他最接近的同事，两人共同设计着各种为盲人服务的软件。在Google，人们往往把他们喊成“拉蒙和查尔斯”。

　拉蒙出生在印度普纳一个有六个孩子的中产阶级家庭。哥哥也做软件工程的。“在印度，你不是软件工程师就是医生。”他口音浓重，笑声爽朗，似乎自己进入这个行业是一件理所应当的事。

　从小，拉蒙就显示出一些不同。如果在Youtube网站上输入拉蒙的名字，可以看到他的一些视频。拉蒙能在23秒内复原了盲文魔方，他是世界纪录的保持者。这是拉蒙年轻时最喜欢做的事情。再小一些的时候，比如15岁时，他刚因青光眼失去视力，几乎每天都要玩一个解谜游戏：通过日期，算出那天是星期几。“我从小就喜欢数学，喜欢解谜，可能是受哥哥影响。”他淡淡地笑道，“数学的兴趣是天生的。老实说，不管怎样我都会成为数学家。”

　多年后，有人向他提了这么一个问题：看不见东西，那做数学题是什么感觉？“我还真从来没想过这个问题，一想才觉得真是有趣。”于是，他为此写了一篇论文《数学思考》，讲述自己对数学的理解。他的核心想法是，数学远比人们想象的要大得多，玩数学的习惯并不需要阅读，而完全可以通过大脑心算来取得。

　读屏语音是常人语速的3倍

　在还没有电脑的时代，学习对于盲人来说非常困难。尽管如此，拉蒙还是考入了印度最好的理工学校——印度理工学院，在这里开始数学和计算机科学的硕士研究，成为该校历史上第一个盲人学生。他如何与那么多优秀的青年学子一起求学？因为很多学生都被要求参与社会服务，所以他说服校长让同学通过阅读屏幕来帮助他学习。有一个学期，多达13个同学志愿帮助他朗读屏幕，再由他用盲文进行记录。

　1989年，拉蒙来到美国康奈尔大学做计算机科学博士研究。情况发生了变化。那时候，盲人用计算机刚刚出现。拉蒙也得到了自己第一台语音合成器和当时最先进的读屏软件。

　不过，哪怕是世界上领先的读屏器，面对文字只有一行，每行只有40个字的老式屏幕也没有更多招数。拉蒙只能一个字一个字慢慢地听。

　好在过去几十年里，计算机技术发生了翻天覆地的变化。现在的显示器可以漂亮地摆置60行字。而视觉障碍者使用电脑也已经不是什么新鲜事了。今天，他们可以很方便地借助读屏器阅读电脑屏幕，浏览互联网。因为听觉特别，他现在使用的读屏器，语音速度是正常语速的三倍。这个语速常常会让普通人“不知所云”。

　如果只是进行文字浏览，盲人在电脑上几乎没有障碍。他们几乎可以像其他人一样轻松地浏览互联网信息。上网查看新闻是拉蒙每天的爱好之一。不过，与大部分人漫无目的地通过超链接在网上闲逛的习惯不同，拉蒙更多地采用搜索的方式，通过谷歌新闻组链接到有兴趣的报纸文章，或者通过微博来找到有趣的东西。用他自己的话说，就是让朋友来做你的“编辑”，“过滤”出有趣的新闻给你读。

　数学公式也可以阅读

　但在网络上，还有很多信息，其结构是为视觉而设计的。一些我们每天都离不开的计算机操作，对于无法读图的人却构成了巨大的障碍。如何将这些信息转化为主要依赖于听觉的盲人能够接受的信号，这成为了拉蒙一直以来的主要工作。

　就拿简单的电子邮件来说，“我们习惯于看到发信人栏，收信人栏，回复、转发、正文等栏。我们读的时候只会读‘这是拉蒙给查尔斯的一封信’，你眼睛一扫很快就看出是谁给谁的信。”拉蒙说，“这所有的结构设计都是为了让眼睛更方便。但是如果你用这个格式拿来读的话就变成‘发信人栏拉蒙，收信人栏查尔斯，标题如何如何，正文如何如何’这就非常没效率了。”

　还在康奈尔做博士时，拉蒙就设计出一些专为盲人辨别电子邮件各信息，甚至报纸报道标题的系统。

　阅读文字解决了，但阅读数学公式却成为另一个难题。“再伟大的数学家，也需要阅读其他数学家的东西。”他笑说。数学满是符号和公式，用的是一种名为LaTeX的排版系统。在上世纪90年代初的时候，读屏器在这个系统中读出来的数学公式简直让人抓狂。你能听到一堆这样的声音：“E反斜杠反斜杠X插入符号某某……”这样的读法是荒唐的，于是拉蒙决定重写LaTeX，让自己以及其他视障者都可以顺利阅读数学公式。这个研究成了他在康奈尔大学的博士毕业论文，也让他一直使用至今。

　说来有趣，当决定博士论文题目的时候，拉蒙最先想做的是制造出具有导航性能的机器人导盲犬。他花了9个月的时间投身其中。因为非常了解自己的导盲犬，他一开始很有自信能够做出来。但很快，一个不可逾越的困难却出现了。难题并不在导航上，而是出现在如何制造一个能应付人行道、台阶、雪地、冰地等各种地面的机器人。20年之后，人类已经有了可以走在火星上的机器人，可是这样的“万能型机器人”还是没有出现。

　图像手机“看”世界

　不过，拉蒙还是让盲人也享受到了导航的便利。他拿出自己的手机，向记者展示智能的北京地图，随着他的手指的移动，语音快速地提示出走在哪条街，走了多少路，前方是什么路，还有多少距离到达目的地等信息。现在的拉蒙，只要一部手机给自己导航，一只爱狗给自己扫除路障，哪怕身在北京这样的陌生城市，也不会迷路。

　现在，拉蒙的工作焦点放到了图片识别上。这是“盲阅读”最难的一部分。“所有的格式都是信息。信息越多，结构也越多；结构越多，你就越能从中组织，处理这些信息。”拉蒙说，“阅读图片是最难的，给你一幅《蒙娜丽莎的微笑》，说‘这是一个女人微笑的画’。这并不能告诉你这是蒙娜丽莎，它的信息复杂得多。”地图其实就是图片，不过它是有结构的图片，各种道路、街道、大楼等信息组成了可以处理的数据。拉蒙和查尔斯开发的手机地图软件已经造福于很多人。当然，它现在还没到完美的程度，还有一些问题需要解决，比如，目的地大楼的入口在哪儿，进了大楼里面怎么办，这都需要更多的数据让工程师来设计。

　拉蒙说，现在另一个小组正在做一个通过手机“看”地貌的软件。通过手机摄像机拍下路上遇到的一些事物比如路牌，行人等，手机可以对照片进行分析，然后告诉使用者“看”到了什么东西。

　今天，互联网进入了云时代。他认为，这是视障者的福音。以前的视障人士，走出门外和邻居打招呼都很难。但现在他们可以坐在家里，和地球另一边的人直接沟通。“对于其他人来说，技术只是带来了更快捷便利的生活，但对于残疾人来说，他们本来做不了这些事情，但技术却让他们可以做这些事了，他们对技术的掌握反而比普通人更快。”相比以前动辄上百美元的读屏软件，今天出现了很多开源软件，人们都可以免费下载使用。对于残疾人来说，云时代的互联网就像给他们听、读、写能力的延伸。而对于拉蒙来说，更重要的是，科学的发展是建立在别人研究基础上，软件技术也是一样，只有通过开源，才能站在巨人的肩膀上，让技术的发展焕发活力。