“每1000名本科生里,就产生一名院士!” 说实话,我被这所学校凡尔赛到了...

中国科学技术大学(中科大)以其卓越的科研教育闻名,平均每千名本科毕业生中产生一名两院院士,位列全国高校首位。众多杰出校友如陈杲、曹原等在数学、物理等领域取得重大突破,同时也有大量校友活跃在科技互联网行业,包括商汤科技、寒武纪等公司的创始人。

本文经AI新媒体量子位(公众号ID:QbitAI)授权转载,转载请联系出处。作者:杨净 鱼羊

“平均每一千名本科毕业生里,就产生一名两院院士”,这是一种怎样的体验?

我承认,我被中科大最新发布的近5届本科毕业生去向报告凡尔赛到了。

那可真是,院士之多,一屏放不下,数遍全国那也是头一名了:

图源:中国科大本科招生

不仅如此,在这份数据汇总里,还有一帮中科大“90后”,已然成为科技领域中坚力量。还有人扎根合肥,改变了这座中部城市的科技格局……

1、“千生一院士”、“天才少年”的摇篮

科研教育领域的人才培养,是中科大自建校以来始终传承的强项。

根据中科大的统计,从建校算起,平均每一千名本科毕业生中就会产生一名两院院士。“千生一院士”的含院士量,位居全国高校首位。

近年来,科大在科研领域培养出的新生代,也频频引起外界的惊叹。

比如今年年初攻破世界级数学难题,并回到母校任教的陈杲

陈杲出生于1994年。2008年,他以14岁的年级考入中科大少年班,攻读数学专业。

2012年,他以数学系第一名的成绩从中科大毕业,此后赴纽约州立大学石溪分校攻读博士学位,师从知名华人数学家陈秀雄。

陈杲读博期间,就在陈秀雄教授指导下,解决了1977年霍金提出的“引力瞬子”问题,得到数学界的认可。

2017年,陈杲在菲尔兹奖得主唐纳森爵士、沃尔夫奖得主沙利文教授等人的推荐下,前往普林斯顿高等研究院做博士后,师从菲尔兹奖得主文卡特什教授。

2019年,他拿到了威斯康星大学麦迪逊分校教职,担任助理教授、博士生导师。

今年年初,他在稳定的前提下,解出了陈秀雄和唐纳森独立提出的J方程以及丘成桐等人提出的超临界厄米特-杨振宁-米尔斯方程的变形。这项研究成果登上了世界顶尖数学期刊《数学新进展》。

陈杲目前已经回到中科大任教,担任几何与物理研究中心特任教授。

说到中科大培养出的“天才少年”,自然也绕不开曹原这个名字。

曹原是中国科学技术大学2010级毕业生,凭借魔角石墨烯受到学术界的瞩目。如今也被网友们感慨为“无情的Nature/Science收割机”。

就在今年4月,在不到半个月的时间里,曹原又创下了连发3篇Nature/Science的新纪录……

而从2018年3月以来,曹原已经一路发表了8篇Nature/Science。

曹原本科时期的导师曾长淦教授,在接受《澎湃新闻》采访时就曾表示:

曹原的确开创了一个领域,尤其2018年的两篇论文是“从零到一”的创新,后面的工作是在此之上的推进。

2、科技互联网中的中科大“90后”们

中科大的人才后劲,还不仅仅是在科研教育的传承上。

翻一翻如今科技互联网领域里大佬们的履历,“科大系”亦是不容忽视的一支力量。

前有张亚勤,杨元庆这些翻涌的前浪,后有像商汤创始人汤晓鸥、龙芯CPU项目首席科学家胡伟武这些青年才俊。

如果细分大佬们的角色,大致可以分成两类。

一类是在一线大厂当中担任关键角色。

比如1994级的周靖人,他被称为阿里算法的头号负责人,IEEE Fellow。

中科大本科毕业之后,他于2004年在哥伦比亚大学获计算机博士学位,随后加入微软,期间研发支撑Bing、Office和Windows的高性能计算平台。

2015年,周靖人加盟阿里,担任阿里云首席科学家。去年成为阿里首位P12算法专家,年底被传调任蚂蚁,担任智能引擎与数据中台技术部负责人。

有1993级的卢山,腾讯高级执行副总裁、技术工程事业群总裁。

他于1998年毕业于计算机科学与技术系。加入腾讯之前,曾就职于黎明网络有限公司。

2000年加入腾讯,曾担任即时通信产品部总经理、平台研发系统副总裁、运营平台系统高级副总裁。还担任中国联通第六届董事会非独立董事。

还有像人工智能和信息科学领域顶尖学者、担任京东探索研究院院长的1997级校友陶大程

以及2001年毕业于中科大少年班,留学回来与汤晓鸥并肩作战的商汤研究院院长王晓刚。

另一类,则是当前把握AI浪潮的创业者们。

商汤、云从、寒武纪、云知声……这些企业都有着中科大的基因。

最出名的便是那对寒武纪兄弟。陈云霁(1997级)、陈天石(2001级)兄弟二人相差3岁,都出自中科大少年班。

哥哥陈云霁,是中国科学院计算技术研究所副所长,曾研制出国际首个深度学习处理器芯片。

弟弟研究人工智能,曾担任中科院计算所研究员及博士生导师。后来二人于2016年创立了AI芯片公司寒武纪,去年7月在上交所挂牌上市。

这当中,还有一波人,选择扎根合肥,在合肥创办科技企业,改变了这座中部城市的科技格局……

比如,科大讯飞的创始人兼董事长,1990年校友刘庆峰

1990年,他从安徽宣城中学考入中科大电子工程与信息科学系;2003年7月获“信号与信息处理”专业博士学位。1999年创办安徽科大讯飞信息科技股份有限公司,并担任总裁至今,2009年4月起兼任董事长。

还有1992级校友黄汪,华米科技创始人、董事长兼CEO。

1997年毕业于物理学微电子专业。在华为工作一年后,回合肥创办华恒电子科技有限公司总裁。2014年创办华米科技,是中国首家在纽交所上市的智能硬件企业。

3、48.7%本科毕业生境内深造

看完凡尔赛的部分,最后,我们再看回到近5届科大本科毕业生本身。

根据中科大的统计数据,整体上看,在近5届的本科毕业生中,有48.7%的人选择境内深造,25.7%出国(境)留学,25.6%选择工作。

而依据泰晤士高等教育2021年世界大学排名,中国科大近五届本科毕业生前往世界排名前100位一流大学继续深造人数占深造总人数的的比例为76.1%。

其中本校深造的最多,共有3069人,其次是清华大学(167人)、北京大学(158人)。

而在出国留学的学生中,密歇根大学安娜堡分校、伊利诺伊大学厄巴纳-香槟分校、哥伦比亚大学成为更多人的选择。

具体细分,信息科学技术学院境内深造比例最高,达57.9%

计算机科学与技术学院本科工作比例最高,34.1%

在直接工作的那一拨人当中,主要单位有普联、华为、国盾量子、科大讯飞等,可以看到,其中不少合肥企业,或者在合肥设立分部的公司。

不知道在这些人当中,又有哪些人会在十年、十五年之后,执笔书写科技江湖的新故事呢?


您还可以在以下平台找到我们

你点的每个在看,我都认真当成了喜欢

你遇到的问题是: > **正在爬取院士列表...** > **共获取 0 位院士** 这说明你的爬虫虽然成功访问了网页(状态码 200),但使用 XPath 提取的节点数量为 0,即 `tree.xpath('//ul[@class="dirList"]/li/a')` 没有匹配到任何内容。 --- ### ✅ 问题原因分析 经过对目标页面 [http://www.cae.cn/cae/html/main/col48/column_48_1.html](http://www.cae.cn/cae/html/main/col48/column_48_1.html) 的实际检查,发现: > **该页面的内容是通过 JavaScript 动态加载的!** 也就是说: 你用 `requests.get()` 获取的 HTML 源码中 **并没有真正的院士列表数据**,只有类似一个空容器或 JS 脚本加载提示。真实数据是通过 AJAX 或 `<script>` 动态插入 DOM 的。 因此,`lxml` 解析静态 HTML 是无法提取到 `<ul class="dirList">` 中的数据的 —— 因为它根本不存在于原始响应中! --- ### ✅ 解决方案:使用 Selenium 模拟浏览器行为 我们需要使用 **Selenium + ChromeDriver** 来真正“打开”这个网页,等待 JavaScript 执行完毕后再提取内容。 --- ### ✅ 修改后的完整代码(使用 Selenium) ```python from selenium import webdriver from selenium.webdriver.common.by import By from selenium.webdriver.chrome.service import Service from selenium.webdriver.chrome.options import Options from selenium.webdriver.support.ui import WebDriverWait from selenium.webdriver.support import expected_conditions as EC import time import random import csv import requests from lxml import html # 设置 Chrome 选项 chrome_options = Options() chrome_options.add_argument("--headless") # 可选:无头模式运行 chrome_options.add_argument("--no-sandbox") chrome_options.add_argument("--disable-dev-shm-usage") chrome_options.add_argument("user-agent=Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36") # 驱动路径(请根据实际情况修改) service = Service(executable_path="chromedriver") # 下载地址见下方说明 driver = webdriver.Chrome(service=service, options=chrome_options) def scrape_academician_list_with_selenium(): url = "http://www.cae.cn/cae/html/main/col48/column_48_1.html" driver.get(url) try: # 等待主要列表容器加载完成(关键元素出现) WebDriverWait(driver, 10).until( EC.presence_of_element_located((By.XPATH, '//ul[contains(@class, "dirList")]')) ) print("页面已加载完成") except Exception as e: print("页面加载超时:", e) return [] # 获取页面源码(此时已包含 JS 渲染后的内容) page_source = driver.page_source tree = html.fromstring(page_source) # 使用 XPath 提取所有院士链接 academicians = tree.xpath('//ul[@class="dirList"]/li/a') data = [] for a in academicians: name = a.text_content().strip() link = a.get('href') if link and not link.startswith('http'): link = "http://www.cae.cn" + link data.append({'name': name, 'link': link}) return data def scrape_academician_detail(profile_url): """使用 requests + lxml 抓取详情页(部分仍需 Selenium,此处假设可直接请求)""" headers = { 'User-Agent': 'Mozilla/5.0' } try: response = requests.get(profile_url, headers=headers, timeout=10) response.encoding = 'utf-8' tree = html.fromstring(response.text) research_field = ''.join(tree.xpath('//td[contains(text(),"研究领域")]/following-sibling::td//text()')).strip() intro = ''.join(tree.xpath('//div[@id="zoom"]//p//text()')).strip() if not intro: intro = ''.join(tree.xpath('//div[@id="zoom"]//text()')).strip() return {'research_field': research_field, 'intro': intro[:500] + "..." if len(intro) > 500 else intro} except Exception as e: print(f"详情页抓取失败 {profile_url}: {e}") return {'research_field': '', 'intro': ''} def save_to_csv(data, filename='academicians.csv'): with open(filename, 'w', encoding='utf-8-sig', newline='') as f: writer = csv.DictWriter(f, fieldnames=['name', 'link', 'research_field', 'intro']) writer.writeheader() writer.writerows(data) print(f"数据已保存至 {filename}") def main(): print("正在通过 Selenium 爬取院士列表...") list_data = scrape_academician_list_with_selenium() print(f"共获取 {len(list_data)} 位院士") if len(list_data) == 0: print("⚠️ 仍未获取到数据,请确认:") print(" - chromedriver 版本是否匹配") print(" - 网页结构是否有变化") print(" - 是否被反爬拦截?") return detailed_data = [] for item in list_data: print(f"正在抓取: {item['name']}") detail = scrape_academician_detail(item['link']) full_item = {**item, **detail} detailed_data.append(full_item) time.sleep(random.uniform(0.5, 1.0)) save_to_csv(detailed_data) driver.quit() if __name__ == '__main__': main() ``` --- ### 🔧 所需依赖安装 ```bash pip install selenium requests lxml beautifulsoup4 ``` ### 📦 下载 ChromeDriver 1. 查看你的 Chrome 浏览器版本:`设置 → 关于 Chrome` 2. 去官网下载对应版本的驱动: 👉 https://sites.google.com/chromium.org/driver/ 3. 解压后将 `chromedriver` 放入项目目录或系统 PATH,并更新代码中的路径: ```python service = Service(executable_path="chromedriver") # 或 "/usr/local/bin/chromedriver" ``` --- ### 💡 补充建议 #### 方法二:尝试查找真实数据接口(推荐更高效) 有时网站会从 JSON 接口加载数据。你可以: 1. 打开浏览器开发者工具(F12); 2. 切换到 **Network → XHR / Fetch**; 3. 刷新页面,观察是否有类似 `/api/experts` 或 `.json` 请求; 4. 找到后,可以直接用 `requests` 调用该 API,避免启动浏览器。 例如(假设找到真实接口): ```python data = requests.get("http://www.cae.cn/api/academicians.json").json() ``` 这样性能更高、更稳定。 --- ### ✅ 总结 | 问题 | 原因 | 解决方案 | |------|------|-----------| | 获取 0 条数据 | 页面由 JS 动态渲染 | 使用 Selenium 模拟浏览器 | | XPath Helper 显示有内容但代码取不到 | 插件运行在渲染后环境 | Python 必须也运行渲染引擎 | --- ###
评论
成就一亿技术人!
拼手气红包6.0元
还能输入1000个字符
 
红包 添加红包
表情包 插入表情
 条评论被折叠 查看
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值