都市新闻网-新闻快讯-本文

清华唐杰教授——一个人,一个项目,一辈子

2021-11-06 15:12:31    文/bf 139

自 1956 年 AI 的概念首次被提出,至今已有 60 多年的发展史。如今,随着相关理论和技术的不断革新,AI 在数据、算力和算法“三要素”的支撑下越来越多地走进我们的日常生活。清华唐杰教授在该细分领域一直表现出色,下面就让我们一起详细了解一下他吧。

卓越的杰出贡献

清华大学计算机系唐杰教授、系副主任,获杰青。研究人工智能、认知图谱、数据挖掘、社交网络和机器学习。清华唐杰教授发表论文 300 余篇,引用 16000 余次,获 ACM SIGKDD Test-of-Time Award(十年最佳论文)。清华唐杰教授主持研发了研究者社会网络挖掘系统 AMiner。清华唐杰教授担任 IEEE T. on Big Data、AI OPEN 主编以及 WWW’21、CIKM’16、WSDM’15 的 PC Chair。清华唐杰教授获北京市科技进步一等奖、人工智能学会一等奖、KDD 杰出贡献奖。

构建和检索学者数据库的原理

本质上来说,Aminer是一个基于学者数据库构建起来的信息检索和挖掘系统。那构建和检索学者数据库的原理是什么?清华唐杰教授表示:最开始的时候,是我写的程序,就在我们笔记本上跑。当时就是给定一个人名名单,名单是哪来呢?我最开始是从DBLP上把人名全抽出来,大概有200多万人名。有了名单之后,就去谷歌上搜索,谷歌会返回很多与这个人相关的页面;然后我做了一个分类器,去判断哪个页面是他的主页,分类器能做到90%多的精度,这也是我们发表的那篇文章中一个核心技术点;自动找到主页网址后,我编写一个程序把主页打开,用一个条件随机场的程序把里面的照片、EMAIL、地址、职位、学校等信息建成一个序列,进行统计学习。针对这些数据,我们也标注了一个包含几千个训练样本的数据,从而建立一个模型。最开始就完全是用这种方式自动抽取。

基于什么样的考虑来做AMiner

据了解,在最初的时候研究方向应该不是数据挖掘,所以当时是基于什么样的考虑来做AMiner?清华唐杰教授表示:我博士的研究方向最开始是语义Web。主要做的就两件事,一个是本体集成,你可以想象成图匹配;另一个是语义标注,即把文档中文本的信息抽出来,变成一个语义化的结构。博三的时候,我去微软做了实习,当时碰到李航老师,他说有两个方向可以选择,一个是搜索,就是learning to ranking;一个是抽取,information extraction。当时我去的时候是九月份,李老师说干脆我们三个月做一篇文章发KDD吧。我们大概从12月开始,2月份就投了KDD,而且很幸运地中了。在这个过程中我学习到很多数据挖掘的东西,另外我也发现数据挖掘这个圈子的人都比较年轻,非常开放,这也坚定了我去做数据挖掘的想法。

与其说是时间检验论文,不如说是时间检验唐杰。清华唐杰教授曾多次向笔者表示,做研究最重要的就是专注,“做一件事情,就要把这事情做深做透,而不要在意别人怎么看、怎么说”。十多年来,清华唐杰教授每天凌晨2点起床,绝大多数时间泡在实验室中,几无中断;领域研究热点潮涨潮落,而他,研究的中心始终是AMiner系统。时间在变,而清华唐杰教授不变。这份专注,毫不客气地说,国内少有。

本文地址:http://wzdushi.com/xinwenkx/13135.html
声明:本站原创/投稿文章由都市新闻网编辑发布,所有权归都市新闻网所有,转载务必注明来源;文章仅代表原作者观点,不代表都市新闻网立场;如有侵权、违规,可直接反馈本站,我们将会作删除处理。
评论

相关推荐

网站热点