业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

2018-11-29 18:40:54 来源:网络整理 作者:管理员

原标题:业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

AI 科技评论按:搜索技术从一开始的桌面文件搜索、互联网搜索,发展至今日流行的程序内部搜索(In-app search),先后攻克了不同的技术难点,面对如今来势汹汹的 AI 时代,搜索技术又该何去何从呢?

作为 2018TOP100Summit 案例分享嘉宾之一,Dropbox 技术主管叶旭刚将在本文中分享搜索技术的发展的来龙去脉,以及当下该领域所面临的机会与挑战。

业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

叶旭刚,机器学习和数据科学领域资深专业人士。现任美国云服务科技公司 Dropbox 的搜索团队的技术主管, 负责开发新一代的云工作空间的智能搜索推荐引擎。曾在美国最大房地产搜索引擎 Zillow 任主任应用科学家, 从事房地产垂直领域的搜索以及自然语言理解的研发。曾在美国苹果公司任主任数据科学家, 从事客服搜索的研发。并曾在美国微软公司任高级应用科学家, 从事网页搜索、地区搜索、企业搜索的研发。拥有约翰霍普金斯大学应用数学及统计博士, 并曾在美国国立健康研究所从事生物信息统计博士后研究。曾获约翰霍普金斯大学博士全额研究奖, 美国国立健康研究所优秀人才奖, 海军研究部研究专款等。曾在运筹统计、生物信息、大数据及机器学习方面的期刊及会议发表多篇第一作者文章。在顶级会议 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做过报告。

搜索技术的「前生今世」

搜索领域的发展最早可追溯至微软操作系统的基础检索功能——桌面文件搜索系统(index),后来随着互联网的普及,用户搜索范围不再局限于单机系统,才诞生了互联网搜索系统。

雅虎是最早投入互联网搜索系统开发的公司,然而一直未能从门户网站的商业逻辑中跳脱出来,导致错过了搜索引擎作为新型商业模式的风口,因而被同期的小公司赶超。这种新型商业模式后来被谷歌发扬光大,逐渐发展成今日的体量。

谷歌时代最重要的技术里程碑,是强调了网页的重要性。谷歌为此进行了大量的互联网资源整合工作,只要出现一个站点/网页,谷歌都会统一进行 Index 标注,日积月累下成就了庞大的 Index 系统。Index 系统有效解决了雅虎时代遗留下的问题,使用户的查询输入同时映射至多个结果,并根据重要性对搜索结果进行排序,从而保证呈现在用户面前的都是最优的搜索结果。

为此,谷歌需要付出高昂的基础设施维护代价。据了解,单 2016 年,谷歌系统便已累积多达 10 万亿个网页 index 标注,耗费存储空间高达 100 PB(1 PB = 1024 TB)。

最近这几年,谷歌的搜索模型逐渐从静态封闭向开放动态发展,从单纯的「搜索-返回」变为通过各种途径揣测用户意图的智能化搜索服务。换句话说,谷歌系统时刻关注着用户的搜索反馈,这些信息将被完整记录下来,然后经过整理后更新至模型里头,最后通过对比检验模型的搜索效果。

「小而精」的 In-app search 时代

这一阶段搜索技术在的特点是: Index 体量变得越来越大,Index 种类变得越来越丰富,同一时间模型理解用户意图(语境)的能力也在不断地提高。

与此同时,搜索技术也迎来了新挑战:

  1. 互联网资源底层结构变得多元化,用户的搜索输入不再局限于文字,当中还包括图像、语音、视频等。
  2. 一旦资源库的体量超出系统可负荷的临界点,后期可能导致资源管理上的问题。

对应的解决方案,是如雨后春笋般冒出的垂直领域搜索引擎

跟过去不同的是,这些平台未必在一开始就提供检索服务,而是在商业模式取得巨大成功后,沉淀的用户反哺为平台带来了大量内容,当内容丰富到一定程度时,自然而然形成了特定领域的搜索引擎,业界将之称作In-app search——用户先登陆某个具体 app 再进行特定领域搜索的行为

当中最具有代表性的 In-app search 平台是 Facebook,Facebook 在社交领域的积淀,使其在做社交搜索方面有着得天独厚的优势。有人曾经断言,In-app search 极有可能在未来取代谷歌、Bing 等一般性搜索成为主流搜索工具。

此外,随着「机器人时代」的来临,搜索趋势也将从单一输入理解变成互动式交流,由文字过渡至语音、图像乃至视频。为了更好地理解用户的搜索意图,这些机器人将拥有强大的自然语言理解能力,可以根据用户的搜索需求将之导引至某个专属领域 app。

目前看来,拥有庞大的开发者生态以及企业基础数据的苹果 app store 和 AWS 云平台,极有可能超越谷歌,成为 In-app search 时代的弄潮儿。

搜索领域现阶段面临的难点——「内容理解」

无论是一般性检索还是垂直领域检索,在「机器人时代」都不可避免地要面临「内容理解」的难题。

为了让搜索引擎很好地理解人类意图,我们必须保证引擎底层的知识结构和人类的知识结构保持一致,自然语言理解在这过程中便扮演了重要的角色。换句话说,自然语言理解是搜索引擎的索引和用户输入之间的桥梁,一旦缺少这个桥梁,我们的检索技术相当于倒退至几十年前,基本没有进步。

然而「内容理解」面对的内容不仅仅是常见的网页,还包括了其他的文本结构如工作文档(可进一步细分为 word 文档、pdf 文档等)、图像、视频等,这就超出了自然语言理解的范畴,必须依赖诸如卷积神经网络、运动监测、物体检测等一系列特定技术才能解决信息提取问题。这也推动了目前深度学习领域较热门的 embedding 工作,试图将字面上的 token 映射至数字空间上。只有将不同文本结构的信息提取出来,我们才能将对象映射至文本空间上,接着通过文本技术来解决搜索的问题。

总的来说,「内容理解」的目的是要让搜索引擎找到一种近似人脑对自然观察理解的方式,然而这块目前还处于比较初级的阶段,目前引擎的信息提取效果大约等同于几岁小孩,有的时候甚至还不如一只动物。

这是搜索技术的发展当下所面临的瓶颈,需要更多的业界人士参与进来一起努力攻克。

附:叶旭刚老师的 TOP100Summit 案例分享详情

由 msup 主办的技术界一年一度的 TOP100Summit 上,叶旭刚老师将与大家分享他在房地产搜索领域关于自动补全与自动建议技术的建模实现(内容链接页:http://www.top100summit.com/think/13504)。作为搜索的辅助手段,智能的自动补全和自动建议可以帮助用户快速表达搜索意图,同时避免查询词重复进入深层 index 造成系统延迟。

为了实现这一目的,需要构建一套该垂直领域的知识图谱、词汇表、字典树数据结构,以及相关性概率的数学模型。叶旭刚老师将在报告中采用基于贝叶斯原则和条件独立及非条件独立的简化假设把相关性概率分解成区域化和个性化两个部分。在具体实现时采用两阶段贪婪排序。也就是先用区域化的相关性概率来找到一个搜索结果列,再对这个列计算个性化打分从新排序。此外,叶旭刚老师还会在报告中介绍评价系统表现的模型,以及对应的评价指标。

通过本次分享,学员可以了解自动补全和自动建议的一个全貌和具体在一个垂直领域是如何建模、设计和实现的。学员可以把该模型和技术移植到他们自己的搜索领域。比如说常见的场景是开发商品搜索或专业知识搜索的移动应用。

如果你对叶旭刚老师的主题分享感兴趣,也想通过活动了解更多其他领域的技术创新/研发管理实践,欢迎大家通过活动页面购买会议门票:http://www.top100summit.com/apply,会议提供各种购票组合,大家可以实际需进行购买。

显示全文
为您推荐
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先
钱姓起源和来历:活了八百岁的彭祖竟然是钱氏祖先

钱姓排于百家姓中的第二位,虽然起源和来历并不多,但是钱姓人却分布广泛,成为了中国姓氏中的第二大姓。钱姓的主要来源就是彭祖的儿子篯孚,彭祖的真名叫做篯铿,是因为被尧封于大彭而得姓-彭,而他的儿子篯孚因为掌管着钱财,任职钱府上士,所以便为“钱”姓,所以彭钱是一家。...

发布时间:2024-09-20 20:03:27

胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰
胡服最早由谁引入中原?赵武灵王为推行骑射改革服饰

胡服最早是由春秋战国时的赵武灵王-赵雍引入中原的,因为当时赵国的地形和地理位置都非常不好,常年深受战争威胁,加上赵武灵王继位之后,时局不稳,周边国家都想要攻打赵国,所以赵武灵王便下令让全员都推行胡服,并且学习骑射,相较于宽大的汉服更加便于行动。...

发布时间:2024-09-20 19:05:44

赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)
赛艇运动起源于哪里?英国船工无聊时竞赛(造就贵族运动)

赛艇运动起源于英国的泰晤士河上,当时还是17世纪,英国泰晤士河上的船工在工作之余经常会举办一些赛船,久而久之就形成了一种习俗,在1715年的时候,为了庆祝英王的卫冕,所以第一次正式举办了赛艇比赛,最终在1775年发展为一个正式的运动项目,并且成立了相应的运动俱乐部。...

发布时间:2024-09-20 18:04:28

为什么不能用宸字取名?哪些名字普通人扛不起
为什么不能用宸字取名?哪些名字普通人扛不起

人们之所以不愿意或者不敢以“宸”为名,主要是因为在古时候“宸”有着“深邃的房屋”的意思,也就是专指皇帝的居住场所,象征着无上的权力,所以“宸”字自然也就成为了禁忌,不过现代人大多是害怕这个字的气势,普通人的命格扛不住。...

发布时间:2024-09-20 17:00:53

商细蕊原型是谁?原来四位京剧名旦都是灵感来源
商细蕊原型是谁?原来四位京剧名旦都是灵感来源

商细蕊是电视剧《鬓边不是海棠红》中的京剧名旦,很多人都为他和海归商人程凤台的知己故事而动容,但遗憾的是在历史长河中并没有商细蕊真正的原型,只能说他可能是作者根据历史上著名的京剧名旦构建的一个角色,因为他和梅兰芳、程砚秋、尚小云以及徐碧云等四人的经历和性格都有着极为相似之处。...

发布时间:2024-09-20 16:05:01

历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)
历史上著名的美女有哪些:杨玉环,君王不早朝(绝世美女)

在中华上下五千年的历史长河中,除了王朝更替的政治生活与文化生活,还有一些美貌的女子点缀着历史的绘卷,那么在悠悠岁月中有哪些著名的美女呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 15:04:04

历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)
历史上妃嫔最少的皇帝:明孝宗朱佑樘,独爱张皇后(童年不幸)

谈及古代帝王,最让人津津乐道的当属那后宫佳丽三千,不过也不是所有的帝王都有那么充实的后宫,比如历史上有一位皇帝就只有一位妻子,是不是让人有点不敢相信,下面小编就带大家一起了解下吧!...

发布时间:2024-09-20 14:01:05

历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)
历史上最长情的皇帝:顺治皇帝,挚爱董鄂妃(为爱出家)

自古无情帝王家,说到帝王的爱情多是奢望,很多帝王后宫的妃子换了一个又一个,几乎都是薄情寡义的,但是漫长的历史长河中也有例外,有的皇帝便与众不同,特别的长情,下面小编来为大家介绍一下历史上最长情的皇帝吧!...

发布时间:2024-09-20 13:03:24

武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)
武侠剧中的绝世高手有哪些:扫地僧,化险为夷(秒杀高手)

可以说人的成长伴随着无数的武侠剧,尤其是电视剧中的那些绝世高手更是让人影响深刻,有不少人小时候都幻想过可以武功盖世,一统江湖,那么有人知道武侠剧中有哪些绝世高手吗?下面小编为大家盘点一下吧!...

发布时间:2024-09-20 12:02:19

电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)
电视剧中的古装美女:刘亦菲,举止摇曳生姿(天仙下凡)

古装电视剧中有许多的美丽的女子,她们身着美丽的衣裳,一举一动摇曳生姿,美得让人挪不开双眼,可以说是一场视觉盛宴,下面就让小编为大家盘点一下那些古装美女吧!...

发布时间:2024-09-20 11:09:01

清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)
清朝古装剧中的美人:刘诗诗,若曦无人超越(顾盼生姿)

近年清朝古装剧收视率暴涨,这些电视剧不仅剧情引人入胜,身着清装的美人也同样吸引了不少目光,有着让人过目不忘的美貌,那么清朝古装剧中有哪些美人呢?下面小编就来为大家盘点一下吧!...

发布时间:2024-09-20 11:02:08

小青龟能长多大:背甲14厘米,体色会变化(濒危物种)
小青龟能长多大:背甲14厘米,体色会变化(濒危物种)

养龟市场上经常可以看到小青龟,这种乌龟乖巧可爱以及性情温顺,所以很多人都会选择小青龟来饲养,不过一直都是见到小青龟都比较小,这不禁令人好奇这种乌龟能长多大?下面小编就带大家一起了解一下小青龟吧!...

发布时间:2024-09-20 10:01:47