业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

2018-11-29 18:40:54 来源:网络整理 作者:管理员

原标题:业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

AI 科技评论按:搜索技术从一开始的桌面文件搜索、互联网搜索,发展至今日流行的程序内部搜索(In-app search),先后攻克了不同的技术难点,面对如今来势汹汹的 AI 时代,搜索技术又该何去何从呢?

作为 2018TOP100Summit 案例分享嘉宾之一,Dropbox 技术主管叶旭刚将在本文中分享搜索技术的发展的来龙去脉,以及当下该领域所面临的机会与挑战。

业界 | Dropbox 技术主管叶旭刚:AI 时代需要什么样的搜索引擎?

叶旭刚,机器学习和数据科学领域资深专业人士。现任美国云服务科技公司 Dropbox 的搜索团队的技术主管, 负责开发新一代的云工作空间的智能搜索推荐引擎。曾在美国最大房地产搜索引擎 Zillow 任主任应用科学家, 从事房地产垂直领域的搜索以及自然语言理解的研发。曾在美国苹果公司任主任数据科学家, 从事客服搜索的研发。并曾在美国微软公司任高级应用科学家, 从事网页搜索、地区搜索、企业搜索的研发。拥有约翰霍普金斯大学应用数学及统计博士, 并曾在美国国立健康研究所从事生物信息统计博士后研究。曾获约翰霍普金斯大学博士全额研究奖, 美国国立健康研究所优秀人才奖, 海军研究部研究专款等。曾在运筹统计、生物信息、大数据及机器学习方面的期刊及会议发表多篇第一作者文章。在顶级会议 (NIPS, INFORMS, SIAM, ICML, ISMB, CIKM) 做过报告。

搜索技术的「前生今世」

搜索领域的发展最早可追溯至微软操作系统的基础检索功能——桌面文件搜索系统(index),后来随着互联网的普及,用户搜索范围不再局限于单机系统,才诞生了互联网搜索系统。

雅虎是最早投入互联网搜索系统开发的公司,然而一直未能从门户网站的商业逻辑中跳脱出来,导致错过了搜索引擎作为新型商业模式的风口,因而被同期的小公司赶超。这种新型商业模式后来被谷歌发扬光大,逐渐发展成今日的体量。

谷歌时代最重要的技术里程碑,是强调了网页的重要性。谷歌为此进行了大量的互联网资源整合工作,只要出现一个站点/网页,谷歌都会统一进行 Index 标注,日积月累下成就了庞大的 Index 系统。Index 系统有效解决了雅虎时代遗留下的问题,使用户的查询输入同时映射至多个结果,并根据重要性对搜索结果进行排序,从而保证呈现在用户面前的都是最优的搜索结果。

为此,谷歌需要付出高昂的基础设施维护代价。据了解,单 2016 年,谷歌系统便已累积多达 10 万亿个网页 index 标注,耗费存储空间高达 100 PB(1 PB = 1024 TB)。

最近这几年,谷歌的搜索模型逐渐从静态封闭向开放动态发展,从单纯的「搜索-返回」变为通过各种途径揣测用户意图的智能化搜索服务。换句话说,谷歌系统时刻关注着用户的搜索反馈,这些信息将被完整记录下来,然后经过整理后更新至模型里头,最后通过对比检验模型的搜索效果。

「小而精」的 In-app search 时代

这一阶段搜索技术在的特点是: Index 体量变得越来越大,Index 种类变得越来越丰富,同一时间模型理解用户意图(语境)的能力也在不断地提高。

与此同时,搜索技术也迎来了新挑战:

  1. 互联网资源底层结构变得多元化,用户的搜索输入不再局限于文字,当中还包括图像、语音、视频等。
  2. 一旦资源库的体量超出系统可负荷的临界点,后期可能导致资源管理上的问题。

对应的解决方案,是如雨后春笋般冒出的垂直领域搜索引擎

跟过去不同的是,这些平台未必在一开始就提供检索服务,而是在商业模式取得巨大成功后,沉淀的用户反哺为平台带来了大量内容,当内容丰富到一定程度时,自然而然形成了特定领域的搜索引擎,业界将之称作In-app search——用户先登陆某个具体 app 再进行特定领域搜索的行为

当中最具有代表性的 In-app search 平台是 Facebook,Facebook 在社交领域的积淀,使其在做社交搜索方面有着得天独厚的优势。有人曾经断言,In-app search 极有可能在未来取代谷歌、Bing 等一般性搜索成为主流搜索工具。

此外,随着「机器人时代」的来临,搜索趋势也将从单一输入理解变成互动式交流,由文字过渡至语音、图像乃至视频。为了更好地理解用户的搜索意图,这些机器人将拥有强大的自然语言理解能力,可以根据用户的搜索需求将之导引至某个专属领域 app。

目前看来,拥有庞大的开发者生态以及企业基础数据的苹果 app store 和 AWS 云平台,极有可能超越谷歌,成为 In-app search 时代的弄潮儿。

搜索领域现阶段面临的难点——「内容理解」

无论是一般性检索还是垂直领域检索,在「机器人时代」都不可避免地要面临「内容理解」的难题。

为了让搜索引擎很好地理解人类意图,我们必须保证引擎底层的知识结构和人类的知识结构保持一致,自然语言理解在这过程中便扮演了重要的角色。换句话说,自然语言理解是搜索引擎的索引和用户输入之间的桥梁,一旦缺少这个桥梁,我们的检索技术相当于倒退至几十年前,基本没有进步。

然而「内容理解」面对的内容不仅仅是常见的网页,还包括了其他的文本结构如工作文档(可进一步细分为 word 文档、pdf 文档等)、图像、视频等,这就超出了自然语言理解的范畴,必须依赖诸如卷积神经网络、运动监测、物体检测等一系列特定技术才能解决信息提取问题。这也推动了目前深度学习领域较热门的 embedding 工作,试图将字面上的 token 映射至数字空间上。只有将不同文本结构的信息提取出来,我们才能将对象映射至文本空间上,接着通过文本技术来解决搜索的问题。

总的来说,「内容理解」的目的是要让搜索引擎找到一种近似人脑对自然观察理解的方式,然而这块目前还处于比较初级的阶段,目前引擎的信息提取效果大约等同于几岁小孩,有的时候甚至还不如一只动物。

这是搜索技术的发展当下所面临的瓶颈,需要更多的业界人士参与进来一起努力攻克。

附:叶旭刚老师的 TOP100Summit 案例分享详情

由 msup 主办的技术界一年一度的 TOP100Summit 上,叶旭刚老师将与大家分享他在房地产搜索领域关于自动补全与自动建议技术的建模实现(内容链接页:http://www.top100summit.com/think/13504)。作为搜索的辅助手段,智能的自动补全和自动建议可以帮助用户快速表达搜索意图,同时避免查询词重复进入深层 index 造成系统延迟。

为了实现这一目的,需要构建一套该垂直领域的知识图谱、词汇表、字典树数据结构,以及相关性概率的数学模型。叶旭刚老师将在报告中采用基于贝叶斯原则和条件独立及非条件独立的简化假设把相关性概率分解成区域化和个性化两个部分。在具体实现时采用两阶段贪婪排序。也就是先用区域化的相关性概率来找到一个搜索结果列,再对这个列计算个性化打分从新排序。此外,叶旭刚老师还会在报告中介绍评价系统表现的模型,以及对应的评价指标。

通过本次分享,学员可以了解自动补全和自动建议的一个全貌和具体在一个垂直领域是如何建模、设计和实现的。学员可以把该模型和技术移植到他们自己的搜索领域。比如说常见的场景是开发商品搜索或专业知识搜索的移动应用。

如果你对叶旭刚老师的主题分享感兴趣,也想通过活动了解更多其他领域的技术创新/研发管理实践,欢迎大家通过活动页面购买会议门票:http://www.top100summit.com/apply,会议提供各种购票组合,大家可以实际需进行购买。

显示全文
为您推荐
今古奇观是一本怎样的书?作者是谁?
今古奇观是一本怎样的书?作者是谁?

【导读】 今古奇观是一本怎样的书?作者是谁?,下面是小编为你收集整理的,希望对你有帮助!中国的名著实在太多了,就单说是个诗歌类的就有《诗经》《千家诗》《古诗十九首》;历史类的就有《三国志》《史记》《汉书》;小说类的就有《三国演义》《西游记》《红楼梦》;话本类的就有《西厢记》《清平山堂话本......

发布时间:2023-06-01 21:01:04

窦骁婚后首参加好友婚礼
窦骁婚后首参加好友婚礼

窦骁婚后罕见露面,并且还是给老友当伴郎。这次窦骁戴着黄色墨镜,状态不错,并且纪凌尘也好久没出面了,看起来我们联系不错。有人觉得已婚不能当伴郎,其实各地风俗不同,没那么多讲究。窦骁如今生活很美好,和赌王.........

发布时间:2023-06-01 20:03:12

桂花能做什么吃的?(桂花酒、桂花饼、桂花粥、桂花茶等)
桂花能做什么吃的?(桂花酒、桂花饼、桂花粥、桂花茶等)

【导读】 桂花能做什么吃的?(桂花酒、桂花饼、桂花粥、桂花茶等),下面是小编为你收集整理的,希望对你有帮助!一般到了秋季的时候就会开始丹桂飘香,桂花是难得的一种香味浓烈却不会让人反感的一种花,就算凑近了闻也不会像别的花一样香得人上头,想打喷嚏,桂花不仅好看好闻,并且还能做不少的美食,让人流连忘返,那么桂花到......

发布时间:2023-06-01 20:01:04

何晟铭:演好角色需要仪式感
何晟铭:演好角色需要仪式感

在戏骨云集的《山河月明》中,青年演员何晟铭饰演的太子朱标是一大亮点。透过层次分明的细腻诠释,何晟铭成功驾驭了这个刚柔相济、复杂厚重的历史人物。对他来说,演好角色需要仪式感,而岁月的沉淀也让他的演技蜕变.........

发布时间:2023-06-01 19:03:13

换屏后手机总自动重启怎么回事
换屏后手机总自动重启怎么回事

【导读】 换屏后手机总自动重启怎么回事,下面是小编为你收集整理的,希望对你有帮助!自动重启一般分为三种原因,一种是硬件故障或者电池接触不良 ,一种是安装的软件有冲突,一种是运行程序或者缓存过多,可以通过以下方法解决:1、硬件故障或者电池接触不良,这个需要拿去售后检测或者更换电池。2......

发布时间:2023-06-01 19:01:03

宋伊人、丁泽仁主演的《花青歌》过审,人设有趣,口碑却让人担忧
宋伊人、丁泽仁主演的《花青歌》过审,人设有趣,口碑却让人担忧

2021年由楼健执导,苏晓彤、王子奇领衔主演的《御赐小仵作》可以说取得了不错的口碑与成绩,使这部小成本剧集达到了S+级的热度与播放量,成了近两年来当之无愧的古代仵作题材的古装甜爽探案喜剧。如今距离这部.........

发布时间:2023-06-01 18:03:12

鹅蛋能蒸蛋羹吗
鹅蛋能蒸蛋羹吗

【导读】 鹅蛋能蒸蛋羹吗,下面是小编为你收集整理的,希望对你有帮助!能。鹅蛋是家禽鹅生下的卵,表面较光滑,白色,呈椭圆形,个体很大,其重量是一般鸡蛋的四、五倍,味道有些油,但质地较粗糙,草腥味较重,食味不及鸡鸭蛋,新鲜的鹅蛋必须烹饪后食用。此外,鹅蛋中还含有丰富的营养......

发布时间:2023-06-01 18:01:06

江疏影与王传君同框叙旧
江疏影与王传君同框叙旧

江疏影和王传君,两个看似完全没有交集的名字,在5月28日有了神奇的新反应因为一起参加《五十公里桃花坞3》,老同学很少在镜头前同框。除了花旦 江疏影说,他想和王传君在一起,因为这会让他更有安全感。这也让.........

发布时间:2023-06-01 17:03:17

向日葵传播种子的方法 这些方法可以传播种子
向日葵传播种子的方法 这些方法可以传播种子

【导读】 向日葵传播种子的方法 这些方法可以传播种子,下面是小编为你收集整理的,希望对你有帮助!向日葵不仅可以观赏食用,另外在工业方面也有一定作用,向日葵有很多种不同传播种子的方法,分别是自体传播、风体传播、水体传播、鸟类传播、哺乳类动物传播等,传播范围也是相当广泛。向日葵传播种子的方法1.自体......

发布时间:2023-06-01 17:01:05

《奥本海默》新预告泄露 展示更多新角色
《奥本海默》新预告泄露 展示更多新角色

在很早之前发布首支官方预告后,人们关于克里斯托弗·诺兰自编自导的新片《奥本海默》愈加等待。而近日网上走漏出了一段长达 3 分钟的最新预告,其中展示了更多新角色,包含马特·达蒙、佛罗伦斯·皮尤和小罗伯特.........

发布时间:2023-06-01 16:03:25

纳摩盖吐龙:蒙古超巨型恐龙(长21米/长有钉状牙齿)
纳摩盖吐龙:蒙古超巨型恐龙(长21米/长有钉状牙齿)

【导读】 纳摩盖吐龙:蒙古超巨型恐龙(长21米/长有钉状牙齿),下面是小编为你收集整理的,希望对你有帮助!纳摩盖吐龙是一种蜥脚类恐龙,诞生于7500万年前-7000万年前的白垩纪末期,体长最多可达21米,属于超巨型恐龙的一种,因为出土的四颗钉子状牙齿而被命名,第一批化石发现于蒙古国,因此也叫做蒙古纳摩盖吐......

发布时间:2023-06-01 16:01:04

日内瓦是哪个国家的首都:瑞士的一个城市(并不是首都)
日内瓦是哪个国家的首都:瑞士的一个城市(并不是首都)

【导读】 日内瓦是哪个国家的首都:瑞士的一个城市(并不是首都),下面是小编为你收集整理的,希望对你有帮助!我们知道地球对于人类来说是一个非常大的星球,因此地球上还有许多我们人类没能发掘的地方,而地球上的国家也是非常多的,日内瓦这个城市也是一个比较有名的城市,那么日内瓦是哪个国家的首都呢?它具体又在哪个地方......

发布时间:2023-06-01 15:01:04