美国“存储Twitter”,中国也要给博文“建档”

2019-04-20 09:40:48 来源:网络整理 作者:管理员

原标题:美国“存储Twitter”,中国也要给博文“建档”

4月19日,“国家图书馆互联网信息战略保存项目”在北京启动。

美国“存储Twitter”,中国也要给博文“建档”

这个项目的名字有些让人费解,国家图书馆与互联网信息怎么会联系在一起,还要战略保存呢?这要从图书馆的变迁说起。

图书馆存储公共数字资源

查一下国家图书馆的百度百科就能知道所以然。

国家图书馆是世界最大、最先进的国家图书馆之一,也是亚洲最大图书馆。互联网时代,随着信息创造、传播和存储的数字化,国家图书馆与时俱进,1995年就按照数字化、网络化建设的思路,制定了《国家图书馆网络建设发展规划(1997-2000)》。2001年11月,国家图书馆二期工程暨国家数字图书馆工程正式立项。截至2017年12月,馆藏数字资源总量达1323.35TB,包括电子图书、期刊、报纸、特藏专藏和视听文献。

美国“存储Twitter”,中国也要给博文“建档”

换言之,图书馆早已不是人们印象中的一个存满纸质图书的物理空间,而是一个以各种载体储存人类创作信息的地方,图书馆的本质就是信息存储空间。在软件工程里面,library也有“信息库”的意思,它包含构建应用所需的一切,如源代码、资源文件等等。我大学读的是软件工程,一个室友留校在图书馆工作,当初以为他放弃了本业,现在看来,我误会他了,图书馆数字化的大趋势下,计算机、信息化、数字化都变得越来越重要。

互联网公司有海量信息存储在自己的数据库,就像人人家里都有藏书一样,但在社会中扮演书籍收藏和公共文化服务的则是图书馆,这样再来看“国家图书馆互联网信息战略保存项目”就更容易理解。

按照官方说法:

“国家图书馆互联网信息战略保存项目”是一个旨在“建设覆盖全国的分级分布式中文互联网信息资源采集与保存体系,通过与国内重点数字文化生产和保存机构的合作,推动互联网信息的社会化保存与服务,构建国家互联网信息资源战略保障体系。”

翻译一下,就是国家图书馆启动一个项目,希望可以采集和存储有价值的中文互联网信息,再将这些信息用于社会,比如政策决策和学术研究等非商业用途。

用国家图书馆官方公布的话术来说就是:

“互联网信息成为人类文明和社会记忆的新载体,客观反映着一定时期内政治、经济、文化和社会等方面的变迁。易逝性和不可再生性,使互联网信息的采集和保存尤为迫切,而随着移动互联网和物联网的普及,互联网信息的规模爆炸式增长,调动社会力量参与也成为互联网信息采集和保存的趋势。”

美国“存储Twitter”,中国也要给博文“建档”

现已成为阿里副总裁的涂子沛在《大数据》一书也曾分享,美国政府运转的底层基础其实就是数据,“社会计算是大数据时代最大的亮点。”这本书拿到了国家图书馆文津图书奖,想必对国家图书馆管理层也有所启发。

国家图书馆从2003年开始尝试对互联网资源进行采集和保存,2009年成立互联网信息保存保护中心,对国内外政治、经济、文化、科技等领域重要网站和重大专题资源进行采集保存,截至2018年,全国各级公共图书馆累计采集网站23000余个。“推进数字资源建设与保存工作”是国家图书馆“十三五”规划的重要工作之一。在这样的整体规划下,国家图书馆启动了互联网信息战略保存项目。

首家互联网信息战略保存基地同日在新浪挂牌,由国家图书馆与新浪共建。国家图书馆相关负责人透露:

“在中国境内开展互联网业务、并在相关领域处于领先地位的企业机构,均可申请成为互联网信息战略保存基地共建主体。共建主体需确保其提供的信息数据完整、有效、安全,并拥有合法所有权、知识产权或已获得相应授权。”

换言之,大多数互联网公司都可加入这一项目,这是国家图书馆牵头的一次社会化数据共享、存储和应用实验。

美国国会图书馆存储Twitter

美国图书馆行业一直走在世界前列,一方面,图书馆历史久、数量多、规格高,比如每个大城市都有历史古老且富丽堂皇的公共图书馆,很多城市图书馆已成为旅游者打卡地。另一方面,受益于发达的IT产业,图书馆拥抱数字化技术较为积极。

美国国会图书馆是美国四个官方国家图书馆之一,是美国历史最悠久的联邦文化机构,已经成为世界上最大的知识宝库。2010年,它就与Twitter达成一项合作协议,后者向前者提供所有公开的推文,已被删除和屏蔽的除外,其认为,Twitter上简短的信息可以将“国家故事”中微小、但却非常重要的部分反映出来。

美国“存储Twitter”,中国也要给博文“建档”

美国国会图书馆与Twitter的“Twitter保存项目”通过总部位于科罗拉多州博尔德市的社交媒体聚合网站Gnip落地,Gnip发现要做好这件看似简单的“信息存储”的事并不容易。

首先,数据高速膨胀。项目启动三年后,2013年Gnip终于实现了对1700亿条推文的存储,当时已需要每天存储用户创造的4亿条内容,这对存储空间的消耗十分惊人。移动互联网时代,随着越来越多人使用Twitter,每天产生的内容高速膨胀,而且短视频等新的内容形式被不断引入——数据大爆炸是整个互联网面临的问题。

其次,数据峰值问题。Gnip直言,这一项目真正的挑战来自高峰时期对tweets 的收集,比如2011年3月日本海啸期等事件的爆发,当时,每秒钟产生的tweet信息数量有好几千。

再次,数据利用问题。碎片化的数据多且杂,要利用它们就需要大数据挖掘等技术。美国国会图书馆的想法是,先把数据存下来再说,怎么用来不及考虑,甚至连归类都来不及做,到现在,这些数据也仅仅是存储下来而已。

最后,数据开放问题。既然是公共图书馆,最大价值就是对全社会开放,数字内容也不例外。在美国国会图书馆启动“Twitter保存项目”后,全世界研究人员都很感兴趣,他们很快收到来自世界各地研究人员的约400个查询请求,查询的主题涉及文化、政治、医疗、经济等诸多方面,然而数据量太大,技术实现不了——即使对2006年和2010年间产生的tweet查阅一边也需要24个小时。

美国“存储Twitter”,中国也要给博文“建档”

美国国会图书馆在2013年公布的白皮书中写到:

“让研究人员获得这些数据的技术水平要明显落后于这些数据的产生和传播的技术水平。现在技术不足,而开发这些技术的成本非常高。”

当时,美国政府开始推行财政紧缩政策,国会图书馆经费紧张,此前其在数据收集上已花费一大笔资金,没有更多资金投入到数据的挖掘、利用和开放上。2018年,这一项目再次遇到困难,Twitter信息爆炸式增长,服务器不堪重负,美国国会图书馆表示将不再收集Twitter上所有公开推文,而是保存他们认为重要的(比如特朗普的?),到现在为止,这一项目也仅限于数据存储,依然未能实现对数据的挖掘、利用和开放,当然我们不用怀疑这样做的价值:数据就是资产,未来终可挖掘。

不只是美国,澳大利亚、法国、瑞典和荷兰等国都在90年代启动了国家级的互联网数据收集策略,相对而言,中国“国家图书馆互联网信息战略保存项目”虽然来得较晚,却有望基于当下更加成熟的技术和更加独特的模式,实现互联网信息存储、利用和开放的多赢。

国家图书馆凭什么存储整个互联网?

或许是看到了美国国会图书馆与Twitter合作遇到的困难,“国家图书馆互联网信息战略保存项目”采取了截然不同的模式。

与美国国会图书馆将Twitter内容存储到合作方的服务器不同,“国家图书馆互联网信息战略保存项目”采取社会化、分布式和分级式的数据保存机制,国家图书馆根据保存规范、数据遴选机制和服务需要提供使用需求,互联网公司负责内容存储,这样可以避免数据的重复存储。

将所有互联网数据进行二次存储本身就不现实。互联网内容十分多元,比如首家参与到这一项目的微博,覆盖的数据类型比Twitter更多样,不只是有短文字,还有短视频、图片和文章等大杂烩内容,财报显示,2018年12月微博月活已达4.62亿,12月日均活跃用户数突破2亿关口,微博上的存量内容,截至2018年12月已有多达2000多亿条博文、500多亿张图片、4亿个视频和近5000亿互动,每天博文增量超过1亿,数据量巨大。如此海量数据,再转存到单独服务器即不可能,亦无必要。

正是基于社会化存储的模式,“国家图书馆互联网信息战略保存项目”不像美国国会图书馆只与Twitter一样“点对点”合作,而是“点对多”合作。国家图书馆牵头,任何符合条件的互联网公司都可申请加入其中。随着移动互联网的普及,互联网正时时刻刻对真实世界进行映射,不仅是微博的博文,快手记录真实世界的短视频、知乎的帖子,都是宝贵的社会信息资源,都可以成为“国家图书馆互联网信息战略保存项目”保存的目标。

尤为重要的是,“国家图书馆互联网信息战略保存项目”不只是单纯地保存数据,而是“保存、利用和开放”三管旗下,国家图书馆擅长的是学术和公信力,而不是技术,因此具体的应用依然是国图提需求,互联网公司负责信息处理。

美国“存储Twitter”,中国也要给博文“建档”

比如在与新浪的合作中,互联网数据分析报告、政府公开信息分析报告、社会群体的公益性信息服务,都有可能成为这些信息的用途。今天,AI技术特别是自然语言处理技术比前几年已经成熟很多,拥有信息流、搜索等业务的微博和新浪在自然语言处理技术上也有深厚积累,这意味着,它们有能力对平台上的海量互联网内容进行挖掘,满足公共社会的非商业公益查询需求。

从“国家图书馆互联网信息战略保存项目”的设计来看,应该是看到美国国会图书馆与Twitter的合作模式的弊端后,进行的全新机制设计。虽然这一项目没有形式上的“保存”,但事实上却实现了互联网公开信息的“归档”,同时可以实现利用和开放。

跟美国国会图书馆看中Twitter“小却重要”内容能反映社会进程的逻辑一样,国家图书馆首先与微博合作也是看中其UGC社会化属性。微博上每个用户以不同形式从个体视角记录生活、探索世界和讨论话题,形成了海量信息,这部分信息和其他互联网平台的信息是差异化的,而在国家图书馆此前对互联网信息的采集和保护中,这类信息也不是重点,是从结构上丰富了国家图书馆的馆藏信息,所以具有更大的价值。

不仅如此,最近几年已经发生过很多因为公众在微博上的参与而引起关注、最后推动事件获得解决的案例,比如2017年网友举报有人驾驶越野车追赶藏羚羊的案件、2018年的“疫苗造假事件”等。可以说,微博不但是能全面反映社会发展进程的互联网平台,而且用户在微博上发布的内容,本身就是社会发展进程的一部分。这种独特的价值是其他平台无法取代的。

如果“国家图书馆互联网信息战略保存项目”项目能够成功,对于很多已经和即将开展互联网信息保存的国家来说,应该会成为又一个“中国式样本”。

如果觉得文章不错,可以+我luochaozhuli进群(备注:进群)交流。

欢迎关注 BT商业科技(bttimes)

显示全文
为您推荐
金字塔之谜,金字塔的未解之谜
金字塔之谜,金字塔的未解之谜

【导读】 金字塔之谜,金字塔的未解之谜,下面是小编为你收集整理的,希望对你有帮助!对于金字塔,我们还是有很多很多不知道的东西,一直以来探索金字塔的秘密没有停止过。但是仍然会有很多的谜团困扰着我们,探索金字塔的秘密的道路还有很长,那么金字塔到底有哪些未解之谜呢?什么是金字塔?&ldq......

发布时间:2023-05-31 23:01:04

旃檀功德佛是干什么的 消除过去生中阻止斋僧的罪业
旃檀功德佛是干什么的 消除过去生中阻止斋僧的罪业

【导读】 旃檀功德佛是干什么的 消除过去生中阻止斋僧的罪业,下面是小编为你收集整理的,希望对你有帮助!《西游记》中唐僧师徒一行人最终取经成功,各自被封了佛号,这也算是对这十余载取经路上的辛苦最好的一个回馈了。但是有的人说唐僧被封的佛号地位非常低?倘若你知道白龙马最后封号是什么,就不会这样想了。很多人觉......

发布时间:2023-05-31 22:01:05

点映倒计时7天!动画《阿里巴巴与神灯》发海报
点映倒计时7天!动画《阿里巴巴与神灯》发海报

5月25日,距离合家欢动画电影《阿里巴巴与神灯》6月1日全国点映只有7天,为了给影片点映宣传造势,片方发布了点映倒计时7天版海报。海报上,乌云滚滚而来,黑压压的一片,将繁华的阿兹罗德笼罩其中,紧张的氛.........

发布时间:2023-05-31 21:03:12

奎木狼两个孩子为什么要死?孙悟空想要报复(妖怪之子不可留)
奎木狼两个孩子为什么要死?孙悟空想要报复(妖怪之子不可留)

【导读】 奎木狼两个孩子为什么要死?孙悟空想要报复(妖怪之子不可留),下面是小编为你收集整理的,希望对你有帮助!奎木狼本是天上的神仙,下凡后成了妖怪改名叫黄袍怪并以此为非作歹,他在凡间和百花羞公主结为了夫妻并孕育了两个孩子,但最后这两个孩子被弄死了?为什么奎木狼的孩子会是这样的结局呢?跟着小编一起看看吧。奎木狼......

发布时间:2023-05-31 21:01:04

张萌问我出轨的角色这么经典吗
张萌问我出轨的角色这么经典吗

有网友问张萌新剧《后浪》有没有出轨,张萌表示:这次母胎solo三十多年,还反问:我越轨的人物这么经典吗?那是,又经典又气人,令人形象深刻,都被网友称为“渣女专业户”了。尤其是在《安家》里的体现,名台词.........

发布时间:2023-05-31 20:03:17

金缕曲一词中的季子平安否的季子指的是谁?
金缕曲一词中的季子平安否的季子指的是谁?

【导读】 金缕曲一词中的季子平安否的季子指的是谁?,下面是小编为你收集整理的,希望对你有帮助!顾贞观是清代文学家,原名华文,字远平、华峰,亦作华封,号梁汾。他是江苏无锡人,擅长写词,代表作有《弹指词》《积书岩集》等。他不仅和陈维崧、朱彝尊并称明末清初“词家三绝”,还和纳兰性德、曹贞吉共称为“京......

发布时间:2023-05-31 20:01:04

春城是哪个城市
春城是哪个城市

【导读】 春城是哪个城市,下面是小编为你收集整理的,希望对你有帮助!1、春城是指云南昆明,昆明一年中10个月是春天,两个月是冬天,但在冬天里平均气温也接近10℃,因此有春城的美誉,春城名称来源于杨慎的诗句天气常如二三月,花枝不断四时春”。云南省三面环山,南临滇池,气候......

发布时间:2023-05-31 19:01:04

当年的林靖恩,不顾反对嫁给老爷爷,结婚几年脸已失去了笑容
当年的林靖恩,不顾反对嫁给老爷爷,结婚几年脸已失去了笑容

前言:当年的林靖恩,不顾反对嫁给老爷爷,结婚几年脸已失去了笑容娱乐圈中有很多姐弟恋和爷孙恋,虽然他们年龄相差很大,但是也有能够携手共度一生,如今一提到这种关系,大家应该想到的都是林靖恩和李坤城。在当年.........

发布时间:2023-05-31 18:03:17

卫星地图发现神秘人形图之谜,山顶惊现麒麟武士(外星人)
卫星地图发现神秘人形图之谜,山顶惊现麒麟武士(外星人)

【导读】 卫星地图发现神秘人形图之谜,山顶惊现麒麟武士(外星人),下面是小编为你收集整理的,希望对你有帮助!对于外星人是否真实存在没有人能给出确切的答案,卫星地图发现神秘人形图之谜让人们相信外星人存在的真实性。四川雅安蒙顶山上惊现麒麟武士,这并不是人为,唯一能解释的答案就是外星人的杰作,一起来看看神秘人形图......

发布时间:2023-05-31 18:01:04

韩庚新剧《还没爱够》播出热度不止 画风清奇
韩庚新剧《还没爱够》播出热度不止 画风清奇

韩庚由韩庚、王晓晨领衔主演的都市情感剧《还没爱够》自1月5日播出以来,获得收视率和口碑双丰收。首播不负众望的拿下1.634的好成绩,而后更是达到多个卫视的最高收视率。此外,根据某指数排行榜显示,《还没.........

发布时间:2023-05-31 17:03:15

造访和拜访的区别
造访和拜访的区别

【导读】 造访和拜访的区别,下面是小编为你收集整理的,希望对你有帮助!造访和拜访的区别在于访问者的角度不同。造访指的是到别人那里去,访问者是主,被访问者是客;拜访指的是访问者是客,被访问者是主。造访意思为前往访问,拜访。出自明朝李东阳《封大安人杨母张氏墓志铭》:京曹宾友......

发布时间:2023-05-31 17:01:04

北京七环一圈多少公里
北京七环一圈多少公里

【导读】 北京七环一圈多少公里,下面是小编为你收集整理的,希望对你有帮助!1、北京七环路有940公里。北京大外环高速公路,又称首都地区环线高速公路,含张涿高速、张承高速、承平高速、密涿高速、廊涿高速等,规划总里程约940公里,其中河北省境内约850公里。目前部分路段还存在断......

发布时间:2023-05-31 16:01:04