:“老科学家学术成长资料采集工程”(以下简称“采集工程”)是由中国科协牵头,会同中组部、教育部、科技部等11部委,以抢救和挖掘我国老一辈科学家学术成长史料为目标的国家基础性工程。采集工程历经10年建设,已积累海量可供探究科学技术人才成长规律、宣传卓越科技人物的实物和数据资料。本文从信息化建设方面出发,在系统介绍当前采集数据成果的基础上,对各环节涉及的数据采集、存储、分析和展示的全生命周期管理和信息化系统来进行归纳分析和展示,总结采集过程中遇到的问题,并据此提出建议。
2009年,季羡林、任继愈、钱学森、贝时璋等学术泰斗相继离世,引发社会广泛关注。中国科协组织专家研究起草《老科学家学术成长历史资料亟待抢救》报告并上报中央,国务院领导格外的重视并作出批示,2010年,采集工程正式启动。
截至2019年底,采集工程已启动543个采集小组,共有427位科学家的125128件实物资料、298498件数字化资料、8000余小时的音频资料、7000余小时视频资料入藏,涵盖科学家口述文字资料、传记、手稿、报道、学术评价等共计15个分类。
为永久保存采集工程数字化资料,中国科协创新战略研究院于2013年启动了采集工程信息化建设。目前已建成服务采集小组、项目管理、研究支撑、对外展示不同业务场景的11个应用系统/工具(表1),拥有1PB大容量NAS架构存储,业务系统双活灾备,全面支撑采集工程的“采、藏、研、宣”工作。
目前采集工程信息化平台运行了11个业务系统,分别面向采集、管理、服务、支撑和展示等五大类业务。采集业务主要服务采集小组资料采集和规范入库工作,管理业务为资料管理者、学术专家提供资料入库、审核管理和查询功能,服务业务提供全文检索、目录检索和基于典型流媒体资料的转码、播放和管理服务,支撑业务提供内容发布管理和运营分析,展示业务实现对采集资料的公开展示。五类业务之间的关系如图2所示。
五大业务中,除展示业务外的其他四类属于与硬件类似的基础设施,对于用户不可见,但却是支撑展示不可或缺的根基。展示业务是对用户可见的系统,其核心是中国科学家博物馆(网络版)。自2015年启动建设以来,中国科学家博物馆(网络版)已成为科技人物宣传的重要阵地、弘扬科学精神的窗口以及开展科技人物学术研究、进行文献检索的资源宝库。同时,为了加大中国科学家精神及采集工程的海外宣传推广力度,创新院于2017年6月启动了中国科学家博物馆(英文版)建设工作,该网站已于2018年12月正式上线。此外,展示业务中另外一个平台—科学家数据可视化系统,力求方便快捷地从多重维度对采集资料做统计分析及快速展示(图3),也已于今年上线 数据展示业务组图
采集工程信息化平台数据包括资料数据、成果数据、项目数据和业务系统数据(图4),涵盖采集项目启动、中期、结项全过程(图5)。
采集工程的项目数据包含年采集量、承担单位数量、参与课题人员的数量以及项目管理方数量等。截至2019年底,参与采集工作的项目承担单位共554个(含终止项目)(图6),参与课题人员达4124人,承担项目管理工作的地方科协、所属事业单位及各级学会共19家,遍布全国24个省市自治区。从年采集数量上来看,采集工程经历了抢救期(2010年-2012年)、过渡期(2013
年-2016年)、平稳期(2017年至今)等三个阶段,目前采集工程已进入常态化工作阶段。
目前,位于中国科技会堂的采集工程自建机房已存储经初步规范化清洗、总量达218TB的科学家资料,平均每位科学家的数据总量约400GB,单个文件最大可达100GB(图7)。
截至2019年,中国科学家博物馆(网络版)已建设完成了375位科学家的专题。其中,以科学家为单位、依据其学术成长脉络梳理、加工开发进行展示的“珍贵史料”栏目,已成功上线件数字化资料,且以每年千件的速率稳步增长(图8)。
除采集资料数据、成果数据及项目数据外,采集工程信息化业务系统中也存在诸多数据,如内容管理系统中的编辑展示数据、英文网站以及可视化系统中各类统计数据、科学家资料数据服务系统中的系统管理数据、中国科学家博物馆(网络版)运营分析系统中的运营分析数据等等。采集工程信息化业务系统中的主要数据如表2所示。
随着采集工程业务体系逐年扩大,现有信息化框架怎么来适应需求的变化、数据资源的开放标准和价值挖掘等将是采集工程信息化建设面临的主体问题,据此我们提出如下建议:
一是注重信息化应用的顶层设计,健全数据治理环节。采集工程历经十年建设,随着客户的真实需求的不断延展,查漏补缺型的应急型应用建设模式已经难以为继。注重顶层设计、优化数据生产模式、完善数据管控工作机制、突破业务与信息化间的融合壁垒、将信息化手段以标准规范的细粒度贯通全生命周期管理,是采集工程信息化建设的当务之急。
随着采集工程以采集为核心转向侧重应用的趋势导向,面对已积累的海量科学家数据资源,当前的数据管理及利用审批模式并不能充分满足数据开放使用的需求。这就要求在最大限度地考虑从数据研究到成果转化和实际应用周期的前提下,采取“分对象、分领域、分阶段”的开放原则,推动科技人物数据资源开放标准化,打造“科技史+N”的复合型队伍,为实现数据二次开发利用提供国家层面的准则支撑;面向不一样的需求,逐步探索进行开放共享、分级使用等举措,推动数据服务精准指向。
以现有“中国科学家博物馆”网站为基础,盘活科学家数据资源,建成集“人-事-物”为一体的综合性科技人物数字博物馆;充分的利用中国科协的优势资源,将分散在各机构各平台下的异构数据源重组,统一交互模式,消除“信息孤岛”,在对现有数据有效整合的基础上,建立国家级科技人物数据服务平台;融合拓展涉及多学科、多形式的数据资源产品,推动形成以宣传、研究两条主线为支点的应用品牌,结合社会网络分析与知识图谱等热点技术,分析、挖掘与展示科学家群体的学术成长经历,打造以弘扬科学精神、培育科学文化为目标的多维品牌矩阵,力求多链条推进中国科学家精神传播进程。文献来源:武虹,齐硕,赵立新,宁华华,杨宝龙.“数”说老科学家采集工程[J].今日科苑,2020(4):31-36.
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
原来是“它”!兴业银行尾盘涨停“操盘手”为福建港口集团,合并持股已相当于第8大股东
氰化物在入口几秒内,还没有进入胃,最多口腔附近的细胞死了,为什么整个人会立死?
车主吐槽涨价前6分钟被拒加油 律师:内部结算方式形成的不公平交易规则,已侵犯消费者合法权益
步行者6连胜终结:哈利伯顿前32场700+400比肩魔术师 双探花69分