当前您所在位置: 首页 >> 教育信息化 >> 教育信息化 >> 正文
教育信息化
不同数据环境下,高校数据质量的对比情况
日期:2017年06月26日 11:13点击率:

在信息技术快速发展的“互联网+”时代,各个组织都拥有大量的数据,并呈现爆炸式增长,但其中有用的信息却很贫乏。数据与信息有关联,也有区别。数据是反映客观事物属性的记录,是信息的具体表现形式,数据经过加工处理之后,才成为信息。数据是信息的基础,数据质量是信息质量全面提升的重要保障


高校信息化建设包括计算机化、网络化、数字化、数据化、智慧化等不同阶段,这些发展阶段造就了不同的信息化数据环境,总结起来,可以定义为四种数据环境:数据文件环境、应用数据库环境、主题数据库环境、信息检索系统环境。


在实际的高校信息化建设中,高校内部部门、单位信息化建设存在很大的差异化和不平衡性,很难实现阶段性的跨越,往往形成多个阶段并存的局面,即在同一个时期存在多种多样的数据环境。不同的数据环境存在不同的数据质量问题,本文首先介绍数据质量的概念,分析了高校信息化中的四种数据环境及其关系,对比了不同数据环境中数据质量问题,最后给出了高校信息化建设中数据质量问题的处理建议。



数据质量概念



各种应用不断产生和结束,而其中的数据则一直存在,劣质数据使组织或个人不能做出有效的决策,只有高质量的数据,才能使各项工作高效的推进。数据质量不仅仅只涉及准确性或者可靠性,而是多维的。Wang和Strong使用一个两阶段调查和两阶段分类研究的方式提出了一个典型的数据质量层次框架,将从数据用户那里收集的118个数据质量特征合并为15个维度4个类别,如表1所示。


还有一些组织和研究机构也对数据质量进行了定义并形成了标准,比如麻省理工大学、美国商务部、欧盟统计局、国际货币基金组织等。总的来说,这些标准主要考虑了三个方面的内容:一是注重从用户角度来衡量数据质量,强调用户对数据的满意程度二是数据质量是一个综合性概念,需要建立一套有效的数据质量管理体系,从多方面多角度评价数据好坏三是把适用性、准确性、适时性、完整性、一致性和可比性作为数据质量的基本要素




高校信息化中的数据环境




1.数据文件环境



数据文件环境中,一般通过Excel等单机软件完成数据的记录和存储, 数据可能用于辅助管理人员或者业务办理人员完成各项工作的开展,也可能用于工作内容的备份和存档。高校之所以还存在这类环境:一方面是很多人还不能从手工或使用Excel等简单软件工作方式转变成使用信息系统的工作方式,缺乏共享意识和整体观念;另一方面是部分单位满足于现有的工作方式,很难接收改变,或者缺少转变所需要的资金和人才支撑


这种数据环境下数据存储在个人办公计算机上,受众面窄,没有专门的访问控制和安全性策略,存储和表示数据的方式以个人喜好为主,没有固定的规范,数据的利用价值很低



2.应用数据库环境



应用数据库是基于学校实际的业务需求出发,通过面向过程的方式建立而成,主要服务于高校的各类MIS系统。很多高校并无专业的设计、开发团队,往往委托技术公司完成系统的设计、数据库的构建、功能的实现和系统的运行维护。其数据的设计依赖于一些大家公认的技术规范进行,是比数据文件环境更高级的数据环境。


系统建设团队往往是由不懂技术的业务人员和不懂业务的技术人员组成,系统除了存储业务功能所需要的必要数据外,也存储了很多的冗余数据,两类数据之间并没有明显的界限,影响了管理层的决策工作。


系统建设依据于现有业务实现,只能适应过去,而很难适用未来。早期的MIS系统并未过多涉及业务之外的功能,如统计、汇总、查询功能考虑不足,很多都只能进行事后处理,通过人为参与的方式手工完成。若业务进行了调整,则需要对系统进行重大的改造,数据需重新转换、清洗


在应用数据库环境中,不同部门都建立了各自的信息系统,系统之间的数据存在严重的异构问题:不同系统采用了不同的数据库存储系统;系统服务于不同的业务,其对数据存在不同的需求;同一类数据,存储的格式和表示的方法存在比较大差别。部门之间的数据存在互访和交互问题,渐渐成为了很多的信息孤岛



3.主题数据库环境



主题数据库环境是较高级的数据环境,由国际知名学者James Martin博士最先提出,他认为主题数据库环境是一个用以支持企业或组织决策分析处理的、面向主题的、经过科学的规划和设计、用DBMS建立起来的、具有共享性和一致性的、以主题数据库为主的集成化数据环境,只有在这种数据环境中才能开发和运行集成化的信息系统。


高校在信息化建设的数字校园阶段普遍引入此概念来构建高校独有的主题数据库环境,此环境下的数据独立于具体的部门和业务应用,而是将全校各类业务数据进行综合组织整理后,按照学校概况、学生管理、教学管理、教职工管理、科研管理、财务管理、资产与设备管理、办公管理、外事、档案管理等业务主题划分为相互关联的数据类集合,每类集合作为支持业务组的稳定数据基础,业务子集可以在此基础上直接构建,而不需要再设计新的数据库。


主题数据库环境跳出了涉及众多多变处理过程的业务,而转向更高层次的业务数据。但是主题数据库环境中的数据大部分是来源于处于更低级数据环境中的各个业务系统,这些数据通过各种集成技术,进行数据加载、清洗、转换,最后进行汇聚,此过程中只能解决一些形式上的数据质量问题,包括异构、表达方式、存储格式等等,而因为业务系统设计、具体执行过程产生的更加深层次的质量问题很难解决,比如数据真实性、数据及时性、数据关联性等



4.信息检索系统环境




5.数据关系环境



四种数据环境基本上都存在于当前的高校信息建设中,其中应用数据库环境是主要部分,有一少部分为数据文件,主题数据库和信息检索系统环境是最主要的建设目标。不同环境的中数据依次向更高级环境的数据服务,数据文件作为应用数据库的输入源之一,应用数据库则是主题数据库的主要输入源,主题数据库是信息检索系统的主要输入源。具体如图1所示。


图1   数据环境之间的关系




不同数据环境的数据质量



  • 数据文件环境下的数据是支撑业务人员的必须数据,具有很高的可靠性,但是数据很容易过时,需要人为的持续维护,不然数据准确性必然会降低,其数据用途和表达形式完全依赖于负责维护的个人。

  • 而在应用数据库环境下,业务涉及的数据需保证业务的正常运转,具有很高的内在质量,而其它冗余数据往往不能有效保证其质量,应用数据库涉及的业务范围窄,其所涉及的上下文有限,数据存储和表示以方便的方式为主,数据的访问安全性考虑也不周全。

  • 主题数据库环境中的数据是服务于业务全域,可能是同一时期的不同业务,或者同一业务不同时期的不同流程,涉及上下文范围广阔,需要保证很高的数据质量,其数据来源于不同的异构数据存储,需要采用规范、通用的存储和表示方式,主题数据库通过统一的出口提供数据,访问质量也有保障。

  • 信息检索系统环境下用户群体众多,很多质量问题都能很容易在使用过程中显现,所以其数据质量要求是最高的。

四种环境的数据质量情况对比如表2所示。




数据质量问题处理建议



高校数据质量问题来源有很多,有信息层面、技术层面、流程层面、管理层面,涉及的方面众多,很难有效开展全面的数据质量管理策略,应根据实际情况逐步改善现有问题。


不同数据环境必然会很长时间共存于高校的信息化建设中,试图改变这种局面很难,而应该考虑如何充分利用这种局面。特别是应用数据库环境,在信息化环境转变中存在承上启下的作用,必将长期存在。要在对高校现有数据环境进行充分调研基础上,逐步调整改善

  • 对于数据文件环境,尽量提高其环境级别;

  • 对于应用数据库环境中数据,剥离其中的有用数据和冗余数据,利用有用数据构建更高级别的数据环境;

  • 对于主题数据库环境,则应以构建此数据环境为手段和目标,使整体的数据质量得以提升。


信息化建设持续推进的过程中,将涌现越来越多的业务系统,通过开展信息化数据管理和规范服务以提高系统中关键数据的数据质量,可以使数据更有价值,最终使数据效能最大化。


转自“中国教育信息化”微信公众号




联系方式投诉邮箱

版权所有 重庆邮电大学 地址:重庆市南岸区崇文路2号 邮编:400065

渝 ICP备 05001043号