数据收集|教育大数据的来源、分类和结构模型

一、教育大数据的来源

教育是一个超级复杂的系统,涉及教学、管理、教研、服务等诸多业务。与财务系统清晰、规范、一致的业务流程不同,不同地区、不同学校的教育业务虽然有一定的特点,但差异性也非常突出,业务的差异直接导致教育数据来源更加多样,数据采集更加复杂。

教育大数据来源于各种教育实践活动,包括校园环境中的教学活动、管理活动、科研活动和校园生活,以及家庭、社区、博物馆、图书馆等非正式环境中的学习活动。既包括线上教育教学活动,也包括线下教育教学活动。

教育大数据的核心数据源是“人”和“物”——“人”包括学生、教师、管理者和家长,“物”包括信息系统、校园网站、服务器、多媒体设备等教育设备。

根据来源和范围的不同,教育大数据可分为六种类型:个体教育大数据、课程教育大数据、班级教育大数据、学校教育大数据、区域教育大数据和国家教育大数据。

二、教育大数据的分类

教育数据有多种分类。

从数据生成的业务来源来看,包括教学数据、管理数据、科研数据和服务数据。

从数据生成的技术场景来看,包括感知数据、业务数据和互联网数据。

从数据结构来看,包括结构化数据、半结构化数据和非结构化数据。结构化数据适合二维表存储。

从数据生成的环节来说,包括过程数据和结果数据。程序性数据是在活动过程中收集到的难以量化的数据(如课堂互动、在线作业、网络搜索等。);结果数据往往表现出一些可量化的结果(如成绩、等级、数量等。).

国家收集的数据主要是管理性的、结构化的和注重结果的,侧重于宏观教育发展的总体情况。大数据时代,教育数据的全面采集和深度挖掘分析变得越来越重要。教育数据收集的重点将转向非结构化和程序性数据。

第三,教育数据的结构模型

整体来看,教育大数据从内到外可以分为四层,即基础层、状态层、资源层和行为层。

基础层:即我国最基础的数据是高度机密数据;包括教育部2012发布的教育管理信息七大系列标准中提到的所有数据,如学校管理信息、行政管理信息、教育统计信息等;

状态层,各种设备、环境和业务运行状态的数据;不可避免的能耗、故障、运行时间、校园空气质量、教室照明、教学进度;

资源层,最顶层是关于教育领域的用户行为数据。比如PPT课件、微课、教学视频、图片、游戏、教学软件、帖子、问题、试卷;

行为层:存储用户(教师、学生、教研人员、教育管理者等)的行为数据。)与拓展教育相关,如学生的学习行为数据、教师的教学行为数据、教学研究者的教学指导行为数据和管理员的系统维护行为数据。

不同层次的数据应该有不同的采集方式和教育数据应用场景。

关于教育大数据的冰山模型,目前我们收集的更多的是显性和结构化的数据,而冰山下存在的更多的是非结构化的,真正为教育产生最大价值的数据在冰山之下。

参考资料:

教育大数据的来源和采集技术?星贝贝