高校信息應用系統,在日常教學和管理中積累了大量歷史數據,但這些海量數據卻沒有得到有效的分析和利用,各部門人員在日常數據錄入和維護中只是通過統計和排序對數據進行簡單的功能操作獲得一些表面、淺顯、價值不高的結果。構建一個大數據分析平臺,從學校其他應用平臺中抽取海量數據進行管理、整合、分析和利用,從中發現潛在問題和有價值的規律,并通過可視化的方式進行展示,能夠為學校管理層提供科學決策的支持,并滿足教師、學生的個性化需求,從而提高高校信息化服務的質量。
1.構建目標
(1)實現數據的共享和交換。將學校各應用系統的數據進行集成和整合,使來源各異、種類不一的各類數據可以相互使用,豐富數據的來源,打破系統間的信息孤島,實現數據的共享和應用。
(2)大數據的采集和存儲。研制數據適配接口,對接校內各應用系統獲取各類異構數據,并采用大數據主流的框架和系統對數據進行統一存儲,為數據的挖掘和分析打好基礎。
(3)大數據分析與決策。采用數據挖掘、數理統計等相關技術,構建大數據分析框架,提取數據中隱含的、未知的、極具潛在應用價值的信息和規律,為學校的教務管理、科研管理、學生管理、后勤管理等各項工作提供決策和指導。
2.構建原則
(1)安全性。高校信息化工作中有許多保密性內容,大數據分析平臺應采取安全性高的訪問認證機制,同時在平臺建設中要充分重視系統自身的安全性以及其他應用系統的安全性。
(2)可擴展性。對高校教育大數據的分析和應用是一項長期持久的工作,隨著管理工作的重點、教育信息化工作的變化推進,對于信息平臺的規模和要求也會不斷變化。因此,要求平臺的設計和實施要具有良好的擴展性,以滿足不斷發展變化的要求。
(3)靈活性。在平臺的設計和實施中要考慮到與其他應用系統的整合,開發出多個類型的接口,能夠靈活接入其他系統、拓展服務類型。
3.總體框架
平臺應適應于大數據處理要求,能支持PB級數據管理。系統架構應高安全性、易擴展性,能夠支持各類主流開發語言,并提供豐富的接口。同時能夠支持結構化和非結構化數據的存儲和應用。Hadoop作為開源的大數據處理平臺和工具,其提供的HDFS分布式文件系統和MapReduce模型能夠很好地滿足以上的要求。
基于Hadoop技術的高校大數據分析平臺自下而上分為三個部分,分別為:數據層、大數據采集與存儲、數據分析及展示。
(1)數據層,針對不同系統進行分析,制定系統數據采集范圍與目標,收集本校在日常管理和教學中的產生的各類數據,將各種結構化和非結構化數據進行整合,為大數據的分析提供支撐。
(2)大數據采集與存儲旨在為各類異構數據研制適配接口,與校內其他各系統對接,并為數據提供適配、轉換、存儲等基本管理功能。
(3)數據分析和展示是核心業務層,通過數據報表工具,根據需求制定多樣的,針對性的數據報表。通過基于的Hadoop的MapReduce編程模型實現的數據分析系統,針對存儲的數據進行數據處理、算法運行、結果轉換操作,將結果保存為報表文件,每日形成的報表文件集。報表展現系統將生成的報表文件以可視化方式進行展現。