高校关联数据中心(源码)
为了解决高校多种信息平台共存导致的数据冗余、数据格式不统一、数据交互性差等问题,提高系统的并发性能,更有利于挖掘数据中隐含的价值,通过综合分析了高校现有系统的架构特点、实际使用需求和具体的数据结构,研究了目前的主流数据整合技术、服务器负载均衡技术,采用Docker微服务化、数据库中间件与服务器集群等技术,设计并搭建了一种高校学生关联数据中心。通过对数据源的分析与映射,实现了学生数据的关联查询与离线分析数据的可持续集成;对集群的配置与部署,实现了单主机节点环境下系统2000用户的并发性能支持;开发并搭建管理系统,实现了系统各服务模块监控管理和新增数据的动态集成,为学生数据管理和分析提供了基础。关键词 关联数据,数据整合,负载均衡,数据库中间件,Docker
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 关键问题的研究 3
2.1 关键问题 3
2.2 关键技术 5
3 总体设计 6
3.1 架构设计 6
3.2 功能设计 8
4 数据库设计 9
4.1 数据结构转换 9
4.2 数据预处理 11
4.3 多数据源映射 12
5 系统详细设计 13
5.1 Docker多镜像协作 14
5.2 数据库集群搭建 18
5.3 后台管理系统设计 21
6 系统部署与测试 26
6.1 系统部署 26
6.2 系统测试及结果 27
结 论 32
致 谢 33
参 考 文 献 34
附录A 用户操作手册 36
附录B 相关的公开发明专利 41
附录C 相关的软件著作权 42
附录D 大学期间发表的论文 43
附录E 查重报告首页 48
引言
课题背景
随着数字化校园建设工作的推进与互联网技术的发展,多样化的学生工作信息管理系统、教务系统已经在高校 *好棒文|www.hbsrm.com +Q: ^351916072*
中普遍应用[1]。高校管理系统的应用能够及时地反映高校各工作的进展状态,可以利用过去的数据预测未来,增强了数据的处理能力,大大提高了高校管理人员的工作效率,降低了劳动强度。
在高校数字化校园建设[1]快速推进的过程中,由于基础建设资源不足、开发力不足、最初规划设计拓展性差等原因,导致现在的高等院校中多种信息管理平台共存、平台间交互性差、信息孤岛、数据冗余等问题[23]。在不影响原来系统正常运行的前提下,运用现有的技术对各平台的独立数据进行关联整合[4],可以更大程度上提高系统的运行效率、挖掘数据的潜在价值。
现有的高校多平台整合设计仅仅是在服务层实现了web接口整合(如单点登录),并没有在数据层面上进行整合[5],同时,各平台的硬件服务器性能参差不齐,无法将性能发挥到最大,也不利于挖掘学生关联数据中的潜在价值。
国内外研究综述
综合分析国内外高校关联数据中心建设方案,数据中心在建设过程中主要解决两个技术难点:第一是对高校中的多种平台的不同结构的数据进行整合[6],将同一个学生的多维度数据关联起来,减少数据冗余,提高系统的运行效率;第二是在现有的服务器硬件资源环境上,设计并搭建一种支持高并发的数据中心[7],解决原有系统的并发瓶颈。数据整合技术在国内外已经有大量的研究成果,其中,数据整合主要使用到的技术有数据仓库、Web Service、中间件技术等[8];负载均衡主要使用到的技术有DNS、CDN内容分发、Nginx反向代理、服务器集群、分布式应用等技术[9]。
国外研究综述
在国外,关于数据整合的研究最早出现于1944年医学领域数据结论整合,从60年代开始数据整合得到各学科学者的广泛的关注,到1970年,数据整合开始得到了缓慢的发展。其中比较典型的是在1970年由Joachim Hammer等人提出的联邦数据库系统[10],联邦数据库建立在多个子数据库之上,其通过包装器与对应的数据源进行通信[11]。数据联邦通过对异构的数据源进行部分集成,使异构数据具有共享性和透明性。联邦数据库不需要复制原有数据,数据保存在原来的物理位置的优点,但这也造成数据查询速度慢、数据冲突等缺点。
80年代开始,多种数据库系统相继出现,数据整合技术随之成为一项研究热点。数据整合的根本目标是屏幕多种数据源之间的差异,建立一个高效的数据关联中心,为关联数据查询提供服务[12]。一种称为IPUMS的结构化元数据整合系统被美国的明尼苏达大学提出,其使用了数据仓库的方法。数据仓库是一种面向主题的存储方法,其存储改变了原有的数据存储物理位置,所以具有查询效率高的特点,后期其主要用于机器学习领域的分析研究[1314]。
到90年代,随着应用数据量的持续增长,现有的数据整合技术已经无法满足企业的应用需求。一种基于中间件的数据整合技术被提出[15],中间件技术只需要在每个数据源之间进行配置就可以将不同的数据源进行关联,在中间件中对异构的数据进行关联映射避免了对原来数据源的修改,简化了数据整合流程。
从2000年开始,数据中心建设使用的主要技术包括Web Service、分布式、数据库中间件等,Web Service是分布式技术的基础,分布式技术的使用一定程度上解决了服务器负载方面的问题,但分布式数据库或文件系统需要对数据进行冗余存储,从而避免单台服务器故障导致的数据丢失等问题[1617]。
国内研究综述
国内关于数据整合的研究相比国外起步较晚,国内相关研究最初出现于1987年。2000年以后,数据整合技术在国内才出现了较快的发展,在最近几年的数据整合研究中,基于中间件的数据整合技术得到了较广泛的应用。目前国内外的数据库中间件技术呈现多样化发展,常见的有阿里团队开发的Cobar、开源社区对Cobar进行二次开发得到的MyCat[18]、由360团队基于mysql proxy开发的Atlas、MySQL官方发布的MySQL Route数据库中间件由数据库连接池、SQL语句解析组件、SQL路由组件、SQL协议通信层等组成,各个组件耦合度较低并且符合JDBC规范,所以主流的数据库中间件兼容包括MySQL、Oracle、PostgreSQL等关系型数据库和MangoDB、Redis等非关系型数据库[1920]。
在关联数据中心建设过程中,需要解决的另一个问题是服务器负载均衡问题,服务器负载均衡技术主要包括软负载均衡技术和硬负载均衡技术[21]。硬负载均衡是指通过智能交换机等硬件设备对网络请求进行按照特定的规则进行分发,因为是基于硬件所以在处理请求的效率上较高,但是也存在着很明显的成本高、不易监控的缺点。软负载均衡技术是指通过DNS或负载软件等方式将用户请求分发到服务器集群中[22]。在大型的网站架构中,通常会首先使用CDN技术对请求进行分发[23],其原理是对资源结点进行动态调度,大大提高了服务器的响应速度。在中小型的网站架构中,大多采用集群的方式作为负载均衡的方案,集群中使用的主要技术是反向代理技术[24],目前流行的反向代理技术有Squid、Varnish、Nginx、Apache和HaProxy[25]。集群的方案具有配置简单、成本低的特点。
目 录
1 引言 1
1.1 课题背景 1
1.2 国内外研究综述 1
1.3 课题来源 3
2 关键问题的研究 3
2.1 关键问题 3
2.2 关键技术 5
3 总体设计 6
3.1 架构设计 6
3.2 功能设计 8
4 数据库设计 9
4.1 数据结构转换 9
4.2 数据预处理 11
4.3 多数据源映射 12
5 系统详细设计 13
5.1 Docker多镜像协作 14
5.2 数据库集群搭建 18
5.3 后台管理系统设计 21
6 系统部署与测试 26
6.1 系统部署 26
6.2 系统测试及结果 27
结 论 32
致 谢 33
参 考 文 献 34
附录A 用户操作手册 36
附录B 相关的公开发明专利 41
附录C 相关的软件著作权 42
附录D 大学期间发表的论文 43
附录E 查重报告首页 48
引言
课题背景
随着数字化校园建设工作的推进与互联网技术的发展,多样化的学生工作信息管理系统、教务系统已经在高校 *好棒文|www.hbsrm.com +Q: ^351916072*
中普遍应用[1]。高校管理系统的应用能够及时地反映高校各工作的进展状态,可以利用过去的数据预测未来,增强了数据的处理能力,大大提高了高校管理人员的工作效率,降低了劳动强度。
在高校数字化校园建设[1]快速推进的过程中,由于基础建设资源不足、开发力不足、最初规划设计拓展性差等原因,导致现在的高等院校中多种信息管理平台共存、平台间交互性差、信息孤岛、数据冗余等问题[23]。在不影响原来系统正常运行的前提下,运用现有的技术对各平台的独立数据进行关联整合[4],可以更大程度上提高系统的运行效率、挖掘数据的潜在价值。
现有的高校多平台整合设计仅仅是在服务层实现了web接口整合(如单点登录),并没有在数据层面上进行整合[5],同时,各平台的硬件服务器性能参差不齐,无法将性能发挥到最大,也不利于挖掘学生关联数据中的潜在价值。
国内外研究综述
综合分析国内外高校关联数据中心建设方案,数据中心在建设过程中主要解决两个技术难点:第一是对高校中的多种平台的不同结构的数据进行整合[6],将同一个学生的多维度数据关联起来,减少数据冗余,提高系统的运行效率;第二是在现有的服务器硬件资源环境上,设计并搭建一种支持高并发的数据中心[7],解决原有系统的并发瓶颈。数据整合技术在国内外已经有大量的研究成果,其中,数据整合主要使用到的技术有数据仓库、Web Service、中间件技术等[8];负载均衡主要使用到的技术有DNS、CDN内容分发、Nginx反向代理、服务器集群、分布式应用等技术[9]。
国外研究综述
在国外,关于数据整合的研究最早出现于1944年医学领域数据结论整合,从60年代开始数据整合得到各学科学者的广泛的关注,到1970年,数据整合开始得到了缓慢的发展。其中比较典型的是在1970年由Joachim Hammer等人提出的联邦数据库系统[10],联邦数据库建立在多个子数据库之上,其通过包装器与对应的数据源进行通信[11]。数据联邦通过对异构的数据源进行部分集成,使异构数据具有共享性和透明性。联邦数据库不需要复制原有数据,数据保存在原来的物理位置的优点,但这也造成数据查询速度慢、数据冲突等缺点。
80年代开始,多种数据库系统相继出现,数据整合技术随之成为一项研究热点。数据整合的根本目标是屏幕多种数据源之间的差异,建立一个高效的数据关联中心,为关联数据查询提供服务[12]。一种称为IPUMS的结构化元数据整合系统被美国的明尼苏达大学提出,其使用了数据仓库的方法。数据仓库是一种面向主题的存储方法,其存储改变了原有的数据存储物理位置,所以具有查询效率高的特点,后期其主要用于机器学习领域的分析研究[1314]。
到90年代,随着应用数据量的持续增长,现有的数据整合技术已经无法满足企业的应用需求。一种基于中间件的数据整合技术被提出[15],中间件技术只需要在每个数据源之间进行配置就可以将不同的数据源进行关联,在中间件中对异构的数据进行关联映射避免了对原来数据源的修改,简化了数据整合流程。
从2000年开始,数据中心建设使用的主要技术包括Web Service、分布式、数据库中间件等,Web Service是分布式技术的基础,分布式技术的使用一定程度上解决了服务器负载方面的问题,但分布式数据库或文件系统需要对数据进行冗余存储,从而避免单台服务器故障导致的数据丢失等问题[1617]。
国内研究综述
国内关于数据整合的研究相比国外起步较晚,国内相关研究最初出现于1987年。2000年以后,数据整合技术在国内才出现了较快的发展,在最近几年的数据整合研究中,基于中间件的数据整合技术得到了较广泛的应用。目前国内外的数据库中间件技术呈现多样化发展,常见的有阿里团队开发的Cobar、开源社区对Cobar进行二次开发得到的MyCat[18]、由360团队基于mysql proxy开发的Atlas、MySQL官方发布的MySQL Route数据库中间件由数据库连接池、SQL语句解析组件、SQL路由组件、SQL协议通信层等组成,各个组件耦合度较低并且符合JDBC规范,所以主流的数据库中间件兼容包括MySQL、Oracle、PostgreSQL等关系型数据库和MangoDB、Redis等非关系型数据库[1920]。
在关联数据中心建设过程中,需要解决的另一个问题是服务器负载均衡问题,服务器负载均衡技术主要包括软负载均衡技术和硬负载均衡技术[21]。硬负载均衡是指通过智能交换机等硬件设备对网络请求进行按照特定的规则进行分发,因为是基于硬件所以在处理请求的效率上较高,但是也存在着很明显的成本高、不易监控的缺点。软负载均衡技术是指通过DNS或负载软件等方式将用户请求分发到服务器集群中[22]。在大型的网站架构中,通常会首先使用CDN技术对请求进行分发[23],其原理是对资源结点进行动态调度,大大提高了服务器的响应速度。在中小型的网站架构中,大多采用集群的方式作为负载均衡的方案,集群中使用的主要技术是反向代理技术[24],目前流行的反向代理技术有Squid、Varnish、Nginx、Apache和HaProxy[25]。集群的方案具有配置简单、成本低的特点。
版权保护: 本文由 hbsrm.com编辑,转载请保留链接: www.hbsrm.com/jsj/jsjkxyjs/1300.html