世界名校排名分析
20年6月22日 · 何奕栩 1958 人阅读
摘要:疫情背景下,考研/出国留学是社会普遍关注的话题,在毕业季即将来临之际,收录了从2005年-2015年世界大学前500名大学的有关排名信息变动,与相关具体指标的分数(相关指标由上海交通大学研究得出)。从宏观视角看近十年内世界各大学的排名如何变动,未来发展趋势如何呢?学校之间的指标差距具体在哪里呢?国内的各大学近些年变化情况如何呢?本课题主要研究各各大学近十年的世界排名变化趋势与学校之间的指标差距对比,通过对以上海交通大学研究出的指标衡量各大学方方面面的数据的分析,利用自行设计的算法,从中挖掘出上述疑问的相关解答,并以直观、可视化的形式给出结论,供应届考研/出国留学党等社会有关人士参考。
1 设计意图或研究目标
疫情影响,考研/出国留学变得棘手,想做和世界大学排名的相关主题。
用折线图反映各大学近10年来有关排名的变动趋势。
用柱状图/雷达图反映学校之间的指标差距。
用户自行查阅各个大学排名及指标的相关信息。
2 总体设计
① 合理利用由上海交通大学根据其研究出的衡量大学综合实力的指标来对世界名校进行排名的从2005年至2015年的数据,生成GUI。
② 点击“打开”按钮,读取文件后进行数据处理。
③ 在第一个下拉框内手动输入(英文输入)或直接选择想要查询的大学(最多不超过6个),在第二个下拉框内选择想要查询的年份,点击“搜索”按钮,页面会弹出相关的搜索结果,双击需要的搜索结果,可将其加载到一个自动创建的新页面中,继续上述相同操作,可依次加入想查询的大学。删除方法:在新页面中左键选中想去除的学校,右键单击即可去除。
④ 数据准备完成后,点击“世界排名变化图”按钮,生成相关大学近十年内排名变化折线图,在③的基础上使数据可视化更加直观,此时无论选择哪一年份的数据都可以,排名变化图会自动生成10年来的排名变化趋势。
⑤ 点击“各项指标图”按钮,呈现另一个GUI界面:用户可以自行选择想要具体查看的各项指标,和想要表现的形式(柱状图或雷达图),选择好后点击“画图”,使数据可视化,利于用户了解各大学间的指标差距,但要注意的是,此时只能查询多个学校的一年的数据,不可查询某个学校多年的数据,该图主要目的是同年不同校指标横向对比。
1) 程序模块图
3 程序模块详细设计
3.1数据预处理(数据清洗和标准化)
1. 2005-2015年世界大学排名数据的处理:
1) 数据读取,使用pandas的read_csv函数将csv文件读入DataFrame对象。
2) 数据清洗,使用DataFrame对象的fillna函数填充缺失数据,使用drop函数删除重复数据行。
3) 对行数据进行清洗,判断数据(尤其是大学名字)是否为Nan,若是,则跳过这一行,不予输出。
4) 对列数据进行清洗,若遇到Nan,用“未知”进行代替。
2.数据的标准化(或规格化)
1) 使用for循环语句,将年份,世界排名,大学名字等分门别类添加到稍后需要用到的字典,下拉框的列表里。
2) 表格数据“世界排名”中有“101-152”等字样,为画图方便起见,按照顺序赋予每个学校具体数值排名。
3.2 算法设计和实现(可包含代码和图)
代码略
4 数据可视化处理(可包含代码和图)
代码略
5 数据可视化与结论
以上搜索的依次是Harvard, Oxford, Cambridge, Stanford, MIT, Yale老牌世界名校,近十年来一直稳居高位,综合实力名列前茅,非常值得放心报考。
以上搜索的是中国的大学,依次为北大,复旦,上交,清华,浙大和武大,近十年来一直处于稳中向好趋势发展,排名有所上升。
以上搜索的是2005年分别为500名,450名,400名,350名,300名,250名的大学,整体看来排名成下降趋势,加之疫情的影响,整体趋势不容乐观,因此对于考研党来说,国外排名靠后的大学不建议报考,尽可能报考国外200名以内的大学或是国内的好大学。
2005年,世界顶尖大学与中国顶尖大学雷达对比图结论:
世界顶尖大学在各个指标上都远远超过国内顶尖大学,其中在科研成果、师均表现上差距悬殊,需要在这两个方面上多下功夫。
2015年,世界顶尖大学与中国顶尖大学雷达对比图结论:
弱势有所弥补,被收录论文数增多,目前差距最大的是各领域被引用次数最多的科学家数量,可见我国科研实力与顶尖大学仍有不小的距离。
2015年,世界排名靠后大学(500名,450名,400名,350名)与中国顶尖大学雷达、柱状对比图结论:
世界排名靠后的大学的共同特点:被收录论文数多,但各领域被引用最多的科学家数量、科研成果偏弱势,因此要想增强综合实力,还是得从科研实力着手。
各个大学指标对比图组合过多,不一一列出,用户可以根据自己需求查询相关大学的柱状或雷达图。
6 亮点
1.使用Treeview控件,使原本怎么都对不齐的大学名字变得整齐有序,极大增强了美观效果。
2.使用正则表达式,在查询时用户只需输入大学名称中包含的几个英文字符(不区分大小写)就有相应的学校名称在下拉框中备选,变得更加用户友好型。
3.使用subplot,可以同时生成多个大学(6个以内,太多影响美观程度)的排名变化趋势图,方便对比比较。
4.增加GUI界面,能够对选中的大学进行进一步分析。
5.使用check button控件,使用户能自由选择想要查看的数据,根据用户的需求将其可视化,增强用户体验感。且能够同时将几个学校的指标放在一起进行对比分析,能够得到直观的视觉效果。
6.在第二个GUI界面中画图时,排除了过多学校(六个以上)一起绘图的情况,给绘图效果提供质量保证。
7.数据结构从大(世界大学近十年变化趋势)到小(各指标一年详细分析),有层次感。
8.引入雷达图,将指标分数置于雷达图中,直观形象,便于对比分析。
7 反思
1.雷达图学校一多指标有些会重叠,但分开来做又达不到对比分析的效果,添加标签又会显得有点混乱,目前还没想到更好的解决方案,因此放了一个柱状图的选项在边上,便于相互参照着比较分析。
2.对数据的展现形式不够多元,可以统计多年数据,以雷达图形式呈现一个学校各个指标十年内分数变化趋势。
3.操作较为复杂,因此放了帮助提示,希望以后能想出更加简洁的操作方法。
Python3Turtle