毕业设计(论文)团购更优惠,折扣多多毕业设计(论文)专业信誉
本站所有出售的 资料都严格保密,并做详细的记录,确保一套毕业设计,一个地区或者学校只售一次.
QQ临时会话 可能会导致消息无法正常接收,咨询前请务必先加客服为好友.QQ:xxxxxx
本站提供的资料 都是已经做好的,现成的作品都是审核过的,保证质量和规范.

基于Hadoop在线音乐服务的分布式数据处理平台的设计-硕论

编辑:娜姐 来源:未知 资料编号:773820130829
资料介绍
 随着互联网的高速发展和移动客户端的普及,各类数据爆炸性地增长。如何从海量的数据中挖掘出有用的信息,成为当前的研究热点。在线音乐服务生成的用户播放记录数据就是海量数据的一种。伴随着在线音乐的发展,人们热衷于使用各种音乐播放工具听歌,用户每条播放的记录都会被在线音乐服务提供商完整地保存,通过挖掘这些用户的播放记录数据可以发现各个用户群体的听歌喜好。然而,目前的数据处理平台并不能完全满足这样的需求,因此,如何对海量的用户播放记录进行挖掘是一个很大的挑战和难点。
为了在海量的播放记录中挖掘出有用的信息,论文提出并实现了一个在线音乐服务的分布式数据处理平台(KGMiner),主要用于酷狗音乐数据的数据处理,主要包括预处理、聚类分析、热度统计三个模块。同时,论文定义并抽象了挖掘中预处理和聚类分析的标准化流程,方便数据处理人员进行针对不同需求的扩展。KGMiner使用目前最成熟的大数据处理框架Hadoop,完成对酷狗音乐用户播放记录数据的挖掘工作。
然而,在实际运用过程中发现,基于Hadoop的分布式k-means算法在迭代运算下存在很多不足,例如:初始点随机选择,冗长的作业启动时间,Reduce时间过长等。因此,本论文改进工作主要集中在分布式k-means算法的迭代运算效率优化。
改进工作主要分为以下三部分:首先,针对k-means随机选取初始点作了改进,参考k-means++的思想,选取相距较远的点作为初始点,用于减少迭代次数;其次,针对每个作业串行执行的情况,提出了一种作业异步启动的方法,减少了作业的启动时间对于整个处理时间的消耗;最后,针对Reduce过程中,Reduce的计算时间非常短,而大部分时间用在Reduce端的框架启动和消耗的情况,提出了新的Reduce执行方式(MyReduce),MyReduce一直保持着接收数据和计算全局中心点的状态,可以有效避免在计算全局中心点过程中MapReduce框架带来的时间消耗。最后,论文在真实的酷狗音乐数据上进行实验,实验结果表明,对比优化前的k-means分布式聚类分析,本文的改进方法能让分布式聚类分析的总时间大大缩减。
关键词:大数据,在线音乐服务,数据处理,Hadoop,流程优化


Title: Design and implementation of a distributed data processing platform for the online music service
Major: Software Engineering
Name: Deng Yun Heng
Supervisor: Li Lei

Abstract
As internet develops rapidly and mobile client gains its popularity, all kinds of data grow exponentially. How to dig out useful information from massive data has become a hot topic. User’s play record generated by online music service is a typical example for massive data. Accompanied by the development of online music, people love listening to music via all types of music play tool. Each user’s play record will be kept intact and preserved by the online music service provider, through exploring these play records we shall find out individual preference to music from every user category. However, current data processing platform is not adequate to fulfill this demand. Therefore, how to exploit information from masses of user’s play records remains to be a great challenge and difficulty.
In order to extract useful information from massive play records, this dissertation proposed and realized a distributed data processing platform (KGMiner) for online music service, which is mainly focused on processing Kugou Music data, including preprocessing, clustering and hot items extraction. Meanwhile, this essay provides a definition and abstraction for the standard procedures during preprocessing and clustering, which makes it convenient for data analyst to develop extensions based on different demands. KGMiner is using the most sophisticated big data processing framework-Hadoop, it is expected to complete data mining work of user’s play record from Kugou Music.
However, in practical application, I noticed many deficiencies in iteration computation of distributed K-means algorithm based on Hadoop. For example, random selections of initial points, lengthy start time, long reduce time, etc. Therefore, necessary improvement on this paper mainly involves efficiency optimization on iteration computation of distributed K-means algorithm.
Improvement work can be divided into three parts. First is to revise the randomly selected initial points from K-means algorithm. On reference of ideas from K-means++, I select distant points as initial points for reducing iteration times. Secondly, after viewing the jobs operating serially, I come up with a asynchronous start method and it reduced the starting time as a part of processing time. Finally, given the fact that the majority of the reduce procedure time is spent on framework booting of reduce end rather than computation, I implemented a new reduce operating mode called MyReduce, which keeps receiving data and calculating the global centers, this leads to effective avoidance of time consumption while computing global centers of gravity caused by the framework. In conclusion, the experimental result which is based on real Kugou music data did suggest that the improvement method discussed in this paper can reduce total time of distributed clustering to a very high degree compared to K-means distributed clustering.

Key Words: Big Data, Online Music Service, Data Processing, Hadoop, Process Optimization



目录
第一章 绪论 1
1.1 研究背景和意义 1
1.2 面临的问题和挑战 3
1.3 研究现状 3
1.4 本文主要工作 4
1.5 论文结构 5
第二章 情景与挑战 6
2.1 现状 6
2.2 面临的问题 6
2.3 相关工作简介 7
2.4 当前工作存在的不足 9
2.5 挑战 9
第三章 相关工作 10
3.1 Hadoop                                                         10
3.2 Hadoop的优化 12
3.3 数据挖掘 17
3.4 数据处理平台 22
3.5 本章小结 25
第四章 KGMiner需求与概要设计 26
4.1 需求分析 26
4.2 概要设计 31
4.3 本章小结 35
第五章 KGMiner详细设计 36
5.1 预处理模块 36
5.2 聚类模块 43
5.3 热度统计模块 48
5.4 本章小结 49
第六章 分布式聚类流程优化 50
6.1 聚类分析处理流程 50
6.2 效率问题详细分析 51
6.3 优化模型设计 53
6.4 本章小结 60
第七章 优化方案详细设计 61
7.1 初始点选择的优化 61
7.2 作业异步启动 62
7.3 MyReduce的设计 64
7.4 优化流程详细过程 67
7.5 时空复杂度分析 70
7.6 优化方案的特点 71
7.7 本章小结 71
第八章 实验与结果分析 72
8.1 实验环境 72
8.2 主要功能展示 73
8.3 实验方案介绍 78
8.4 实验结果及分析 79
8.5 实验总结 86
第九章 总结与展望 88
9.1 总结 88
9.2 展望 88
参考文献 90
致谢 94


1.4本文主要工作
本文提出并实现了一个基于Hadoop的分布式音乐数据处理的平台(KGMiner),用于完成酷狗音乐公司每天的海量播放记录的数据挖掘任务,主要包括对用户播放行为记录的预处理、聚类分析、热度分析等,用于在每天产生的海量数据中挖掘出用户的热点趋势和喜好行为。此外,还将关键的预处理和聚类流程抽象成为标准的接口,方便开发人员进行后期的扩展。
针对基于Hadoop的分布式算法k-means的性能瓶颈的问题,本文主要针对初始点选择、作业串行执行和Reduce过程过长这三个主要问题进行优化,并对这三个问题提出了解决方案。
首先,由于初始点的选择对于迭代次数有非常大的影响,而迭代次数直接影响到聚类的整体效率,因此,借助k-means++的思想优化随机选点的方法,有助于选出相互间差异度较大的初始点,减少迭代的次数。
其次,通过对作业部分并行化改进了聚类分析时串行执行的问题。通过作业调度器,每个作业的启动不再需要等待上一个作业的完全执行完毕,而是提前启动,加快了整个聚类分析的进度。
最后,通过MyReduce代替完成Reduce端执行的工作,大大减少了原本基于MapReduce框架在Reduce端耗费的时间。MyReduce一直保持着jian-ting的状态直到迭代结束,能比Reduce更快地完成计算全局中心点的任务。
通过实验的验证,在三种改进方法的共同作用下,分布式k-means聚类分析的效率得到了相当大的提升。
1.5论文结构
本文共分为九章,其组织结构如下:
第一章:概要介绍了当前数据爆炸式增长的背景、当前数字音乐蓬勃发展的现状,还有在大数据时代下,数据处理面临的各种挑战以及本文的主要工作;
第二章:介绍了当前大数据处理中遇到挑战和问题,并简要介绍了目前的解决方案,分析了目前一些解决方案的不足;
第三章:介绍了大数据处理的相关工作,主要介绍了当前最流行的大数据处理框架Hadoop的运行机制和相关的改进工作,还有数据挖掘相关的技术和平台;
第四章:介绍了KGMiner的需求、设计目标、总体架构设计等内容;
第五章:介绍了KGMiner中的预处理、聚类模块、热度统计模块的详细设计;
第六章:介绍了KGMiner中的聚类分析流程优化模型,首先对整个流程作了详细的介绍,并分析了原有流程中存在的问题,如初始点选择、MapReduce框架处理效率等,并对这些问题提出了改进的模型;
第七章:介绍了流程优化中的初始点优化、作业异步启动和MyReduce的详细设计;
第八章:介绍了KGMiner的处理效率实验,实验中展示了数据处理平台预处理和聚类分析的处理效率,还有经过经过改进后的处理流程相对于原来的性能提升,从迭代次数、总处理时间消耗和平均每次迭代时间等方面来说明了优化后的性能提升;
第九章:总结与展望,主要是对本论文的总结,并指出了工作中存在的不足和指出了未来改进的方向。

〖设计来源:www.bar71.com 咨询QQ:125584107〗

以上是大纲和介绍,如需要完整的资料请在线购买.


默认支付宝,如要使用银行卡或网银请看
在线支付提示>>

本站所有资料均已审核通过,内容原创保密,标准格式,质量保证
1.无需注册,点击在线购买后即可付款下载该套毕业设计(论文)完整资料
2.支付后请联系在线客服QQ:125584107发送资料.

展开
  • 在线咨询
  • 你好,需要什么设计?请加我为好友发详细任务要求评估。
  • 你好,请问需要什么设计?请加我为QQ332295088好友。
  • QQ:125584107
  • QQ:332295088
  • 旺旺客服
  • 为了更好得为您服务,请加QQ:125584107
  • 技术支持
  • 你好,需要什么设计?请加我为好友发详细任务要求评估。
  • 售后服务
  • 你好,请问需要什么设计?请加我为QQ332295088好友。