1.一种基于大数据的计算机数据分析管理系统,其特征在于:所述系统包括数据库、数据采集模块、数据分析模块、实时文件分类存储模块、文件清理建议模块以及用户管理模块;
所述数据库存储所有文件信息和文件的所有用户行为数据,其中文件信息包括保存信息和删除记录,保存信息记录了文件的基本属性,删除记录则记录了文件的删除操作;用户行为数据包括用户对文件的各种操作行为,包括用户的浏览记录、修改记录以及分享记录;
所述数据采集模块从数据库中获取文件的保存信息和删除记录,提取文件大小并进行排序分析;
所述数据分析模块对文件保存信息和删除记录进行分析,提取出目标文件,并根据用户行为数据计算特征向量和用户关注度;通过数据分析,并得到用户关注度的阈值区间;
所述实时文件分类存储模块根据实时接收的文件的用户关注度进行分类和存储,并在一定时间间隔内重新计算用户关注度以进行动态调整;
所述文件清理建议模块根据回收站、暂存空间和长存空间中的文件列表,进行分析判断,并向用户管理模块发送相应的通知信息以建议文件的清理操作;
所述用户管理模块接收文件清理建议模块的通知信息,用户对接收到的通知信息进行相应的文件管理,并向文件清理建议模块发送反馈信息,告知用户的选择和执行结果。
2.根据权利要求1所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述数据采集模块包括文件保存信息提取单元、文件删除记录提取单元、文件大小提取单元以及空文件识别单元;
所述文件保存信息提取单元和文件删除记录提取单元获取数据库中所有文件的保存信息和删除记录,根据保存信息中文件生成的时间戳顺序来构建文件保存信息集合A,且A={ai},其中i的取值为1到n的正整数,ai表示第i个文件保存信息;根据删除记录中删除文件的时间戳顺序构建文件删除记录集合B,且B={bj},其中j的取值为1到m的正整数,bj表示第j个删除记录;
文件大小提取单元提取文件保存信息集合A中所有文件的大小,并构成文件大小数据表;将文件大小数据表的数据按降序进行排列,获取文件大小为0字节的文件名,提取文件删除记录集合B的文件名并进行查找;空文件识别单元对集合A中不存在集合B中的文件名对应的文件进行标记,标记为空文件。
3.根据权利要求1所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述数据分析模块包括文件名对比单元、目标文件特征提取单元、特征向量相关性计算单元以及用户关注度计算单元;
所述文件名对比单元从文件保存信息集合A和文件删除记录集合B中提取出所有文件的文件名,对比集合A和集合B的文件名;
获取只属于集合A的文件名,并筛除空文件,对只属于集合A剩下的文件名进行标记,标记为目标文件1;目标文件特征提取单元获取目标文件1的用户行为数据,针对每个目标文件1都获取在选定时间段T内的用户浏览频率Lw、用户修改频率Xw以及用户分享频率Fw,并组成特征向量,向量表示为V1k=(Lwk,Xwk,Fwk),且V1k表示第k个目标文件1的特征向量,其中k表示在选定时间段内目标文件1的个数,取正整数;
获取既属于集合A又属于集合B的文件名,标记为目标文件2;获取目标文件2对应文件名的保存信息和删除记录,提取每个目标文件2生成的时间戳TA和目标文件2删除的时间戳TB,计算TA和TB的时间差值ΔT,ΔT=TB-TA;
针对每个目标文件2,都获取ΔT时间段内的用户浏览频率Lw、用户修改频率Xw以及用户分享频率Fw,并组成特征向量,向量表示为V2针对每个目标文件2的特征向量,利用特征向量相关性计算单元对目标文件1中的特征向量进行向量线性相关的运算,获取目标文件2中与目标文件1存在线性相关的特征向量对应文件的文件名,构成集合C。
4.根据权利要求3所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述用户关注度计算单元包括:
获取每个目标文件2的用户行为数据,针对每个目标文件2都记录在ΔT时间段内的浏览次数Ln和浏览时长Lt,修改次数Xn,以及分享次数Fn;计算每个目标文件2的用户关注度Y,具体计算公式为:Y=(ΔT/T)*[(Ln/SLn)*(Lt/SLt)+(Xn/SXn)+(Fn/SFn)],其中T表示第1个目标文件2生成时间到第n个目标文件2删除时间的时间段,SLn表示在时间段T内所有目标文件2的浏览次数之和,SLt表示在时间段T内所有目标文件2的浏览时长之和,SXn表示在时间段T内所有目标文件2的修改次数之和,SFn表示在时间段T内所有目标文件2的分享次数之和;
获取集合C中所有文件名对应的目标文件2的用户关注度,得到用户关注度阈值区间Q,且Q=[q_min,q_max],其中q_min为集合C中目标文件2的用户关注度最小值,q_max为为集合C中目标文件2的用户关注度最大值。
5.根据权利要求1所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述实时文件分类存储模块包括实时文件用户关注度计算单元、用户关注度阈值比较单元以及文件分类处理单元;
所述实时文件用户关注度计算单元包括:
对实时接收的文件每隔一个选定时间段T0都进行用户关注度计算,且实时文件用户关注度Ys计算公式为:
Ys=(ΔT0/T0)*[(Lsn/SLsn)*(Lst/SLst)+(Xsn/SXsn)+(Fsn/SFsn)],其中ΔT0表示每个实时接收的文件生成时间到当前时间的差值,Lsn表示在T0时间段内每个实时接收的文件浏览次数,SLsn表示在T0时间段内所有实时接收的文件浏览次数之和,Xsn表示在T0时间段内每个实时接收的文件修改次数,SXsn在T0时间段内所有实时接收的文件修改次数之和,Fsn表示在T0时间段内每个实时接收的文件分享次数,SFsn表示在T0时间段内所有实时接收的文件分享次数之和。
6.根据权利要求5所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述用户关注度阈值比较单元包括:
将得到的实时文件用户关注度Ys与用户关注度阈值区间Q进行比较,若Ys<q_min,则将实时接收的文件归为垃圾文件,并存储于回收站中,且回收站设有一个自动清理时间T1,每隔T1时间段回收站会自动进行清理;
若q_min≤Ys≤q_max,则将实时接收的文件归为临时文件,并存储于暂存空间,且每隔T2时间段都会重新计算用户关注度Ys’,当Ys’<q_min时,则将此文件归为垃圾文件,并标注“临时文件转为垃圾文件”,存储地址也由暂存空间移动至回收站;当Ys’>q_max时,则将此文件归为长存文件,并标注“临时文件转为长存文件”,存储地址也由暂存空间移动至长存空间;
若Ys>q_max,则将实时接收的文件归为长存文件,并存储于长存空间,且每隔T3时间段都会重新计算用户关注度Ys’,当q_min≤Ys’≤q_max时,则将此文件归为临时文件,并标注“长存文件转为临时文件”,存储地址也由长存空间移动至临时空间;当Ys’<q_min时,则将此文件归为垃圾文件,并标注“长存文件转为垃圾文件”,存储地址也由长存空间移动至回收站。
7.根据权利要求6所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述文件分类处理单元包括:
根据用户关注度阈值比较单元的比较结果,进行文件的分类处理;如果实时文件的用户关注度低于阈值区间Q的最小值,将其归类为垃圾文件,并存储于回收站中,回收站会按照设定的自动清理时间周期进行垃圾文件的清理;如果实时文件的用户关注度介于阈值区间Q的最小值和最大值之间,且包括最小值和最大值,在暂存空间中存储为临时文件,每隔T2时间段重新计算用户关注度,根据新的用户关注度再次判断文件的归类类型,并进行标注和存储位置的调整;如果实时文件的用户关注度高于阈值区间Q的最大值,将其归类为长存文件,并存储于长存空间中,每隔T3时间段重新计算用户关注度,根据新的用户关注度再次判断文件的归类类型,并进行标注和存储位置的调整。
8.根据权利要求1所述的一种基于大数据的计算机数据分析管理系统,其特征在于:所述文件清理建议模块包括回收站文件处理单元、暂存空间文件处理单元以及长存空间文件处理单元;
所述回收站文件处理单元获取回收站中的文件列表R,判断是否已经达到自动清理时间T1;如果已经达到自动清理时间T1,则将这些文件列入清理建议列表,并进行压缩处理存于云空间,在回收站中彻底删除;如果未达到自动清理时间T1,则不做任何处理;
所述暂存空间文件处理单元获取暂存空间中的文件列表S,将每隔T2时间段重新计算的用户关注度Ys’与文件列表S进行关联;将标注“临时文件转为垃圾文件”的通知信息发送至用户管理模块,由用户进行判断是否马上删除,若用户给出马上删除指令,则立即删除;若用户没有给出删除指令,则同回收站中的文件进行相同的后续操作;将标注“临时文件转为长存文件”的通知信息发送至用户管理模块,由用户进行确认文件最后的存储位置;
所述长存空间文件处理单元获取长存空间中的文件列表P,将每隔T3时间段重新计算的用户关注度Ys’与文件列表P进行关联;将标注“长存文件转为临时文件”的通知信息发送至用户管理模块,由用户进行确认文件最后的存储位置;将标注“长存文件转为垃圾文件”的通知信息发送至用户管理模块,由用户进行判断是否马上删除,若用户给出马上删除指令,则立即删除;若用户没有给出删除指令,则同回收站中的文件进行相同的后续操作。