1.一种用户点击行为链的处理方法,其特征在于,所述方法包括:
根据各用户的点击行为信息,生成各所述用户在各产品线内的行为序列;
根据各所述用户在各所述产品线的行为序列,划分各所述用户的行为簇;
对各所述用户在各所述产品线的行为簇进行跳转链接匹配,生成各所述用户的全网点击行为链。
2.根据权利要求1所述的方法,其特征在于,根据各用户的点击行为信息,生成各所述用户在各产品线内的行为序列,具体包括:从各所述产品线的日志信息中,将具有相同用户标识的点击行为信息按照时间先后顺序排列,生成各所述用户在各所述产品线内的行为序列,所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前所述产品线内的所述用户标识以及通用用户标识。
3.根据权利要求2所述的方法,其特征在于,所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。
4.根据权利要求2或者3所述的方法,其特征在于,根据各所述用户在各所述产品线的行为序列,划分各所述用户的行为簇,具体包括:根据各所述用户在各所述产品线的行为序列,获取各所述用户在各所述产品线的链入点和链出点;
根据各所述用户在各所述产品线的所述链入点和所述链出点,将同一所述用户标识在同一所述产品线中的所述链入点,分别与在同一所述产品线对应的相邻的所述链出点或者在同一所述产品线对应的后相邻的所述链入点之间的行为序列,划分为各所述用户的行为簇。
5.根据权利要求4所述的方法,其特征在于,对各所述用户在各所述产品线的行为簇进行跳转链接匹配,生成各所述用户的全网点击行为链,具体包括:根据各所述通用用户标识,对各所述产品线的所述用户进行匹配;
将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链。
6.根据权利要求5所述的方法,其特征在于,根据各所述通用用户标识,对各所述产品线的所述用户进行匹配,具体包括:将不同所述产品线中,所述通用用户标识相同的用户匹配为同一个所述用户。
7.根据权利要求5或者6所述的方法,其特征在于,将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链,具体包括:提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname和path;
提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path;
根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path,以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path,将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链。
8.根据权利要求7所述的方法,其特征在于,根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path,以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path,将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链,具体包括:对于各所述链出点和各所述链入点,计算所述链出点当前链接URL的hostname与所述链入点的前向链接的URL的hostname的第一相似度;
计算所述链出点后向链接的URL的hostname与所述链入点的当前链接URL的hostname的第二相似度;
计算所述链出点当前链接URL的path与所述链入点的前向链接的URL的path的第三相似度;
计算所述链出点后向链接的URL的path与所述链入点的当前链接URL的path的第四相似度;
计算所述链出点的所述点击时间戳和所述链入点的所述点击时间戳的差值;
根据各所述链出点和各所述链入点对应的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及预设的链入点和链出点的匹配模型,确定跳转链接匹配的所述链出点和所述链入点;
根据所述跳转链接匹配的所述链出点和所述链入点,将同一所述用户的各个所述行为簇链接起来,生成对应所述用户的全网点击行为链。
9.根据权利要求8所述的方法,其特征在于,所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的;所述采用机器学习方法包括逻辑回归、决策树或者SVM。
10.一种用户点击行为链的处理装置,其特征在于,所述装置包括:
行为序列生成模块,用于根据各用户的点击行为信息,生成各所述用户在各产品线内的行为序列;
行为簇划分模块,用于根据各所述用户在各所述产品线的行为序列,划分各所述用户的行为簇;
全网点击行为链生成模块,用于对各所述用户在各所述产品线的行为簇进行跳转链接匹配,生成各所述用户的全网点击行为链。
11.根据权利要求10所述的装置,其特征在于,所述行为序列生成模块,具体用于从各所述产品线的日志信息中,将具有相同用户标识的点击行为信息按照时间先后顺序排列,生成各所述用户在各所述产品线内的行为序列,所述点击行为信息包括点击时间戳、当前链接的URL、前向链接的URL、后向链接的URL、当前所述产品线内的所述用户标识以及通用用户标识。
12.根据权利要求11所述的装置,其特征在于,所述通用用户标识包括IP信息、浏览器标识、硬件设备标识和媒体访问控制地址中的至少一个。
13.根据权利要求11或者12所述的装置,其特征在于,所述行为簇划分模块,具体用于:根据各所述用户在各所述产品线的行为序列,获取各所述用户在各所述产品线的链入点和链出点;
根据各所述用户在各所述产品线的所述链入点和所述链出点,将同一所述用户标识在同一所述产品线中的所述链入点,分别与在同一所述产品线对应的相邻的所述链出点或者在同一所述产品线对应的后相邻的所述链入点之间的行为序列,划分为各所述用户的行为簇。
14.根据权利要求13所述的装置,其特征在于,所述全网点击行为链生成模块,具体包括:用户匹配单元,用于根据各所述通用用户标识,对各所述产品线的所述用户进行匹配;
全网点击行为链生成单元,用于将匹配后属于同一所述用户的各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链。
15.根据权利要求14所述的装置,其特征在于,所述用户匹配单元,用于将不同所述产品线中,所述通用用户标识相同的用户匹配为同一个所述用户。
16.根据权利要求14或者15所述的装置,其特征在于,所述全网点击行为链生成单元,具体包括:提取子单元,用于提取匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、以及后向链接的URL的hostname和path;
所述提取子单元,还用于提取匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path;
全网点击行为链子单元,用于根据匹配后属于同一所述用户的各个所述行为簇的所述链出点的所述点击时间戳、当前链接URL的hostname和path、后向链接的URL的hostname和path,以及匹配后属于同一所述用户的各个所述行为簇的所述链入点的所述点击时间戳、当前链接URL的hostname和path、以及前向链接的URL的hostname和path,将各个所述行为簇的所述链入点和所述链出点进行跳转链接匹配,生成各所述用户的全网点击行为链。
17.根据权利要求16所述的装置,其特征在于,所述全网点击行为链子单元,具体用于:对于各所述链出点和各所述链入点,计算所述链出点当前链接URL的hostname与所述链入点的前向链接的URL的hostname的第一相似度;
计算所述链出点后向链接的URL的hostname与所述链入点的当前链接URL的hostname的第二相似度;
计算所述链出点当前链接URL的path与所述链入点的前向链接的URL的path的第三相似度;
计算所述链出点后向链接的URL的path与所述链入点的当前链接URL的path的第四相似度;
计算所述链出点的所述点击时间戳和所述链入点的所述点击时间戳的差值;
根据各所述链出点和各所述链入点对应的所述第一相似度、所述第二相似度、所述第三相似度、所述第四相似度、所述差值以及预设的链入点和链出点的匹配模型,确定跳转链接匹配的所述链出点和所述链入点;
根据所述跳转链接匹配的所述链出点和所述链入点,将同一所述用户的各个所述行为簇链接起来,生成对应所述用户的全网点击行为链。
18.根据权利要求17所述的装置,其特征在于,所述预设的链入点和链出点的匹配模型为采用机器学习方法进行训练得到的;所述采用机器学习方法包括逻辑回归、决策树或者SVM。