内容简介 近年来,互联网的快速发展、新应用的不断出现、网络带宽的不断提高和网络数据流的急剧增加给互联网数据分析研究带来了技术挑战,互联网数据挖掘和分类对于网络计费、流量工程、网络安全等领域具有广泛应用价值。《互联网大数据挖掘与分类》主要针对互联网大数据挖掘与分类问题,系统介绍了作者在互联网数据分析处理方面的理论及实践的研究成果,主要介绍两个互联网大数据的挖掘和分类平台:基于hadoop集群网络被动测量数据分析平台和基于覆盖网的主动测量网络故障诊断平台,同时《互联网大数据挖掘与分类》分别探讨了基于这两个平台的超点抽样检测方法、并行长持续时间流检测方法、面向MapReduce的大流识别方法、基于信息熵灵敏度的异常检测方法、HTTP流量的页面关联、网络流的分类方法等六个方面的互联网大数据挖掘和分类问题。《互联网大数据挖掘与分类》的内容对深入研究互联网数据测量和分析方法具有重要的借鉴意义,为网络安全和网络管理,特别是校园网的管理提供了参考。《互联网大数据挖掘与分类》可供计算机科学、信息科学、网络工程及流量工程等学科的科研人员、大学教师和相关专业的研究生和本科生,以及从事计算机网络管理领域、网络工程及网络安全保护的技术人员阅读参考。 目录 1 绪论 1.1 背景知识 1.1.1 研究背景 1.1.2 研究意义 1.2 网络测量技术 1.2.1 网络测量常见对象 1.2.2 网络测量分析的问题 1.2.3 单点测量常用方法 1.2.4 单点网络测量常用工具 1.2.5 分布式网络测量技术 1.3 分类算法 1.3.1 决策树 1.3.2 贝叶斯分类 1.3.3 支持向量机 1.4 C4.5算法 1.4.1 算法概述 1.4.2 决策树的分割 1.4.3 决策树的剪枝 1.4.4 剪枝实例 1.4.5 十折交叉验证方法 1.4.6 测度子集选择方法 1.5 数据挖掘方法 1.5.1 聚类方法 1.5.2 k-近邻算法 1.6 流数据结构 1.6.1 Bitmap 1.6.2 混合Counter 1.6.3 Count-MiSketch 1.6.4 Bloom Filter 1.6.5 Counter Braids 1.6.6 BRICK 1.7 流量测量的评价指标 1.7.1 误报率和漏报率 1.7.2 相对误差 1.7.3 相对差 1.7.4 熵 1.8 小结 参考文献
2 互联网大数据分析系统 2.1 系统设计 2.1.1 总体设计 2.1.2 数据收集层设计 2.1.3 并行算法层设计 2.1.4 查询层设计 2.2 测度定义 2.2.1 输入测度 2.2.2 用户行为测度 2.2.3 输出测度 2.3 基于MapReduce测度的计算方法 2.3.1 单点TCP测度 2.3.2 并行TCP测度 2.3.3 流聚合并行方法 2.3.4 用户行为测度 2.3.5 并行算法优化 2.4 系统实现 2.4.1 存储模块实现 2.4.2 测度计算模块实现 2.4.3 用户行为分析模块实现 2.4.4 查询模块实现 2.5 实验分析 2.5.1 实验环境 2.5.2 实验平台布署 2.5.3 实验数据集 2.5.4 实验结果分析 2.5.5 可扩展性分析 2.5.6 性能瓶颈分析 2.6 小结 参考文献
3 超点数据流检测方法 3.1 引言 3.2 并行数据流方法 3.2.1 方法描述 3.2.2 相关定义 3.2.3 数据结构 3.2.4 更新归并过程 3.2.5 链接度估计 3.2.6 超点检测 3.3 性能分析 3.3.1 存储开销 3.3.2 准确性 3.3.3 计算性能 3.4 实验分析 3.4.1 实验数据 3.4.2 评价标准 3.4.3 链接度估计 3.4.4 参数评估 3.4.5 算法对比 3.5 小结 参考文献
4 长持续时间流检测方法 4.1 引言 4.2 问题定义 4.3 数据结构 4.4 基于共享数据结构的检测方法 4.4.1 方法描述 4.4.2 方法流程 4.4.3 实验结果分析 4.5 基于独立数据结构的检测方法 4.5.1 方法描述 4.5.2 方法流程 4.5.3 性能分析 4.5.4 实验结果分析 4.6 小结 参考文献
5 大流的自适应抽样识别方法 5.1 引言 5.2 大流识别方法 5.2.1 问题定义 5.2.2 方法描述 5.2.3 自适应抽样 5.2.4 数据划分 5.2.5 大流识别 5.3 实验结果分析 5.3.1 实验环境 5.3.2 估计精度 5.3.3 负载均衡 5.3.4 可扩展性 5.3.5 数据更新 5.3.6 Reducer数量 5.4 小结 参考文献
6 流量异常的信息熵检测方法 6.1 引言 6.1.1 研究背景 6.1.2 研究意义 6.1.3 相关研究 6.1.4 本章内容 6.2 信息熵灵敏度分析 6.2.1 理论分析 6.2.2 实验分析 6.2.3 分析结论 6.3 流量异常检测方法 6.3.1 测度定义 6.3.2 基于Kmeans的阈值选择 6.3.3 正常流量BID学习 6.3.4 验证方案 6.4 实验结果分析 6.4.1 实验环境 6.4.2 攻击流量获取 6.4.3 攻击检测能力评估 6.4.4 检测准确性 6.5 小结 参考文献
7 网页关联分析方法 7.1 概述 7.1.1 研究背景 7.1.2 研究意义 7.1.3 相关研究 7.2 网页关联概念 7.2.1 定义 7.2.2 问题描述 7.2.3 输入输出描述 7.2.4 分类 7.2.5 网页引用方法 7.3 基于DPI的网页关联方法 7.3.1 方法概述 7.3.2 基于HTTP头信息的引用发现方法 7.3.3 请求网页父引用提取方法 7.3.4 HTTP网页解码算法 7.3.5 基于网页内容的引用发现算法 7.3.6 父子引用关联方法 7.4 DPI关联方法实验分析 7.4.1 在线采集数据分析 7.4.2 被动测量数据关联分析 7.5 网页关联存在的问题 7.5.1 页面悬浮广告 7.5.2 弹出窗口广告 7.5.3 link href 7.5.4 广告关联问题分析 7.6 算法改进对比 7.6.1 测试一 7.6.2 测试二 7.6.3 测试三 7.7 基于DFI的网页关联方法 7.7.1 主流识别规则 7.7.2 辅流关联方法 7.7.3 实验结果分析 7.8 小结 参考文献
8 面向网络流的分类方法 8.1 引言 8.1.1 测度定义 8.1.2 背景研究 8.1.3 研究意义 8.2 流特征选择方法 8.2.1 特征选择方法 8.2.2 混合特征选择 8.2.3 实验结果分析 8.3 代价敏感分类方法 8.3.1 数据重采样 8.3.2 代价敏感学习 8.3.3 基于Adacost的分类算法 8.3.4 实验结果分析 8.5 集成学习分类方法 8.5.1 集成学习基本概念 8.5.2 基于均值决策的集成学习方法 8.5.3 基于精度权重的集成学习方法 8.5.4 基于代价敏感的集成学习方法 8.5.5 实验结果分析 8.6 小结 参考文献
9 基于覆盖网监测的故障推理 9.1 研究背景及意义 9.2 基本概念 9.2.1 社区的概念 9.2.2 覆盖网 9.2.3 chord 9.3 数据处理 9.3.1 集中式处理的问题 9.3.2 负载均衡 9.3.3 症状数据存取索引 9.3.4 症状数据预处理 9.4 故障推理算法 9.4.1 客户端故障判断算法 9.4.2 现有方法 9.4.3 故障推理算法 9.4.4 算法设计 9.5 系统设计实现 9.5.1 系统设计 9.5.2 实验工具 9.5.3 实验环境 9.5.4 实验结果分析 9.6 小结 参考文献 彩插
|