MIT通过超级计算机对整个Internet进行分析的网络流量

全球网络流量图

建模Web流量可以帮助网络安全,计算基础设施设计,互联网政策等。

使用一个超级计算系统,麻省理工学院研究人员开发了一种模型,可以在给定的一天捕获世界各地的Web流量看起来像互联网研究和许多其他应用程序的测量工具。

研究人员所说,了解在这种大规模的Web流量模式,可用于通知Internet策略,识别和阻止停电,防御网络攻击,并设计更有效的计算基础架构。描述了该方法的论文在最近的IEEE高性能极限计算会议上提出。

对于他们的工作,研究人员聚集了最大的公共网络交通数据集,包括在全球各地的不同地点交换了500亿数据包,在几年内。

它们通过一台MIT SuperCloud的10,000个处理器的新颖的“神经网络”管道运行数据,该系统将计算资源与INTES研究所相结合。该管道自动培训了一种模型,该模型捕获了数据集中的所有链接的关系 - 从谷歌和Facebook等巨型中的常见引线到罕见的链接,只需简要连接,似乎对Web流量产生了一些影响。

该模型可以采用任何大量网络数据集,并生成关于网络中所有连接如何相互影响的统计测量。这可用于揭示关于对等卷斜面,肾性IP地址和垃圾邮件行为的洞察,临界部门中的攻击分发,以及流量瓶颈,以更好地分配计算资源并保持数据流动。

全局Web流量超级计算机

使用超级计算系统,MIT研究人员开发了一种模型,该模型捕获了在给定日期的全球Web流量,包括以前看不见的孤立链接(左),这很少连接,但似乎会影响核心Web流量(右)。信用:由MIT新闻编辑的研究人员提供的图片

在概念中,这项工作类似于测量空间的宇宙微波背景,近均匀的无线电波在我们的宇宙周围传播,这是在外层空间中研究现象的重要信息来源。“我们建立了一个准确的模型,用于测量互联网虚拟宇宙的背景,”麻省理工学院林肯实验室超级计算中心和天文学家培训,杰里米吉纳说。“如果你想检测到任何方差或异常,你必须有一个很好的背景模型。”

加入吉纳的纸质是:互联网举行的肯尼罗町举行的日本;加州大学在圣地亚哥的应用互联网数据分析中心KC薄脆;Vijay Gadepally和林肯实验室的超级计算中心的Peter Michaleas;和劳伦Milechin是MIT系,大气和行星科学系的研究员。

打破数据

在互联网研究中,专家研究网络流量中的异常,可能表明例如网络威胁。为此,它有助于首先了解正常的流量看起来像什么。但捕获已经挑战了。传统的“交通分析”模型只能分析由位置限制的源和目的地之间交换的小型数据包。这减少了模型的准确性

研究人员并没有特别想解决这个交通分析问题。但他们一直在开发新的技术,可以用于麻省理工学院的超级云处理大量的网络矩阵。互联网流量是一个完美的测试案例。

网络通常以图的形式进行研究,参与者用节点表示,链接表示节点之间的连接。对于internet流量,节点的大小和位置各不相同。大型超级节点是流行的集线器,如谷歌或Facebook。叶节点从那个超级节点向外延伸,并有多个连接彼此和超级节点。位于超级节点和叶节点“核心”之外的是孤立的节点和链接,它们之间很少相互连接。

传统模型的捕获对这些图形的全部捕获是不可行的。“在没有访问超级计算机的情况下,无法触摸该数据,”Kepner说。

麻省理工学院的研究人员与几所日本大学建立的广泛集成分布式环境(WIDE)项目以及加州的应用互联网数据分析中心(CAIDA)合作,为互联网流量捕获了世界上最大的数据包数据集。这个匿名数据集包含了日本和美国各地消费者和各种应用程序和服务之间的近500亿唯一的源和目的地数据点,时间可追溯至2015年。

在他们能够根据这些数据训练任何模型之前,他们需要做一些广泛的预处理。为了做到这一点,他们使用了他们之前创建的软件,称为动态分布式维度数据模式(D4M),该软件使用了一些平均技术来高效地计算和排序“超稀疏数据”,这些数据包含比数据点更多的空白空间。研究人员通过麻省理工学院的1万个超级云处理器将数据分成约10万个包的单元。这将生成更紧凑的矩阵,包含源和目标之间数十亿行和列的交互。

捕获异常值

但是在这个超稀疏数据集中绝大多数的细胞仍然是空的。为了处理矩阵,该团队在相同的10000个核上运行了一个神经网络。在幕后,一种试错技术开始将模型与全部数据拟合,从而创建出可能精确的模型的概率分布。

然后,它使用修改后的误差校正技术来进一步优化每个模型的参数,以捕获尽可能多的数据。传统上,机器学习中的错误纠正技术将尝试降低任何外围数据的重要性,以便模型适合正常概率分布,这使得它们整体更准确。但研究人员使用了一些数学技巧来确保模型仍然看到所有偏远的数据 - 例如隔离的链接 - 与整体测量一样重要。

最后,神经网络基本上生成了一个简单的模型,只有两个参数,它描述了互联网流量数据集,“从真正流行的节点到孤立的节点,以及之间的一切的完整频谱,”Kepner说。

研究人员现在致力于科学界,找到他们的下一个适用于该模型的申请。例如,专家可以研究孤立链接的重要性,研究人员在其实验中发现的研究人员很少,但似乎影响了核心节点中的Web流量。

超越互联网,神经网络管道可用于分析任何超明网络,例如生物和社交网络。“我们现在已经给了科学界,对于想要建立更强大的网络或检测网络的异常的人来说,这是一个很棒的工具,”Kepner说。“那些异常可能只是用户所做的正常行为,或者它可能是人们做你不想要的事情。”

1条评论“麻省理工学院用超级计算机在整个互联网上分析了Web流量”

  1. Bilgili Yazi!Gerçektenweb trafigihakkındabuArastırılabilirrapor bilmekÇokevindim。tumignet uzterindeki web trafigihakkındakibuyukaraştırmalarındandolayımitteknoloji组织组织​​yonunu takdir ediyorum。Bu Makaleden Ogrendim。Aslında,Bu TeknolojiyeAsinayım。Penel Olarak,BIR网站anizetmekİinSitechecker.SEO VE网站Trafik kontrolyazılımınıkullandım。AslındaBendeberBir Sektorde Profesyonel Bir DijitalPazarlamacıve互联网ArastırmacısıOlarakCalısıyorum。Dijital Teknoloji互联网HakkındaIyiBilgiyeSahibim。

发表评论

邮箱地址可选。如果提供,您的电子邮件将不会被发布或共享。