huanghaozi 的窝

我是真滴辣鸡 开始使用

非常正经的爬虫额外教程 (3)——一点点网络芝士

前排提示:

  1. 由于作者的路子比较野,在本教程中可能存在一些理解上的错误或偏差
  2. 本文将围绕校园网的配置、爬虫的编写对网络进行解说
  3. 本文是正经教程,内容比较硬核(作者很膨胀)
  4. 本文前面部分比较无聊,建议从带宽开始看

层次划分

提到计算机网络,有一个绕不开的点,就是层次划分。
ISO规定的OSI网络模型有七个层次,但实际上,我们现在所使用的网络只有五个层次:
image.png
有些很相似的东西,在不同的协议里的表达是不一样的
写爬虫什么的程序就要了解应用层传输层的知识
做黑客抓数据包用的就是应用层传输层数据链路层的知识
搭路由器组网就要用到网络层数据链路层的知识
画电路做嵌入式做路由器就要用到物理层的知识

(实际上大多数业内人员都是什么层都懂点.....)

协议

上面介绍了层次,协议也是很重要的东西,就像两个人对话一样,必须用对方能听懂的语言,才能交流,协议就像是这个交流用的语言一样,不同协议有不同的设定,要学懂的话得一个一个攻破,常用的协议都有相应的书籍可供参考。
常用的协议:

  1. 传输层:TCP、UDP...
  2. 应用层:HTTP、HTTPS、FTP...
  3. 网络层:IP、ICMP、ARP...
  4. 数据链路层:PPP、PPPoE...
    只是写爬虫的话,我们只需要知道传输层和应用层的协议就够了

网络设备

在寝室有根网线,要用校园网可以用那根线,可以直接插进电脑,也就是直接用电脑的网卡,也可以接集线器然后连N台电脑,还可以接无线路由器弄出Wifi

带宽

带宽=频带宽度=网速,有几个单位:
MBps = M Bit per second = M Bit / second = MB/s = M/s
Mbps = M byte per second = M byte / second = Mb/s

然后 1 Bit = 8 byte
简单地说,大B=8个小b

其他的单位可以用1024进一单位推出来
(常说的校园网有5兆带宽,意思是校园网网速是5Mbps≈500K/s)
(但实际上校园网可以跑到50兆,后面会说)

上网过程

前面可能有些云里雾里,看完部分应该会有所理解
这里的上网暂时限定为浏览网页
比如,这里分析一下访问google.com这个不存在的网站的过程:

首先在浏览器地址栏输入域名google.com:
image.png
然后,圈圈转了N圈,出现:
image.png
这个过程里,发生了什么呢?
首先,在我们输入域名按下enter的时候,就向DNS服务器发送了一个查IP的请求,那么什么是DNS呢?

DNS

实际上,我们输入的google.com,发送给了一个叫做DNS服务器的东西,然后,DNS服务器给了我们一个IP地址
所以,DNS服务器(),我们可以理解为一个查IP的机子,我们给他一个域名,它就返回给我们一个IP地址
那么IP地址又是什么呢?

IP地址

上网,实际上是一个收发数据、对话的过程
既然是对话,这里就存在两个角色:
我们的电脑、服务器
为了方便,把它们写成A和B,顺便把这个过程抽象成发短信

A想发短信给B问个东西,但是不知道B的电话号码,于是拿起手机,打算问一个人脉很广的同学,这个同学的名字叫DNS
A告诉DNS自己想知道B的号码
于是DNS给A一个号码,A对着这个号码发了个短信
B看到了这条短信,短信还附带了A的号码
于是B向A的号码回了短信

上文的号码就是IP,上文也比较完整地表示了上网的过程

URL结构

实际上,我们上网的时候,输入的东西不止是google.com,有的时候是这样的:
http://pipe.b3log.org/blogs/huanghaozi/articles/2019/10/12/1570872822045
像这样的一长串东西我们有时候叫地址,在写程序的时候,我们更多地说成URL
它是有结构的一串东西:
image.png
协议就是应用层的一堆协议,http、https什么的
图里能看到,域名是从右往左看的
请求路径就是请求服务器资源的哪个路径的资源
有时候我们也能看见带一堆?&的URL,比如这个:
https://mbd.baidu.com/newspage/data/landingsuper?context=%7B%22nid%22%3A%22news_9305485940163694716%22%7D&n_type=0&p_from=1
这个域名后面那一堆东西是附加参数
image.png
这些参数是给服务器程序看的,服务器程序会读取这些参数的值,然后根据这些参数传回给我们不同的信息

Mac地址

数据包

防火墙

抓包

网页

爬虫

关于校园网——路由器配置

关于校园网——IPv6

关于校园网——蒲公英

评论
留下你的脚步
推荐阅读