【爬虫】3.3 数据抓取
【爬虫】3.3 数据抓取

我们在得到内容后就要进行分析内容了,也就是抓取感兴趣的信息,可以是数据,比如文章,图片,也可以是链接,那么就是下一步要访问的页面了。

【爬虫】3.2 HTTP协议(二)
【爬虫】3.2 HTTP协议(二)

两台计算机之间通信,也必须有一端扮演服务器,一端扮演客户端,时候可以进行角色互换,但是在一条通信线路来说,服务器客户端的角色是确定的,用HTTP协议能够明确区分哪端是服务器端

【爬虫】3.1 HTTP协议(一)
【爬虫】3.1 HTTP协议(一)

我们访问网站,在地址栏中输入一个网址就能访问网址对应的网站内容,看起来很常用的一套操作,背后隐藏了什么样的技术,我们并不很清楚的知道,我们今天这篇和下一篇就是大概的介绍这个过程。

【爬虫】3.0 三只虫
【爬虫】3.0 三只虫

我们上网查资料一般都是通过网页上的文字获得的了,信息蕴藏在文字中,我们的爬虫为了获得信息,第一步就是获得文字。 我们要用浏览器访问地址才能得到服务器的响应,浏览器把服务器响应可视化,我们就能看到文字图片听到声音等,所以我们最关键,最重要的技术就是,使用python向服务器发送请求,然后把响应翻译筛选出有效信息,而且有些时候不能让服务器发现是python在访问而是让他错以为是人在操作。

【爬虫】1.0 介绍
【爬虫】1.0 介绍

我们平时访问网络使用的主要是浏览器,其实浏览器和编译器以及操作系统这三大软件应该是软件界比较厉害的三种工具了,当然你要说出几个其他的比如Photoshop什么的当然,这也厉害,但是和我们CS相关的这三个应该是最顶级的工具了。