1、爬虫:Web Crawler
是按照一定规则抓取网页信息的程序。
爬虫获取的就是浏览器解析之前的源代码
自动,获取,提取,保存信息。
2、Url:链接
规则:http+:+//+主机名+/
HTTP:超文本传输协议
HTTPS:超文本传输安全协议
3、请求和响应
请求:对什么 做什么 Request Headers
响应:执行结果和数据Response headers
4:状态码
5、爬虫注意事项
基本规则--robots协议
道德准则
法律风险
联系客服