爬虫技术是一种可以便捷获取信息的常用技术,按爬虫的规模可以分为爬取网页的爬虫、爬取网站的爬虫和爬取全网的爬虫。爬虫具有一定的法律风险,服务器上的数据有产权归属,网络爬虫获取数据后牟利将带来法律风险。在爬取信息之前,应当在网站根目录后加`/robots.txt`,查看Robots协议,以确定那些内容无法爬取。