博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python网络爬虫的网站实例
阅读量:1886 次
发布时间:2019-04-26

本文共 1881 字,大约阅读时间需要 6 分钟。

1.通过爬取网页源代码

import requestsdef getHTMLText(url):    try:        r=requests.get(url,timeout=30)        r.raise_for_status()        r.encoding=r.apparent_encoding        return r.text    except:        return "产生异常"if __name__=="__main__":    url="http://www.sdust.edu.cn"    print(getHTMLText(url))
2.爬取京东商品的源代码

import requestsurl="https://item.jd.com/5181380.html"try:    r=requests.get(url)    r.raise_for_status()    r.encoding=r.apparent_encoding    print(r.text[:1000])except:    print("爬取失败")
3.爬取亚马逊商品的源代码

import requestsurl="https://www.amazon.cn/gp/product/B071SDP8PC"try:    kv={'user-agent':'Mozilla/5.0'}    r=requests.get(url,headers=kv)    r.raise_for_status    r.encoding=r.apparent_encoding    print(r.text[24440:25145])except:    print("爬取失败")
4.百度、360搜索关键词

import requestskeyword="Python"url="https://wwww.baidu.com/s"try:    kv={'wd':keyword}    r=requests.get(url,params=kv)    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print("爬取失败")
import requestskeyword="Python"kv={'q':keyword}url="http://www.so.com/s"try:    r=requests.get(url,params=kv)    print(r.request.url)    r.raise_for_status()    print(len(r.text))except:    print("爬取失败")

5.网络图片的爬取与下载

import requestsimport osurl="http://image.nationalgeographic.com.cn/2017/0730/20170730125917668.jpg"root="E://Python//wordplace//getHTMLText//picture//"path=root + url.split('/')[-1]try:    if not os.path.exists(root):        os.mkdir(root)    if not os.path.exists(path):        r=requests.get(url)        with open(path,'wb') as f:            f.write(r.content)            f.close()            print("文件保存成功")    else:        print("文件已存在")except:    print("爬取失败")
6.查询IP地址

import requestsurl="http://m.ip138.com/ip.asp?ip="try:    r=requests.get(url+'202.204.80.112')    r.raise_for_status()    r.encoding=r.apparent_encoding    print(r.text[-500:])except:    print("爬取失败")

转载地址:http://nawdf.baihongyu.com/

你可能感兴趣的文章
图像二值化----otsu(最大类间方差法、大津算法)(二)
查看>>
OpenCV编程案例:使用轮廓函数检测连通区域
查看>>
opencv使用cvFindContours提取联通域
查看>>
C++中MessageBox的常见用法
查看>>
ordfilt2函数功能说明
查看>>
在图像变换中用最小二乘法求解仿射变换参数
查看>>
软件包应用分享|基于RT-Thread的百度语音识别(一)
查看>>
12月8日 RCEA - RT-Thread能力认证考试考前通知
查看>>
论坛热贴 | RT-Thread音频驱动开发(一)
查看>>
基于 Keil MDK 移植 RT-Thread Nano
查看>>
【报名截至今晚】12月14日深圳嵌入式与音频开发专题会议预告
查看>>
移植 RT-Thread Nano 到 RISC-V
查看>>
软件包应用分享|基于RT-Thread的百度语音识别(二)
查看>>
在 RT-Thread Nano 上添加控制台与 FinSH
查看>>
一站式开发工具:RT-Thread Studio 正式发布
查看>>
留言有礼|谢谢你悄悄点了小星星,让我们跃居GitHub RTOS Star榜第一
查看>>
功能更新!C 函数也能在 MicroPython 中被调用啦
查看>>
东软载波携ES32+RT-Thread走进海尔集团
查看>>
今晚8点直播预告:RT-Thread Studio等相关主题答疑
查看>>
Linux内核在中国大发展的黄金十年-写于中国Linux存储、内存管理和文件系统峰会十周年之际...
查看>>