博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python获取当前页面内的所有链接的五种方法
阅读量:6091 次
发布时间:2019-06-20

本文共 873 字,大约阅读时间需要 2 分钟。

本文讲述了 Python 获取当前页面内的所有链接的五种方法,分享给大家仅供参考,具体如下:

# 利用 requests_html from requests_html import HTMLSession session = HTMLSession() url = 'https://www.baidu.com' r = session.get(url) print(r.html.links) print('*'*100) # 利用 BeautifulSoup import requests from bs4 import BeautifulSoup url = 'http://www.baidu.com' res = requests.get(url) soup = BeautifulSoup(res.text, 'lxml') for a in soup.find_all('a'):  print(a['href']) print('*'*100) # 利用 re (不推荐用正则,太麻烦) # 利用 lxml.etree from lxml import etree tree = etree.HTML(r.text) for link in tree.xpath('//@href'):  print(link) print('*'*100) # 利用 selenium from selenium import webdriver chrome_options = webdriver.ChromeOptions() chrome_options.add_argument('--headless') browser = webdriver.Chrome(chrome_options=chrome_options) browser.get(url) for link in browser.find_elements_by_tag_name('a'):  print(link.get_attribute('href'))

转载地址:http://qsvwa.baihongyu.com/

你可能感兴趣的文章
centos使用docker下安装mysql并配置、nginx
查看>>
关于HTML5的理解
查看>>
需要学的东西
查看>>
Linux 获取文件夹下的所有文件
查看>>
对 Sea.js 进行配置(一) seajs.config
查看>>
第六周
查看>>
解释一下 P/NP/NP-Complete/NP-Hard 等问题
查看>>
javafx for android or ios ?
查看>>
微软职位内部推荐-Senior Software Engineer II-Sharepoint
查看>>
sql 字符串操作
查看>>
【转】Android布局优化之ViewStub
查看>>
网络安全管理技术作业-SNMP实验报告
查看>>
根据Uri获取文件的绝对路径
查看>>
Flutter 插件开发:以微信SDK为例
查看>>
.NET[C#]中NullReferenceException(未将对象引用到实例)是什么问题?如何修复处理?...
查看>>
边缘控制平面Ambassador全解读
查看>>
Windows Phone 7 利用计时器DispatcherTimer创建时钟
查看>>
程序员最喜爱的12个Android应用开发框架二(转)
查看>>
vim学习与理解
查看>>
DIRECTSHOW在VS2005中PVOID64问题和配置问题
查看>>