python爬虫——BeautifulSoup返回结果
编写爬虫程序时,使用BeautifulSoup对页面进行解析是常见操作,BeautifulSoup的select函数的返回结果可获得多种结果。
resp = requests.get(url)
soup = BeautifulSoup(resp.text)
for s in soup:
print(p.string)
print(p.strings)
print(p.stripped_strings)
print(p.get_text)
print(p.text)
- string:用来获取目标路径下第一个非标签字符串,得到的是个字符串
- strings:用来获取目标路径下所有的子孙非标签字符串,返回的是个生成器
- stripped_strings:用来获取目标路径下所有的子孙非标签字符串,会自动去掉空白字符串,返回的是一个生成器
- get_text:用来获取目标路径下的子孙字符串,返回的是字符串(包含HTML的格式内容)
- text:用来获取目标路径下的子孙非标签字符串,返回的是字符串