编写爬虫程序时,使用BeautifulSoup对页面进行解析是常见操作,BeautifulSoup的select函数的返回结果可获得多种结果。

resp = requests.get(url)
soup = BeautifulSoup(resp.text)
for s in soup:
	print(p.string)
	print(p.strings)
	print(p.stripped_strings)
	print(p.get_text)
	print(p.text)
  1. string:用来获取目标路径下第一个非标签字符串,得到的是个字符串
  2. strings:用来获取目标路径下所有的子孙非标签字符串,返回的是个生成器
  3. stripped_strings:用来获取目标路径下所有的子孙非标签字符串,会自动去掉空白字符串,返回的是一个生成器
  4. get_text:用来获取目标路径下的子孙字符串,返回的是字符串(包含HTML的格式内容)
  5. text:用来获取目标路径下的子孙非标签字符串,返回的是字符串