Beautiful Soup当标签同级时候要怎么取值?
nb88新博娱乐平台
nb88新博娱乐平台
当前位置 : nb88新博娱乐平台 > 新博nb88官网

Beautiful Soup当标签同级时候要怎么取值?

遇到一个平级标签的页面,如下显示:

<!DOCTYPE html>
<html lang="en">
<head>
    <meta charset="UTF-8">
    <title>Title</title>
</head>
<body>

    <h2>1. 测试标题一</h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1374.html" target="_blank">测试一小标题1</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1410.html" target="_blank">测试一小标题2</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1520.html" target="_blank">测试一小标题3</a></h2>
    <h2>2. 测试标题二</h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/779.html" target="_blank">测试二小标题1</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/842.html" target="_blank">测试二小标题2</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/997.html" target="_blank">测试二小标题3</a></h2>
    <h2>3. 测试标题三</h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/2301.html" target="_blank">测试三小标题1</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1976.html" target="_blank">测试三小标题2</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1905.html" target="_blank">测试三小标题3</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/2440.html" target="_blank">测试三小标题4</a></h2>
    <h2>4. 测试标题四</h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1722.html" target="_blank">测试四小标题1</a></h2>
    <h2 class="lesson-info-h2"><a href="http://www.xxx.xxx.com/1518.html" target="_blank">测试四小标题2</a></h2>

</body>
</html>

我最终要取得的值是

  1. 测试标题一

    测试一小标题1,小标题1的链接
    测试一小标题2,小标题2的链接

    ...

  2. 测试标题四

    测试四小标题1,小标题1的链接
    测试四小标题2,小标题1的链接
    

    我原本使用的是

h2_a = soup.find_allh2
for i_a in h2_a:
    print i_a

这样是可以把需要的h2取到,但想要在继续循环去那些小标题时候,由于得到typei_a为<class bs4.element.Tag>
就不知道要怎么取了。

问大神给指点一下。

h2_a = soup.find_allh2
for i_a in h2_a:
    if i_a.a:
        print i_a.text,,,i_a.a[href]
    else:
        print i_a.text

python3下的。python2的print不知道怎么写了,不知是否符合你的要求

I cant spell Chinese for the bad OS.

I thinke that we can solve this question using re.

import re
resList = b = re.findallr<h2>.*?</h2>[\w\W]*??=<h2>|</body>,html.replace\n,

then: suppose a in resList, a[0] is the parent title, and a[1] is the sub content.
try it.

soup.find_allh2, class_=None
这样就可以直接查找到你需要的了。

栏目列表

广告位

nb88新博娱乐平台