Python Language
HTML解析
サーチ…
BeautifulSoupの要素の後にテキストを配置する
次のHTMLがあるとします。
<div>
<label>Name:</label>
John Smith
</div>
label
要素の後にテキスト「John Smith」を配置する必要があります。
この場合、 label
要素をテキストで検索し、 .next_sibling
プロパティを使用することが.next_sibling
ます 。
from bs4 import BeautifulSoup
data = """
<div>
<label>Name:</label>
John Smith
</div>
"""
soup = BeautifulSoup(data, "html.parser")
label = soup.find("label", text="Name:")
print(label.next_sibling.strip())
John Smith
印刷します。
BeautifulSoupでCSSセレクタを使う
BeautifulSoupはCSSセレクタのサポートが限られていますが、最も一般的に使用されています。 select()
メソッドを使用して複数の要素を検索し、 select_one()
を使用して単一の要素を検索します。
基本的な例:
from bs4 import BeautifulSoup
data = """
<ul>
<li class="item">item1</li>
<li class="item">item2</li>
<li class="item">item3</li>
</ul>
"""
soup = BeautifulSoup(data, "html.parser")
for item in soup.select("li.item"):
print(item.get_text())
印刷物:
item1
item2
item3
PyQuery
pyqueryはPython用のjqueryライクなライブラリです。それはCSSセレクタを非常によくサポートしています。
from pyquery import PyQuery
html = """
<h1>Sales</h1>
<table id="table">
<tr>
<td>Lorem</td>
<td>46</td>
</tr>
<tr>
<td>Ipsum</td>
<td>12</td>
</tr>
<tr>
<td>Dolor</td>
<td>27</td>
</tr>
<tr>
<td>Sit</td>
<td>90</td>
</tr>
</table>
"""
doc = PyQuery(html)
title = doc('h1').text()
print title
table_data = []
rows = doc('#table > tr')
for row in rows:
name = PyQuery(row).find('td').eq(0).text()
value = PyQuery(row).find('td').eq(1).text()
print "%s\t %s" % (name, value)
Modified text is an extract of the original Stack Overflow Documentation
ライセンスを受けた CC BY-SA 3.0
所属していない Stack Overflow