Beautiful Soupでbrタグを改行コードに変換する


press
Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでスクレイピングしたdivタグ内にbrタグがあった際に改行コードに変換する方法です。以下のコードはbrタグが複数ある場合にも対応しています。

コード

description = soup.find("div", {"id": "class-id"})
for i in description.select("br"):
    i.replace_with('\n')

description.text.strip()

補足

description.text.strip()でテキストだけを抜き出すと改行部分のスペースが無くなってしまい文章の可読性が落ちるので、今回は改行をそのまま残した状態でテキストを抜き出しています。


当ブログは、群馬県でPython / Djangoを中心にウェブアプリケーションを開発している株式会社ファントムが運営しています。

投稿についてのお問い合わせ




Show Comments (0)

Comments

Related Articles

Python

名前に現在時刻を入れたファイルが連番かどうか判定(前半)

名前に現在時刻を入れたファイルが連番かどうか判定(前半) なにかアクションがあった際に生成されるファイル名に現在時刻が入ったファイルが、連番になっているかどうかを判別して連番になっていたらまとめてリスト化する方法です。手 […]

Posted on by press
Python

生成したリスト同士を計算する方法

リストをループで生成してリスト同士を計算する方法です。サンプルでは、[0, 1, 2, 3, 4]のリストを3個生成して計算します。 loopOneで3を代入しているのでリストを3回計算します。loopTwoで5を代入し […]

Posted on by press