Beautiful Soupでbrタグを改行コードに変換する


press
Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでスクレイピングしたdivタグ内にbrタグがあった際に改行コードに変換する方法です。以下のコードはbrタグが複数ある場合にも対応しています。

コード

description = soup.find("div", {"id": "class-id"})
for i in description.select("br"):
    i.replace_with('\n')

description.text.strip()

補足

description.text.strip()でテキストだけを抜き出すと改行部分のスペースが無くなってしまい文章の可読性が落ちるので、今回は改行をそのまま残した状態でテキストを抜き出しています。


株式会社ファントムへのお問い合わせ

群馬県でPythonを使ったAIやソフトウェアを開発している株式会社ファントムが運営しています。




    Show Comments (0)

    Comments

    Related Articles

    Python

    Pythonのf文字列を使った書式パターン

    Pythonのf文字列を使った書式パターン この記事で紹介したf文字列を使った文字列の操作ですが、文字列に変数を埋め込む際に書式を指定できます。0埋めして文字数を揃えたり、カンマで桁を区切ることも可能です。 カンマで桁区 […]

    Posted on by press
    Python

    OpenCVで複数の画像から動画ファイルを作る

    OpenCVで複数の画像から動画ファイルを作る 前回に続き、今回は複数の画像をまとめて動画ファイルに変換する方法です。gifアニメーションを生成するときはPillowを使いましたが、動画を生成するときはOpenCVを使い […]

    Posted on by press