Beautiful Soupでbrタグを改行コードに変換する


press
Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでスクレイピングしたdivタグ内にbrタグがあった際に改行コードに変換する方法です。以下のコードはbrタグが複数ある場合にも対応しています。

コード

description = soup.find("div", {"id": "class-id"})
for i in description.select("br"):
    i.replace_with('\n')

description.text.strip()

補足

description.text.strip()でテキストだけを抜き出すと改行部分のスペースが無くなってしまい文章の可読性が落ちるので、今回は改行をそのまま残した状態でテキストを抜き出しています。


株式会社ファントムへのお問い合わせ

群馬県でPythonを使ったAIやソフトウェアを開発している株式会社ファントムが運営しています。




    Show Comments (0)

    Comments

    Related Articles

    Python

    WordCloudを導入した

    WordCloudとは 文章に頻出する単語を抽出して画像に出力するシステムのこと。 実装について 形態素分析 まず形態素分析する必要がある。最新の形態素分析はJUMAN++なのでそれを導入すべし。 インストールするのは簡 […]

    Posted on by EIGHT
    Python

    Rembgで画像から背景を削除

    Rembgで画像から背景を削除 先日、SNSで見た画像の背景を削除して切り抜くPythonのライブラリを見つけたので早速試してみました。普段業務で画像の背景を処理することも多くソフトを使って背景を削除していたので、Pyt […]

    Posted on by press