Beautiful Soupでbrタグを改行コードに変換する


press
Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでbrタグを改行コードに変換する

Beautiful Soupでスクレイピングしたdivタグ内にbrタグがあった際に改行コードに変換する方法です。以下のコードはbrタグが複数ある場合にも対応しています。

コード

description = soup.find("div", {"id": "class-id"})
for i in description.select("br"):
    i.replace_with('\n')

description.text.strip()

補足

description.text.strip()でテキストだけを抜き出すと改行部分のスペースが無くなってしまい文章の可読性が落ちるので、今回は改行をそのまま残した状態でテキストを抜き出しています。


株式会社ファントムへのお問い合わせ

群馬県でPythonを使ったAIやソフトウェアを開発している株式会社ファントムが運営しています。




    Show Comments (0)

    Comments

    Related Articles

    Django

    Dockerを使ってDjangoとPostgreSQL環境を構築(2)

    前回の内容が古くなってしまったので2021年版に更新します。 Dockerを使ってシンプルなDjangoとPostgreSQLの開発環境を構築する方法の2021年版です。以下の点が前回より変わった点です。・Volumeを […]

    Posted on by press
    AWS

    AWSのCloud9を使ってPythonのプログラミング研修を開催

    AWSのCloud9を使ってPythonのプログラミング研修を開催 2022年11月から2023年2月までの期間で、群馬県庁職員を対象にしたDXを促進するためのPythonによるプログラミング研修を開催しました。現在、群 […]

    Posted on by press

    最新情報をお届けします!

    メーリングリストに登録するとファントムの最新情報をお届けします

    お客様のメールアドレスを共有することはありません