群馬県でPythonを使ったAIやシステムを開発しているファントム

Navigation
群馬県でPythonを使ったAIやシステムを開発しているファントム

群馬県でAIを使った画像解析やシステム開発をしています。介護記録システム「バイタルチェッカー」、見守りAIカメラ 「Casper」を自社開発。 Python / Django / Flask / FastAPI

投稿を検索する


  • 株式会社ファントム コーポレートサイト

カテゴリー



  • AWS 2
  • Django 40
  • Flask 4
  • Information 35
  • Other 10
  • PHP 1
  • Python 71
  • Pythonista 3
  • 未分類 1

タグ


api argparse Beautiful Soup black calender Channels charset ChromeDriver datetime Docker enumerate f-string File Watcher flake8 gettext GitHub glob Google Colaboratory GPU Gunicorn i18n Jupyter Matplotlib Nginx OpenCV pandas Pillow pip Pipenv PostgreSQL psycopg2 PyCharm PyCon pyenv PyTorch random Redis ReportLab requests Selenium slack timedelta Ubuntu uWSGI venv

最新の投稿


Python
PythonでYouTubeの動画をダウンロード
Posted by press on 7th 8月 2022

PythonでYouTubeの動画をダウンロード YouTubeの動画をPythonでダウンロードします。今回使うyt-dlpはyoutube-dlのフォークで、youtube-dlよりもダウンロード速度が高速です。Py […]

Python
Pythonでjpgやpng画像をwebpに一括変換
Posted by press on 7th 8月 2022

Pythonでjpgやpng画像をwebpに一括変換 ウェブサイトで使用される画像に画質を保ったまま軽量化できるWebサイト向けの次世代画像フォーマットのwebpを利用するケースが増えていますが、サイト内で使われている画 […]

Other
Apple silicon Macでmxnetを使えるようになるまで
Posted by press on 26th 7月 2022

Apple silicon Macでmxnetを使えるようになるまで エラーが発生したのでpip install mxnet-mkl/mxnet-cu90mkl --preしたところ以下のエラーが発生 エラーの中に上の内 […]

Other
Gitで別のブランチから特定のファイルorディレクトリをチェックアウト
Posted by press on 5th 7月 2022

Gitで別のブランチから特定のファイルorディレクトリをチェックアウト 複数人での開発や細かくブランチを作って開発していると、別ブランチの一部分だけを今のブランチに取り込みたいということがあります。マージだと取り込みたく […]

Python
サッカーコートの白線を抽出する
Posted by EIGHT on 14th 6月 2022

次のようなサッカーコートの白線の部分を線分としてを抽出したい。 まず考えたのは、緑色か否かで判定して白黒画像にすることだ。白黒画像にすることで、線をより明確に可視化させることができ、その後エッジだけ抽出して線分判定をすれ […]

このサイトはreCAPTCHAによって保護されており、Googleのプライバシーポリシーと利用規約が適用されます。

© 2022 Fantom, Inc.

Hydra WordPress Theme by EckoThemes.

Published with WordPress.

Related Articles

Filter by Category

  • Python(71)
  • Django(40)
  • Information(35)
  • Other(10)
  • Flask(4)
  • Pythonista(3)
  • AWS(2)
  • 未分類(1)
  • PHP(1)

Filter by Author

  • EIGHT (10)
  • press (136)
Back to Latest Articles
Python

ツイートを位置情報でプロットして時系列に纏めるtapiokaHeatmapの解説

ツイートを位置情報でプロットして時系列に纏めるtapiokaHeatmapの解説 今回はタピオカのツイート数を位置情報でプロットして時系列に纏めるソースコードについて解説する。 ソースコードは下記のgithubにあるので […]

Posted on 26th 10月 2021 by EIGHT

Python

BERT+UMAPを実装した

https://shuhoyo.hatenablog.com/entry/nogizaka46-lyrics-nlp 上記サイトを参考にBERT+UMAPを実装してみた。 BERTとは BERTとは自然言語処理の1手法の […]

Posted on 31st 5月 2022 by EIGHT

Django

DjangoでPOSTとGETを組み合わせたパラメータでリダイレクト

DjangoでPOSTとGETを組み合わせたパラメータでリダイレクト DjangoでPOSTを使ったリダイレクトはよく事例が見つかりますが、POSTとGETを組み合わせたURLにリダイレクトさせる情報があまりなかったので […]

Posted on 30th 5月 2022 by press

Python

WordCloudを導入した

WordCloudとは 文章に頻出する単語を抽出して画像に出力するシステムのこと。 実装について 形態素分析 まず形態素分析する必要がある。最新の形態素分析はJUMAN++なのでそれを導入すべし。 インストールするのは簡 […]

Posted on 24th 5月 2022 by EIGHT

Django

PyCharmでPostgreSQLをGUIから操作する設定

PyCharmでPostgreSQLをGUIから操作する設定 PyCharmでDjangoのPostgreSQLをGUIで操作するための設定方法です。Djangoには管理サイトが用意されていますが、プログラムの実行中にデ […]

Posted on 10th 5月 2022 by press

Python

仮想環境でかなり困った

下記のdeep fakeを導入しようとしたら仮想環境作成でかなり困ったので記録しておく。 https://knowledge.sakura.ad.jp/26769/ 試したこと Docker まずdockerでpytho […]

Posted on 9th 5月 2022 by EIGHT

Other

リモートのファイルをローカルのデスクトップにコピー

リモートのファイルをローカルのデスクトップにコピー リモートサーバーにSSH鍵でログインして、ファイルをローカルのマシンにコピーする方法です。今回はリモートサーバーにダンプしたsqlファイルをデスクトップにコピーします。 […]

Posted on 5th 5月 2022 by press

Python

Pythonのenumerate関数でfor文のインデックスを取得

Pythonのenumerate関数でfor文のインデックスを取得 enumerate関数を使うとPythonでforを書くときに処理毎にカウントアップしたり、値を代入したりといった処理が簡単にできるので便利です。 実際 […]

Posted on 29th 3月 2022 by press

Other

サイトのカラーリングを青と黄色のウクライナカラーにしました

サイトのカラーリングを青と黄色のウクライナカラーにしました ロシアによるウクライナ侵攻の早期停戦を願ってサイトのカラーリングをウクライナ国旗をイメージした青と黄色のウクライナカラーにしました

Posted on 16th 3月 2022 by press

Python

衣服の種類を判定する学習モデルについて

衣服の図面画像を読み込ませるとその種類を返すシステムを作成した。 学習モデルについて 画像から輪郭だけを抽出した輪郭画像と、オリジナル画像の2つを入力データにすることにした。 例えばTシャツならTの字になっているし、スカ […]

Posted on 8th 3月 2022 by EIGHT

Python

PytorchのDataloaderに関するTips

Posted on 8th 3月 2022 by EIGHT

Python

Pytorchで画像分類の精度を高める

今回、画像分類で精度を高めるために複数データの入力できる学習モデルを作成した。その経緯から始めて実際のモデリングまでを書くことにする。 前提 今回は洋服の図面を読み込み、それがなんの種類かを判別するCNNを作成した。 図 […]

Posted on 7th 3月 2022 by EIGHT

Python

OpenCVで画像から輪郭を上手く抽出する

pythonのOpenCVで輪郭を上手く抽出することができなかったが、いくつかの改善点により上手く行った経緯をここに書き残しておく。 改善前 これは50×50のスカートの画像である。単にfindcontourし […]

Posted on 7th 3月 2022 by EIGHT

Python

Jupyter NotebookでもBlackでコードフォーマット

Jupyter NotebookでもBlackでコードフォーマット コードの可読性を上げて保守性を高めたり、コードの属人化を防いで生産性を向上させるためのルール(コーディング規約)に則った開発を行うために、ファントムでは […]

Posted on 1st 3月 2022 by press

Python

PythonのRequestsを使ってSlackに通知

PythonのRequestsを使ってSlackに通知 フォームから送られた内容やプログラムの処理結果や途中結果をSlackに通知する方法です。 以下のコードのBOT USER TOKENとCHANNEL NAMEを任意 […]

Posted on 28th 2月 2022 by press

Information

2022年度 採用についてのお知らせ

2022年度 採用についてのお知らせ 概要2022年度の採用募集を開始します。(フルタイム、副業問わずビデオ会議等で意見交換からでもOKです。) 募集職種・インフラエンジニア・ウェブアプリケーションエンジニア・機械学習エ […]

Posted on 28th 2月 2022 by press

Python

Pythonのf文字列を使った書式パターン

Pythonのf文字列を使った書式パターン この記事で紹介したf文字列を使った文字列の操作ですが、文字列に変数を埋め込む際に書式を指定できます。0埋めして文字数を揃えたり、カンマで桁を区切ることも可能です。 カンマで桁区 […]

Posted on 27th 2月 2022 by press

Python

Pythonのf文字列を使った文字列の操作

Pythonのf文字列を使った文字列の操作 Pythonのf文字列は{1}や{a}のように変数を{}(波括弧)で囲うことで、文字列の中に変数を挿入できるので直感的な記述ができるようになります。従来のように複数の変数や文字 […]

Posted on 22nd 2月 2022 by press

Python

Pythonのargparseでコマンドライン引数をパース

Pythonのargparseでコマンドライン引数をパース argparseモジュールを使って、Pythonを実行する際にコマンドライン引数を指定してプログラム内に情報を渡す方法です。 引数によって処理を変えたり、別々の […]

Posted on 21st 2月 2022 by press

Information

Announcement about Internships for 2022

Announcement about Internships for 2022 日本語のページ OverviewWe’re now accepting applications for full remote […]

Posted on 4th 2月 2022 by press

Information

2022年度 インターンシップについてのお知らせ

2022年度 インターンシップについてのお知らせ For English page 概要2022年度のインターンシップの募集を開始します。 募集職種・インフラエンジニア・ウェブアプリケーションエンジニア・機械学習エンジニ […]

Posted on 3rd 2月 2022 by press

View Latest Posts
Python

BERT+UMAPを実装した


EIGHT
BERT+UMAPを実装した
Posted on 31st 5月 2022 by EIGHT
2022年度 インターンシップ 募集開始

https://shuhoyo.hatenablog.com/entry/nogizaka46-lyrics-nlp

上記サイトを参考にBERT+UMAPを実装してみた。

BERTとは

BERTとは自然言語処理の1手法のことだ。 BERTを使った処理の流れを説明すると、まず文章データはJUMAN ++によって単語の列に変換される。 単語の列はBERTによって分散表現と呼ばれる1024次元ベクトルに変換される。 このベクトルを入力データにした機械学習モデルを作ることで、全体としては自然言語モデルになる。

例えば入力値1024で出力値2のNNモデルを作成し、教師データを文章がポジティブなら[1,0],ネガティブなら[0,1]とするような学習モデルを作れば、 全体としては文章を見てネガポジを判定するモデルになる。

今回はこの分散表現をUMAPによって次元削減してみる。 次元削減をすることで、本来BERTによって数値化された文章は1024次元で人の目には理解できないものを、文章同士の位置関係を保ったまま2次元に落とし込むことができる。 これにより、BERTがどの文章同士を似ていると判断したのか分かるわけだ。

実装

実装は上のサイトのように実行しようとしたが、うまく行かない箇所があったので下記も参考にした。

https://snowman-88888.hatenablog.com/entry/2020/08/21/055414

また、入力する文章は次のサイトをスクレイピングした。

https://mric.jogmec.go.jp

結果

見たところ、国ごと、鉱物ごとなどに纏まっているような感じはある。


株式会社ファントムへのお問い合わせ

群馬県でPythonを使ったAIやソフトウェアを開発している株式会社ファントムが運営しています。




    EIGHT
    • BERT
    • UMAP
    • Share Article:
    • Twitter
    • Facebook
    • Pinterest
    • LinkedIn
    • Reddit

    Related Articles

    Python

    PythonのRequestsを使ってSlackに通知

    PythonのRequestsを使ってSlackに通知 フォームから送られた内容やプログラムの処理結果や途中結果をSlackに通知する方法です。 以下のコードのBOT USER TOKENとCHANNEL NAMEを任意 […]

    Posted on 28th 2月 2022 by press
    Python

    pyenvでインストールしたPythonのバージョンを更新する

    pyenvでインストールしたPythonのバージョンを更新する pyenvで最新のPythonをインストールしようとしたところ、pyenvのバージョンが古く最新のバージョンがリストになかったので、pyenvをアップデート […]

    Posted on 14th 6月 2022 by press

    最新情報をお届けします!

    メーリングリストに登録すると株式会社ファントムの最新情報をお届けします

    お客様のメールアドレスを共有することはありません