NLP ライブラリを使用して Python でテキストを解析する方法

NLP ライブラリを使用して Python でテキストを解析する方法

翻訳者 |チェン・ジュン

校正:孫淑娟

Python は、人工知能の分野で広く使用されている強力なオブジェクト指向プログラミング (OOP) 言語です。まさにその実用性を考慮して、Google を筆頭とする大手テクノロジー企業は、Tensorflow などのコード ライブラリを開発し、強力な機械学習アルゴリズムとモデルを使用して、さまざまな「手話」パーサー、オートバイのヘルメット検出器、さまざまなオブジェクト識別子など、さまざまなアプリケーション目的を達成できるようにしています。

NLP (自然言語処理) は、自然言語の理解と操作に関連するすべての人工知能アクティビティの総称です。 Python には、テキストを取得してさまざまなコンポーネントに分解し、重要な部分を識別するために使用できる Transformers と呼ばれる機械学習モデルがあります。次に、ディープラーニングモデルであるTransformerがどのようにテキストを解析するかについて説明します。

1. Transformer ライブラリを使用して Python でテキストを解析するにはどうすればよいですか?

始める前に、Google アカウントが必要です。自分のコンピュータに Python、その依存関係、および IDE (統合開発環境) をインストールする手間を省くために、無料のクラウド サービス環境である Google Colab ノートブックを使用して、Python を使用するさまざまな人と共同作業を行います。同時に、AI コード ライブラリ自体が大きく、依存関係が多いため、クラウド環境を使用すると、占有するハードディスク領域を効果的に節約できます。

1. 必要なライブラリをインストールする

まず、次の 4 つのコード ライブラリをインストールする必要があります。 Colab ノートブックを開き、最初のコード セルに次のコードを入力します。

!pip トランスフォーマーをインストール

!pip トーチをインストール

!pip インストール センテンスピース

!pip 新聞3k をインストール

先に進む前に、これらのコマンドについて少し理解しておきましょう。あなたが知っているように:

  • 「トランスフォーマー」は、テキストを解析するために使用できるディープラーニング モデルです。
  • 「Torch」はディープラーニングのためのアルゴリズムを提供します。
  • 「Sentencepeice」は、テキストを「トークン化」(コンポーネントに分解)するために使用できます。
  • 「Newspaper3k」は、インターネットから記事(テキストコンテンツ)をインポートできるWebスクレイピングライブラリです。

この時点で、画面には次のような内容が表示されます。

2. 記事をインポートする

記事をインポートするには、対応する URL を指定する必要があります。次に、後でさらにマークできるように、次のコマンドを入力して記事をダウンロードして解析する必要があります。

それが完了したら、ステップ 3 に進みます。

3. 記事にタグを付ける

変換ライブラリから自動トークナイザーをインポートし、テキスト間の変換 (ここでは解析に使用できます) に T5 モデル (T5 は機械学習モデルです) を使用して、解析済みテキストを生成する必要があります。次の画像は、このエフェクトに入力する必要があるコードを示しています。

4. 記事を分析する

この記事を解析するには、特定の関数を作成する必要があります。この関数はトークン化された記事を受け取り、各文を個別に解析します。次に、文章を再び結合してから出力します。

次の画像は解析されたテキストの出力を示しています。

読みやすさを向上させるために、これを手動でテキスト ファイルにコピーできます。

これは、NLP ライブラリを使用して Python でテキストを解析する 1 つの方法です。しかし、これは、特に AI や Python に精通していない人にとっては、かなり複雑で面倒な方法です。この時点で、この目的を達成するためのオンライン解析ツールはあるのだろうかと疑問に思うはずです。

2. オンライン分析のための無料ツール

1. プレポストセオ

Prepostseo は、さまざまな目的に使用できる非常に便利な解析ツールを提供します。無料でご利用いただけるため、スムーズに使い始めるために何らかのアカウントを登録する必要はありません。

ツールを使用する場合、次の 3 つのモードで無料で使用できます。

  • シンプルモード
  • アドバンスモード
  • スムーズモード

このうち、シンプル モードでは、ツールはいくつかの単純な同義語化のみを実行します。つまり、複数の単語がいくつかの同義語に置き換えられます。

高度なモードでは、単語や解析結果だけが変化するわけではありません。デフォルトの結果が気に入らない場合は、編集可能な部分を確認して、別の同義語に置き換えることができます。

流暢さのパターンは、単語だけでなく、フレーズ、文の構造、トーンも変化させます。ただし、出力を編集するオプションは提供されません。

スムーズモードとアドバンスモードの方が効果的なモードであることがわかります。カスタム コンテンツをインポートするには、解析するドキュメントをアップロードするか、テキストをコピーして入力フィールドに貼り付け、解析プロセスが完了した後に出力をダウンロードします。

このツールの唯一の欠点は、Web ページに広告が表示されることです。

2. リンギックス

Linguix は登録なしで使用できる別の無料パーサーです。ウェブページには広告がないので、非常に使いやすいです。

Linguix には複数のモードはありませんが、文を解析すると、1 つだけではなく複数の候補が表示されます。すべての提案によって特定のテキストに異なる変更が加えられる可能性があるため、最も適したものを選択できます。

このツールは使いやすいです。解析するテキストを入力ボックスに入力し、ハイライト表示して選択するだけで、文ごとに対応するポップアップ候補が表示されます。

このツールの唯一の欠点は、一度に 5 つの文しか解析できないことです。

3. パラフレーズ

Paraphraser.io は、多くのコンテンツ最適化ツールを備えたオンライン ツールキットでもあります。名前が示すように、主に解析の分野を対象としています。

このツールも登録なしで無料で使用できます。ただし、前述の Prepostseo と同様に、使用中に広告が煩わしく感じる場合があります。現在、標準モードとスムーズモードの 2 つの無料モードが提供されています。このうち、標準モードでは、一部の単語を同義語で置き換えるだけで、全体的な文の構造は変更されません。流暢性モードでは、単語やフレーズを置き換えるだけでなく、文章の構造も変更してテキストを読みやすくします。

広告の他に、このツールのもう 1 つの欠点は、一度に解析できる単語数が 500 語までしかないことです。

3. まとめ

要約すると、NLP ライブラリを使用して Python でテキストを解析すると、人工知能とディープラーニングのさまざまなモデルを最大限に活用して変換を実現できます。このような重いタスクを完了するには、Google Colab の強力なクラウド サービス機能と Transformer ライブラリを使用できます。さまざまなオンライン解析ツールのさまざまなモードを選択して、さまざまな方法でテキストを書き換えることもできます。さらに、これらのツールのほとんどは無料で、登録は必要ありません。

オリジナルリンク: https://dzone.com/articles/how-to-paraphrase-text-in-python-using-nlp-librari

翻訳者について

51CTO コミュニティの編集者である Julian Chen 氏は、IT プロジェクトの実装において 10 年以上の経験を持っています。社内外のリソースとリスクの管理に長けており、ネットワークと情報セキュリティの知識と経験の普及に注力しています。

<<:  現代の製造業におけるクラウドコンピューティングベースのテクノロジーの重要性

>>:  エッジコンピューティングとクラウドコンピューティングを併用する 4 つのメリット

推薦する

小規模サイトが検索エンジンの検索結果で上位にランクされる理由を分析する

最近、いくつかのキーワードが Google の検索結果で非常に上位にランクされているのに、このブログ...

サイトに 301 リダイレクトが必要な理由に関する 3 つの質問と回答

301 リダイレクトは、Web ブラウザに訪問者を特定のページからサイト上の別のページに誘導する場所...

クラウドストレージを使用する5つの利点

現在、デジタル化の波があらゆる業界を席巻しています。デジタル改革、デジタル経営…一連の「デジタル」の...

#11.11# 刺激クラウド: 香港 CN2 回線、9 元/月、4G メモリ/4 コア/40g SSD/5M 帯域幅、イベント期間中の更新で 50% 割引

Stimulating Cloud [国内企業、ISPライセンス、IDCライセンス、クラウドライセン...

新しいサイトの内部ページを迅速に収集するための計画

新しい Web サイトの非常に明白な特徴は、通常、ホームページが最初にインデックスされ、その後少し長...

シンプルで習得しやすいソフトコピーマーケティングスキルとは?この5つのステップを見てください

ショートビデオ、セルフメディア、インフルエンサーのためのワンストップサービス私は企業のプロダクトマー...

クラウドをゼロから理解する

この記事は、「クラウド」についてあまり知らない学生に適しています。重要なポイントは次のとおりです。ク...

Hongmengは1024のプレイに焦点を当てたゲームを配布しました

[[430078]]詳細については、以下をご覧ください。 51CTOとHuaweiが共同で構築したH...

ウェブサイトに高品質の一方通行リンクを構築する方法

ほとんどのウェブマスターは、ウェブサイトが完成したら宣伝を始める必要があることを知っています。そうし...

cloudcone: 2018 年 1 月 1 日以前に登録した古いユーザー限定、年間 7 ドル、512M メモリ/10g SSD/5T トラフィック/1Gbps 帯域幅/ロサンゼルス

Cloudcone は大晦日の正午から、中国の顧客向けに、年間料金がわずか 7.5 米ドルで毎月 5...

コメントベースのプロモーションで勝つには?節度を保つにはどうすればいいでしょうか?

Baidu に「コメントベースのプロモーション」と入力すると、コメントがプロモーションであるという記...

サイン会第一弾! EasyStackはPKCをコアとして「Chain Hainan」をサポート

12月4日、海南自由貿易区(香港)ブロックチェーン実験区主催のデジタル文明会議記者会見が海南生態ソ...

ブランドマーケティングとプロモーション丨デュレックスの母の日ポスターの何が問題なのでしょうか?

デュレックスとヘイティーのポスターコピーライティングの失敗以来、業界と読者はデュレックスに対して否定...

顧客を知る: 2億8,500万ドルの企業からの3つのヒント

テクノロジーは、今日の起業家がビジネス、チーム、業界とつながりを保つ方法を変えています。その中で、よ...

モノのインターネットとクラウド コンピューティングの間にはどのような依存関係があるのでしょうか?

1970 年代には、メインフレーム コンピュータ システムのレンタルが企業の間で人気がありました。こ...