京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、Daily Life of Bioinformatician in Kyobashi of Osaka

自然言語処理

R環境で小説のテキストマイニングをやってみたら、○○○な結末になった件【その4: テキストマイニングと形態素のワードクラウド】

はじめに: 『R環境で小説のテキストマイニング』の連載シリーズ 連載シリーズの目次 まずは、実行環境 形態素のワードクラウドに関するイントロダクション RMeCab形態素解析済みの結果の読み込み .Rdsをロードする場合 .txtをロードする場合 ワードクラウド…

R環境で小説のテキストマイニングをやってみたら、○○○な結末になった件【その3: 形態素解析と複合語抽出 (名詞、接頭辞、接尾辞の品詞ルールベース抽出、pytermextract)】

はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 名詞、接頭辞、接尾辞をくっつける、品詞のルールベースの複合語抽出 pytermextractを使った複合語抽出 ターミナル環境上での、pytermextractを使った複合…

R環境で小説のテキストマイニングをやってみたら、○○○な結末になった件【その2: 形態素解析と辞書設定】

はじめに: 『R環境で小説のテキストマイニング』の連載シリーズです。 連載シリーズの目次 実行環境 形態素解析と辞書設定 mecabを使った形態素解析 MeCabの辞書設定 辞書による形態素解析結果の違い デフォルトのipadic辞書を使った場合 neologd辞書を使っ…

【Rでの文字列処理シリーズ(その6)】類似文字列検索ライブラリpython版simstringをRから使って、文字列の距離計算をやってみた件

はじめに テキスト処理の関連記事 python版simstringのインストール R言語で、simstringライブラリを実行してみる。 まとめ はじめに 文字列処理・テキスト処理とは、プログラミングを行うなかで、文字列・テキストに対する色々な操作のことを指します。それ…

【Rでの文字列処理シリーズ(その5)】文字列の抽出・切り出し・検出

はじめに テキスト処理の関連記事 関連パッケージをロードする 文字列の抽出/切り出しについて 文字数指定で、文字列を抽出する 文字列の検出 「月の英語表記」を「月の数字」に置換する方法について 参考資料 はじめに 文字列処理・テキスト処理とは、プロ…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッチング

はじめに テキスト処理の関連記事 下準備について 近似的文字列マッティング agrep & agrepl 関数 adist 関数 stringdist / stringdistmatrix関数で、文字列間の距離指標を計算する あとがき 参考資料 はじめに 文字列処理・テキスト処理とは、プログラミン…

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 Rプログラム テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 /…

【Rでの文字列処理シリーズ(その3)】文字列/テキストの検出・検索: 完全一致、部分一致、拡張正規表現、曖昧一致判定

はじめに テキスト処理の関連記事 下準備について 【1】完全一致で、その文字列を含むかどうかのの判定 比較演算子 == != base::match、stringr::str_match、演算子 %in% 【2】部分一致で、その文字列を含むかどうかの判定 charmatch関数、pmatch関数 grep…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結と文字列長のカウント

はじめに テキスト処理の関連記事 下準備について 【1】文字列ベクトルの連結 base::paste0 関数・ stringr::str_c 関数 stringr::str_c 関数 【2】文字列長のカウント base::nchar 関数 stringr::str_length 関数 ・ stringr::str_count 関数 補足 format…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

はじめに テキスト処理の関連記事 下準備について テキストファイルの読み込み について 【1】テキストファイルを1行ごと読み込んで、ベクトルにする。 【2】テキストファイルを文字列で読み込んで、ベクトルにする。 【3】テキストファイルを読み込んで…

【R言語と形態素解析】R環境/reticulateで実行する、Python版Sudachi『SudachiPy』による日本語形態素解析

はじめに 実行環境 SudachiPyのデフォルト・インストール Sudachi 辞書 fullの設定 R環境でのコマンドライン版sudachipyの実行 R環境でのPythonパッケージ版sudachipyの実行 自作関数SudachiTokenizerRについて まとめ 補足 辞書の設定ファイル「sudachi.jso…