2021-10-25

【Rでの文字列処理シリーズ（その５）】文字列の抽出・切り出し・検出

R テキスト処理 R - 文字列処理 R - readr R - stringr 文字列の抽出文字列の検出 R - nchar R - str_extract R - str_extract_all R - substr R - str_sub R - str_detect Rのジミ〜な小技シリーズ R - テキストマイニング自然言語処理

はじめに
- テキスト処理の関連記事
関連パッケージをロードする
文字列の抽出/切り出しについて
文字数指定で、文字列を抽出する
文字列の検出
「月の英語表記」を「月の数字」に置換する方法について
参考資料

はじめに

文字列処理・テキスト処理とは、プログラミングを行うなかで、文字列・テキストに対する色々な操作のことを指します。それら処理をうまく使いこなすことで、文字列を自由に処理できるようになります。文字列処理の活用事例は、キーワード抽出、テキスト分類、テキストマイニングの前処理など、多岐に渡ります。今回の「Rでの文字列処理」シリーズで扱う、文字列処理のライブラリ・関数群やプログラムコードは、R環境上で無料で提供されている、オープン・ソフトウェアを用います。

この記事では、R言語での文字列の抽出/切り出しや検出について、いろいろと試してまとめてみました。主に、baseやstringrのパッケージを扱っています。