2021-03-18

【Rでの文字列処理シリーズ（その２）】文字列ベクトルの連結と文字列長のカウント

R R - 文字列処理 R - 文字列のカウント R - 文字列の連結 R - stringr R - readr テキスト処理文字列処理 R - 言語処理 Rのジミ〜な小技シリーズ R - テキストマイニング R - formatC 自然言語処理

はじめに
- テキスト処理の関連記事
- 下準備について
【１】文字列ベクトルの連結
- base::paste0 関数・ stringr::str_c 関数
- stringr::str_c 関数
【２】文字列長のカウント
- base::nchar 関数
- stringr::str_length 関数・ stringr::str_count 関数
補足
参考資料

はじめに

文字列処理・テキスト処理とは、プログラミングを行うなかで、文字列・テキストに対する色々な操作のことを指します。それら処理をうまく使いこなすことで、文字列を自由に処理できるようになります。文字列処理の活用事例は、キーワード抽出、テキスト分類、テキストマイニングの前処理など、多岐に渡ります。今回の「Rでの文字列処理」シリーズで扱う、文字列処理のライブラリ・関数群やプログラムコードは、R環境上で無料で提供されている、オープン・ソフトウェアを用います。

この記事では、Rでの文字列ベクトルの連結とカウントについて、いろいろと試してまとめてみました。主に、baseやstringrとかのパッケージ内の関数群を扱います。 文字列の連結・結合は普段もよく使うので簡単と思ってたけど、奥が深い一面も垣間見れて、良かったです。

テキスト処理の関連記事

skume.net

下準備について

########################
#シリーズ共通
########################
#必要なパッケージの読み込み
require(readr)
require(stringr)
require(stringdist)

#テストファイルのダウンロード
utils::download.file(url="https://raw.githubusercontent.com/kumeS/Blog/master/TXT_proc/test.txt",
                     destfile="test.txt")