京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、

R - 文字列処理

【Rでの文字列処理シリーズ(その6)】類似文字列検索ライブラリpython版simstringをRから使って、文字列の距離計算をやってみた件

SimStringライブラリは、 類似文字列検索のための高速かつシンプルなライブラリである。 類似文字列検索とは、文字列集合の中から、特定のクエリ文字列との類似度が閾値以上のものを見つけ出す処理のことをいう。 類似検索では、クエリと完全には一致しなく…

【Rでの文字列処理シリーズ(その5)】文字列の抽出/切り出し・検出

Rでの、文字列の抽出/切り出し、検出について、いろいろと試してまとめてみた。 主に、baseやstringrのパッケージを扱った。 関連パッケージをロードする library(stringr) library(readr) 文字列の抽出/切り出しについて stringr::str_extract関数、stringr…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッティング

Rでの文字列処理について、いろいろと試してまとめてみた。 このシリーズでは、主に、baseやstringr、stringdistとかのパッケージを扱う。 今回は、文字列距離を使って、近似的文字列をマッティングする方法を紹介する。 下準備について ###################…

【Rでの文字列処理シリーズ(その3)】文字列の検出: 完全一致、部分一致、拡張正規表現

はじめに 今回、Rでの文字列の検出について、いろいろと試してみた。 主に、base、stringrのパッケージを扱う。 Rでの文字列処理に関する過去記事 skume.net skume.net (adsbygoogle = window.adsbygoogle || []).push({}); 下準備について ################…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結とカウント

はじめに Rでの文字列ベクトルの連結とカウントについて、いろいろと試してまとめてみました。 主に、baseやstringrとかのパッケージ内の関数群を扱います。 文字列の連結・結合は普段もよく使うので簡単と思ってたけど、いろいろと試してみると奥が深いかも…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

Rでのテキストファイルの読み込み、および文字列の分割について、いろいろと試してまとめてみた。 主に、baseやstringrとかのパッケージ内の関数群を扱う。 結論としては、ファイル読み込み関数は用途によって使い分けが必要である。また、文字列の分割につ…