京橋のバイオインフォマティシャンの日常

データ分析、コマンドライン、プログラミングについての技術資料・自己アップデート・悩み事などをまとめています。最近、ディープラーニング関連のR言語の資料をまとめるべく注力してます。

テキスト処理

【Rでの文字列処理シリーズ(その6)】類似文字列検索ライブラリpython版simstringをRから使って、文字列の距離計算をやってみた件

SimStringライブラリは、 類似文字列検索のための高速かつシンプルなライブラリである。 類似文字列検索とは、文字列集合の中から、特定のクエリ文字列との類似度が閾値以上のものを見つけ出す処理のことをいう。 類似検索では、クエリと完全には一致しなく…

【Rでの文字列処理シリーズ(その5)】文字列の抽出/切り出し・検出

Rでの、文字列の抽出/切り出し、検出について、いろいろと試してまとめてみた。 主に、baseやstringrのパッケージを扱った。 関連パッケージをロードする library(stringr) library(readr) 文字列の抽出/切り出しについて stringr::str_extract関数、stringr…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッティング

Rでの文字列処理について、いろいろと試してまとめてみた。 このシリーズでは、主に、baseやstringr、stringdistとかのパッケージを扱う。 今回は、文字列距離を使って、近似的文字列をマッティングする方法を紹介する。 下準備について ###################…

【Rでの文字列処理シリーズ(その3)】文字列の検出: 完全一致、部分一致、拡張正規表現

(adsbygoogle = window.adsbygoogle || []).push({}); はじめに 今回、Rでの文字列の検出について、いろいろと試してみた。 主に、base、stringrのパッケージを扱う。 Rでの文字列処理に関する過去記事 skume.net skume.net 下準備について ################…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結とカウント

(adsbygoogle = window.adsbygoogle || []).push({}); はじめに Rでの文字列ベクトルの連結とカウントについて、いろいろと試してまとめてみました。 主に、baseやstringrとかのパッケージ内の関数群を扱います。 文字列の連結・結合は普段もよく使うので簡…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

Rでのテキストファイルの読み込み、および文字列の分割について、いろいろと試してまとめてみた。 主に、baseやstringrとかのパッケージ内の関数群を扱う。 結論としては、ファイル読み込み関数は用途によって使い分けが必要である。また、文字列の分割につ…

【R・ビッグデータ解析の処方箋①】readLines、connection オブジェクトを使って、テキストファイルの1行ずつ読み込みを実行してみた件〜

(adsbygoogle = window.adsbygoogle || []).push({}); はじめに 現状、数十GB・数百GBといった、大きなファイルを扱う際には、R/メモリ上で全データを読み込むことはややリスキーである。 ファイル全体を読み込まず、ファイル内の1行ずつで処理を実施する工…

【Rのジミ〜な小技シリーズ】Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

楽なので、Rのplot()時に、レインボー色(grDevices::rainbow)を使うんだけど、 お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。 今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…

Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。 つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。 また、RとPyth…

【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較

(adsbygoogle = window.adsbygoogle || []).push({}); はじめに 最近、数GBを超えるテキストデータを扱うようになり、今更ながら、Rのファイル読み込み関数の速度比較について一度検討してみた。 今回、以下の3つのファイル読み込み関数について調査してみ…

grepコマンド で基本的なテキスト処理をまとめてみた件

(adsbygoogle = window.adsbygoogle || []).push({}); はじめに grep コマンドは、AppleのHPにファイル内の文字列を探すツールであると説明されているが、 grep コマンドを知ると、単に「文字列を探す」だけでなく、 いろいろな応用的な操作ができるようにな…