京橋のバイオインフォマティシャンの日常

データ分析、コマンドライン、プログラミングについての技術資料・自己アップデート・悩み事などをまとめています。最近、ディープラーニング関連のR言語の資料をまとめるべく注力してます。

テキスト処理

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッティング

Rでの文字列処理について、いろいろと試してまとめてみた。 このシリーズでは、主に、baseやstringr、stringdistとかのパッケージを扱う。 今回は、文字列距離を使って、近似的文字列をマッティングする方法を紹介する。 下準備について ###################…

【Rでの文字列処理シリーズ(その3)】文字列の検出: 完全一致、部分一致、拡張正規表現

今回、Rでの文字列の検出について、いろいろと試してみた。 主に、base、stringrのパッケージを扱う。 Rでの文字列処理に関する過去記事 skume.net skume.net 下準備について ######################## #シリーズ共通 ######################## #必要なパッ…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結とカウント

Rでの文字列ベクトルの連結とカウントについて、いろいろと試してまとめてみた。 主に、baseやstringrとかのパッケージ内の関数群を扱う。 文字列の連結・結合は普段もよく使うので簡単と思ってたけど、いろいろと試してみると奥が深いかも。 下準備について…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

Rでのテキストファイルの読み込み、および文字列の分割について、いろいろと試してまとめてみた。 主に、baseやstringrとかのパッケージ内の関数群を扱う。 結論としては、ファイル読み込み関数は用途によって使い分けが必要である。また、文字列の分割につ…

【R・ビッグデータ解析の処方箋①】readLines、connection オブジェクトを使って、テキストファイルの1行ずつ読み込みを実行してみた件〜

現状、数十GB・数百GBといった、大きなファイルを扱う際には、R/メモリ上で全データを読み込むことはややリスキーである。 ファイル全体を読み込まず、ファイル内の1行ずつで処理を実施する工夫が必要となる。*1 Rで、1行ずつの処理を実行するには、readLi…

【Rのジミ〜な小技シリーズ】Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

楽なので、Rのplot()時に、レインボー色(grDevices::rainbow)を使うんだけど、 お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。 今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…

Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。 つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。 また、RとPyth…

grepコマンドで文字列処理をやってみた件【その1】ファイル内のテキストに対する処理とか

grepコマンドは、ある特定の文字列を含むものを取り出す・検索するときに使用する。 大別して、ファイル内のテキストに対してgrepを行うか、ファイル名に対してgrepを行うかでやり方が変わってくる。 やってることは単純だが、いろいろと応用できるので、今…

【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較

最近、数GBを超えるテキストデータを扱うようになり、今更ながら、Rのファイル読み込み関数の速度比較について一度検討してみた。 今回、以下の3つのファイル読み込み関数について調査してみた。 utils::read.table関数 data.table::fread関数 readr::read_…

grepコマンド で基本的なテキスト処理をまとめてみた件

grep コマンドは、AppleのHPにファイル内の文字列を探すツールであると説明されているが、 grep コマンドを知ると、単に「文字列を探す」だけでなく、 いろいろな応用的な操作ができるようになる。 この記事では、Mac版 grepコマンド の基本的なテキスト処理…