京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、Daily Life of Bioinformatician in Kyobashi of Osaka

テキスト処理

grepコマンドで文字列処理をやってみた件【その1】ファイル内のテキストに対する処理とか

はじめに 練習用のファイルのダウンロード ファイル内のテキストに対する処理 ある特定の文字列を含む行を表示する ある特定の文字列を含まない行を表示する ある特定の文字列を含まない行を別ファイルに出力する 空白行を削除する ファイル内の行数をカウン…

【Rでの文字列処理シリーズ(その6)】類似文字列検索ライブラリpython版simstringをRから使って、文字列の距離計算をやってみた件

はじめに テキスト処理の関連記事 python版simstringのインストール R言語で、simstringライブラリを実行してみる。 まとめ はじめに 文字列処理・テキスト処理とは、プログラミングを行うなかで、文字列・テキストに対する色々な操作のことを指します。それ…

【Rでの文字列処理シリーズ(その5)】文字列の抽出・切り出し・検出

はじめに テキスト処理の関連記事 関連パッケージをロードする 文字列の抽出/切り出しについて 文字数指定で、文字列を抽出する 文字列の検出 「月の英語表記」を「月の数字」に置換する方法について 参考資料 はじめに 文字列処理・テキスト処理とは、プロ…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッティング

はじめに テキスト処理の関連記事 下準備について 近似的文字列マッティング agrep & agrepl 関数 adist 関数 stringdist / stringdistmatrix関数で、文字列間の距離指標を計算する あとがき 参考資料 はじめに 文字列処理・テキスト処理とは、プログラミン…

【Rでの文字列処理シリーズ(その3)】文字列/テキストの検出・検索: 完全一致、部分一致、拡張正規表現、曖昧一致判定

はじめに テキスト処理の関連記事 下準備について 【1】完全一致で、その文字列を含むかどうかのの判定 比較演算子 == != base::match、stringr::str_match、演算子 %in% 【2】部分一致で、その文字列を含むかどうかの判定 charmatch関数、pmatch関数 grep…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結と文字列長のカウント

はじめに テキスト処理の関連記事 下準備について 【1】文字列ベクトルの連結 base::paste0 関数・ stringr::str_c 関数 stringr::str_c 関数 【2】文字列長のカウント base::nchar 関数 stringr::str_length 関数 ・ stringr::str_count 関数 補足 format…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

はじめに テキスト処理の関連記事 下準備について テキストファイルの読み込み について 【1】テキストファイルを1行ごと読み込んで、ベクトルにする。 【2】テキストファイルを文字列で読み込んで、ベクトルにする。 【3】テキストファイルを読み込んで…

【R・ビッグデータ解析の処方箋①】readLines、connection オブジェクトを使って、テキストファイルの1行ずつ読み込みを実行してみた件〜

はじめに 練習ファイルのダウンロード readLinesのダメな実行例 readLinesの実行コード例 まとめ R・ビッグデータ解析の処方箋 関連記事 R言語 お勧め書籍 補足 readLines関数で、10万行の同時読み込み 参考資料 はじめに 現状、数十GB・数百GBといった、…

【Rのジミ〜な小技シリーズ】Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

はじめに レインボー色(grDevices::rainbow関数)の設定 レインボー・カラー 透明度 FF レインボー・カラー 透明度 80 レインボー・カラー 透明度 60 レインボー・カラー 透明度 40 レインボー・カラー 透明度 20 Rで使える他のカラーパレットについて palet…

【R言語と学術論文】PubMed API「RISmed」と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

はじめに Rパッケージのセットアップ PubMed全体でキーワード検索をやってみる 少し脱線して、年ごとの論文数をまとめてみた 本題に入って、googletransによる論文情報の和訳とレポート作成をやってみる まとめ 全Rコード in gist 補足 MEDLINEタグ情報*5 Pu…

【R言語と日英翻訳】「reticulate」パッケージを使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

はじめに googletransライブラリのメリット・デメリット googletransのインストール reticulateのセットアップ RからPython googletransを呼び出す googletransの実行 まとめ 補足 Rから、Python ライブラリのヘルプ表示 googleLanguageRの「No authorizatio…

【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較

はじめに 実行環境 検証用のファイル生成 opensslコマンドを用いた、ランダム文字列の生成 echoとtrコマンドを用いた文字列の生成 seqコマンドを用いた連番数字の生成 seqコマンドを用いた検証用ファイルの生成 Rでのファイル読み込み検証 utils::read.table…

grepコマンド で基本的なテキスト処理をまとめてみた件

はじめに 前準備 適当な作業フォルダを作成して、同フォルダ内に移動する。 サンプルテキスト(text.txt)をGitHubからダウンロードする まず、test.txt ファイルの中を表示してみると grep コマンド の基本 まずは、ファイル内の文字列操作に関するコマンド…