京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、Daily Life of Bioinformatician in Kyobashi of Osaka

R - readr

【R言語とケモインフォ】PubChemからの化合物の情報・構造の取得、およびOpen-Babelを使ったファイル形式変換についての諸々

はじめに 実行環境 Rパッケージの読み込み Open-Babel & PyMolのインストールについて Open-Babelの基本動作 Open-Babelの関連コマンドについて PubChemからの化合物の情報・構造データの取得 Rで、PubChem化合物データを読み込み 「gluc」あるいは「glyc」…

【Rでの文字列処理シリーズ(その5)】文字列の抽出・切り出し・検出

はじめに テキスト処理の関連記事 関連パッケージをロードする 文字列の抽出/切り出しについて 文字数指定で、文字列を抽出する 文字列の検出 「月の英語表記」を「月の数字」に置換する方法について 参考資料 はじめに 文字列処理・テキスト処理とは、プロ…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッチング

はじめに テキスト処理の関連記事 下準備について 近似的文字列マッティング agrep & agrepl 関数 adist 関数 stringdist / stringdistmatrix関数で、文字列間の距離指標を計算する あとがき 参考資料 はじめに 文字列処理・テキスト処理とは、プログラミン…

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 Rプログラム テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 /…

【R言語とテキスト変換】pdf2textを実行して、PDFファイルをテキストに変換するの巻

はじめに 関連パッケージのインストール Getting started (1) 英語論文での事例 Getting started (2) 日本語資料での事例 他のユーティリティについて pdf_toc関数で目次(ToC)を取得・表示する メタデータに関する情報 まとめ はじめに 科学論文などの文献資…

【Rでの文字列処理シリーズ(その3)】文字列/テキストの検出・検索: 完全一致、部分一致、拡張正規表現、曖昧一致判定

はじめに テキスト処理の関連記事 下準備について 【1】完全一致で、その文字列を含むかどうかのの判定 比較演算子 == != base::match、stringr::str_match、演算子 %in% 【2】部分一致で、その文字列を含むかどうかの判定 charmatch関数、pmatch関数 grep…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結と文字列長のカウント

はじめに テキスト処理の関連記事 下準備について 【1】文字列ベクトルの連結 base::paste0 関数・ stringr::str_c 関数 stringr::str_c 関数 【2】文字列長のカウント base::nchar 関数 stringr::str_length 関数 ・ stringr::str_count 関数 補足 format…

【Rでの文字列処理シリーズ(その1)】テキストファイルの読み込み・文字列の分割

はじめに テキスト処理の関連記事 下準備について テキストファイルの読み込み について 【1】テキストファイルを1行ごと読み込んで、ベクトルにする。 【2】テキストファイルを文字列で読み込んで、ベクトルにする。 【3】テキストファイルを読み込んで…

【R言語】データサイズ・行数が異なるテキストファイルにおけるファイル読み込み関数の速度比較

はじめに 実行環境 検証用のファイル生成 opensslコマンドを用いた、ランダム文字列の生成 echoとtrコマンドを用いた文字列の生成 seqコマンドを用いた連番数字の生成 seqコマンドを用いた検証用ファイルの生成 Rでのファイル読み込み検証 utils::read.table…