京橋のバイオインフォマティシャンの日常

まずは、データ分析、コマンドラインのメモとして

Terminalコマンド - cat

文字コード変換コマンド 〜シングルバイト文字、マルチバイト文字、JIS、Shift_JIS、UTF-8、BOM付きUTF-8、Unicodeエスケープ文字、URLエンコードなどの諸問題について〜

シングルバイト文字・マルチバイト文字 「シングルバイト文字」は、1バイト(7ビット、または8ビット)のデータ量で表現できる文字である。文字コードとしては、ASCIIコードなどが該当する。 一方、ダブルバイト文字は、1文字を2バイト以上(16ビット以上…

【CentOS/LINUXの基本コマンド①】 システム情報、CPU情報、メモリ情報を表示してみる

このコーナーでは、CentOSで使う、基本的なコマンドラインをまとめてみることにする。 第1回目として、ターミナルコマンドで、 システム情報、CPU情報、メモリ情報を表示するやり方について、 以下に示す。 システム情報 # システム情報の表示 # -a: コンピ…

【R・ビッグデータ解析の処方箋①】readLines、connection オブジェクトを使って、テキストファイルの1行ずつ読み込みを実行してみた件〜

現状、数十GB・数百GBといった、大きなファイルを扱う際には、R/メモリ上で全データを読み込むことはややリスキーである。 ファイル全体を読み込まず、ファイル内の1行ずつで処理を実施する工夫が必要となる。*1 Rで、1行ずつの処理を実行するには、readLi…

grepコマンドで文字列処理をやってみた件【その2】検索語のヒット数カウントとか検索語の前後文字の抽出とか色々

「grepコマンドによる文字列処理をやってみた」の続編である。 以前扱えていなかった内容をやっていきたい。 grepコマンドの基本については過去の記事を参照のこと。 skume.hatenablog.com skume.hatenablog.com まずは、サンプルデータをダウンロードする $…

grepコマンドで文字列処理をやってみた件【その1】ファイル内のテキストに対する処理とか

grepコマンドは、ある特定の文字列を含むものを取り出す・検索するときに使用する。 大別して、ファイル内のテキストに対してgrepを行うか、ファイル名に対してgrepを行うかでやり方が変わってくる。 やってることは単純だが、いろいろと応用できるので、今…