京橋のバイオインフォマティシャンの日常

まずは、データ分析、コマンドラインのメモとして

【Rでの画像処理シリーズ(その1)】R/EBImageとかを使った画像処理(読み込み、表示、リサイズetc)をやってみた件

今回は、EBImageとimagerを使った、 R環境での画像処理をいろいろと紹介する。 具体的に、画像ファイルの読み込み・表示、 ヒストグラム表示、グレー画像変換、リサイズ(縮小)とかのプログラムを作成・実行してみた。 はじめに、EBImageとimagerをセットアッ…

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 / (機械)翻訳された文章 / その他 機械翻訳: Python/Googletrans, DeepL …

R/rtweetとか諸々を使って、つぶやきのテキスト解析 (形態素分析 + 感情分析) をやってみた件

twitterのつぶやきを集めて、形態素分析 + 感情分析をやってみた。 つぶやきの感情分析は、単語感情極性対応表を使って、positiveかnegativeかを評価してみた。やってみると、案外、面白かった。 まずは、Rの関連パッケージをインストールしてみる。 #インス…

【LINUX/Macの基本コマンド③】lsコマンドの使い方メモ

lsコマンド(list segments)は、ディレクトリにあるファイルやフォルダを表示するUNIXコマンドである。 今回は、代表的なオプションの使い方をまとめてみた。 あと、MacOSXでは動作確認をしているが、 LINUXはちょっとオプションが違う場合があるかも。 ls コ…

まさに、Chromeでのタブ管理・収納の女神「OneTab」を使ってみた件

OneTab は、ブラウザで開いている沢山のタブをワンクリックでリスト化、 またはリストを復元・共有できてしまう神的ツールである。 日頃から、沢山のタブを開いたままにして、ブラウザが重くて仕方ないという状況には効果テキメンである。 OneTab自体はGoogl…

こういうキラーアプリを探していた!!重複ファイルを検索・削除するツール dupeguru を使ってみた件

今回は、コンピュータ上の重複ファイルを検索するツール「dupeguru」の紹介記事である。 ファイル名またはコンテンツのいずれかをスキャンして、 重複したファイルを見つけて削除することができる。 コンテンツのスキャンでは、kbオーダーでのサイズ差分を検…

洒落乙 htop でタスクマネージをやってみた件

今回は、ターミナル・タスクマネージャーであるhtopの紹介記事である。 htopのインストール MacOSXとCentOSでのCUIインストール方法は、 ターミナルを起動して、以下のコマンドを打つだけである。 #MacOSXの場合 brew install htop #CentOSの場合 yum instal…

Mac版sshpass使って、SSH/SCPコマンドのパスワード認証を引数で与えてみた件

R上でshコマンドを実行する際に、しばしば、パスワードの受け渡し・認証の問題でエラーが起こる。 この認証をいい感じに補助してくれるコマンドが、sshpassである。 今回、sshpass/ssh、sshpass/scpコマンドを組み合わせた事例を紹介する。 まずは、sshとscp…

公共(バイオ)画像データのリポジトリをまとめてみた

ライフサイエンス・基礎生物、医療・医用などの画像データを中心に、 機械学習・深層学習に使えそうな、データセット関連のページリンクをまとめてみた。 【24 June 2021, updated】随時更新予定 Dataset Search - Google Dataset Search 「segmentation」で…

R言語で、pdf2textを実行する

科学論文などは、通常、PDF形式のファイルで保管される。 このフォーマットは主に印刷用に設計されているため、検索や索引付けにはあまり適さない。 rOpenSci/pdftoolsパッケージを使えば、 PDFファイルから、テキストやメタデータを抽出できる。 今回、RでP…

R言語で、現在最強の機械翻訳ツール「DeepL API」を使ってみた件

今回、画期的な機械翻訳ツールを紹介する。その名も、DeepL である。 DeepLのWebインターフェイスも中々使い勝手は良い #RからWebページを開く browseURL("https://www.deepl.com/translator") DeepLの良さは、何と言っても、その翻訳精度である。 Google翻…

R言語/Bioconductorを用いた、RNA-seq解析チュートリアル(HGEN 473 - Genomics, Spring 2017, 日本語版)

R言語を使った、RNA-seq解析チュートリアルを作成してみた。 データは、RNA-seqのカウント済みのデータを使用している。 本記事は、以下のArticleの日本語訳記事 + α である。 # HGEN 473 - Genomics # Spring 2017 # Tuesday, May 9 & Thursday, May 11 # R…

Rにおけるテーブル表示(1)knitr & mmtable2

Rでの気の利いたテーブル表示について、knitr & mmtable2の実行例をまとめてみた。 パッケージのインストール #パッケージのインストール install.packages("devtools") devtools::install_github("ianmoran11/mmtable2") install.packages("knitr") install…

pdflatexが必要になって、久々にMacTexをインストールしてみた件

OSをクリーンインストールすると、色々と消えてて面倒である。 本記事は、消えたその1つである、MacTexをインストールした時の話である。 Homebrewをインストールして、ターミナルで以下を実行する。 skume.net brew update brew install mactex #実行時に…

【LINUX/Macの基本コマンド②】ユーザーー覧の確認、ユーザーの追加・権限付与をする

CentOSでの、ユーザー追加や変更、権限付与についてまとめた。 今回は、基本、sudo権限でコマンド実行する。 「root」ユーザーで実行する場合には、sudoは不要。 まずは、デフォルト情報の確認 ターミナルを起動して、以下のコマンドで見える。 #作成される…

「Devel版R の Dockerイメージ for Bioconductor」を使ってみた件

Devel版R(あるいは、R-devel)は、 パッケージ開発者用に配布されていて、 最新(安定版)の次のRバージョンである。 Bioconductorのページを参考にして、 Devel版RのDockerイメージを使ってみたので、その方法をメモしておく。 bioconductor.org Mac版 Docke…

CentOS7に、R-4.0シリーズをインストールするTips

現在(2021年4月)、CentOS7のepelリポジトリからインストールできるRバージョンは、「R-3.6.0-1.el7.x86_64」である。 「R-4.x」シリーズをインストールするために、、、いろいろと試して、結局、、、 springdaleのリポジトリではなくて、 CRANにあるソース…

R言語で使用できるデータセット一覧 〜 R package ‘datasets’ version 4.1.0 〜

2021年4月現在、R言語で使用できるデータセット一覧をまとめてみた。 概要の和訳部分は、DeepLにて機械翻訳した。 # ToothGrowth の使用例 libary(datasets) data(ToothGrowth) head(ToothGrowth) # len supp dose #1 4.2 VC 0.5 #2 11.5 VC 0.5 #3 7.3 VC …

分子モデリングシミュレーションソフトウェア AutoDock関連資料のまとめ

過去に作成した、Autodock関係の説明資料(AutoDock、AutoDock Vina、Raccoon、Ligplot+)をこちらにもまとめてみた。 AutoDock AutoDock_japanese_ver.1.0 AutoDock_japanese_ver.1.0 from Satoshi Kume Autodock Vina AutoDock_vina_japanese_ver.3.0 Auto…

Rstudio-Server on CentOS7 のインストール方法 + nginxのリダイレクト設定 について

CentOS7版Rstudio-Serverのインストール方法 + nginx設定についてまとめてみた。 Mac版やDocker版のRstudio-Serverのインストール方法については、以下の記事を参考のこと。 skume.net skume.net RStudio Server for Red Hat/CentOS のダウンロード・インス…

R言語で、jsTree・jsTreeR パッケージを使った、 インタラクティブなツリーリスト表示をやってみた件

Rで、インタラクティブに開閉できる、ツリー構造表示をやってみたくて、ちょっと関連パッケージを調べてみた。。 そうすると、jsTreeとjsTreeRというRパッケージがあることが分かった*1。 jsTreeもjsTreeRも同じく、バックエンドはjsライブラリのjsTreeを使…

R言語で、サイコロ・ゲームを一様分布に従う確率でシミュレーションしてみた件

サイコロを振って、1から6のそれぞれの目が出る確率は、等しいと仮定する。 いわゆる、一様分布に従うと考える。 Rでは、一様分布に従う、1〜6までの整数値の乱数は、以下で表される。 as.integer( runif(1, min = 1, max = 7) ) この乱数で、サイコロの振…

【Rでの文字列処理シリーズ(その3)】文字列の検出: 完全一致、部分一致、拡張正規表現

今回、Rでの文字列の検出について、いろいろと試してみた。 主に、base、stringrのパッケージを扱う。 Rでの文字列処理に関する過去記事 skume.net skume.net 下準備について ######################## #シリーズ共通 ######################## #必要なパッ…

R言語のRSeleniumを使って、ブラウザ(自動)操作とWebスクレイピングをやってみた件 〜Google検索でのトップヒットページ・ヒット件数・スクショの取得〜

RでのWebスクレイピングのやり方の1つとして、rvestパッケージを使う方法がある。 詳細は、過去の記事を参照 skume.net skume.net ただ、このパッケージだと、Webスクレイピングがやや難解なケースがある。 実際、Google検索のヒット件数項目を取得するのを…

gtrendsRを使って、Googleトレンドの情報取得・可視化をやってみた件

今回紹介する、gtrendsRは、Google Trendsの情報を取得・表示するためのパッケージである。 そもそも、Google Trendsは、Googleが提供する無料ツールで、Googleの検索エンジンでの検索クエリの人気動向を分析できる。現在、Google検索のシェアが、世界中で約…

Rで、S&P500 index (SPY: SPDR S&P500 ETF) のSeasonalityを考えてみた件

2021年3月のアメリカ株式市場は、初旬からテック株、小型株がかなりの暴落であった。まさか、ここまで下がるとは、、、*1 こうなると、常識的な相場のSeasonalityをちゃんと理解して、相場の乗り降りのタイミングを考えないといけないなと強く思えてきた。 …

R/Slack APIの諸設定、slackrの使い方、及びGoogle scholarで検索された新着論文情報を知らせるTips

RのSlack APIであるslackrパッケージの使い方について、いろいろとまとめてみた*1。 APIの諸設定、基本的なslackrの使い方に加えて、新着論文情報をRからチャネルに送信するプログラムも実装してみた。 まずは、Salck API設定の手順からはじめよう。 Salck A…

【R・ビッグデータ解析の処方箋】Rで、10万ノードを超える大きなネットワーク図を描画するTips 〜 igraph::plot.igraphは使い物にならない件 〜

Rでのネットワーク図の作成では、igraph packageがよく使われる。 ただ、igraphによるネットワーク図の描写は、1万ノードを超えたあたりから、結構な時間がかかる。 そのため、10万ノードを超えるような、大規模なネットワーク図の描画には、ちょっとした…

【Rのジミ〜な小技シリーズ】変数で、データフレームに「任意の列名」を追加するTips

pasteなどで連結した文字列を、データフレームの列名にしたい。 そういうときがよくある。 食わず嫌い的に試して無かったけど、「えっ、これできるの?!」という感じである・・・。 文字列の変数で、データフレームの列名を追加できることがわかったので、…

【Rでの文字列処理シリーズ(その2)】文字列ベクトルの連結とカウント

Rでの文字列ベクトルの連結とカウントについて、いろいろと試してまとめてみた。 主に、baseやstringrとかのパッケージ内の関数群を扱う。 文字列の連結・結合は普段もよく使うので簡単と思ってたけど、いろいろと試してみると奥が深いかも。 下準備について…