京橋のバイオインフォマティシャンの日常

データ分析、コマンドライン、プログラミングについての技術資料・自己アップデート・悩み事などをまとめています。最近、ディープラーニング関連のR言語の資料をまとめるべく注力してます。

【Rでの文字列処理シリーズ(その6)】類似文字列検索ライブラリpython版simstringをRから使って、文字列の距離計算をやってみた件

SimStringライブラリは、 類似文字列検索のための高速かつシンプルなライブラリである。 類似文字列検索とは、文字列集合の中から、特定のクエリ文字列との類似度が閾値以上のものを見つけ出す処理のことをいう。 類似検索では、クエリと完全には一致しなく…

【Rでの文字列処理シリーズ(その5)】文字列の抽出/切り出し・検出

Rでの、文字列の抽出/切り出し、検出について、いろいろと試してまとめてみた。 主に、baseやstringrのパッケージを扱った。 関連パッケージをロードする library(stringr) library(readr) 文字列の抽出/切り出しについて stringr::str_extract関数、stringr…

代表的なプレプリント・サーバー

雑誌に掲載れる前に、プレプリントで話題になる昨今。。 プレプリントとは、論文原稿を一般的な査読を受けずに、専用のサーバーで無償公開することを指す。 代表的なプレプリント・サーバーをまとめてみた。 arXiv(アーカイヴ) 情報系・人工知能分野でよく…

Mac Homebrewで、pandocのインストール

R/Knitで、bibtexのリファレンスの処理ができなくなったと思ったら、pandocが消えてるっぽい。 Pandocというのは、文書作成ツール や出版作業時に用いられるドキュメント・コンバータの1つであり、、、、 なので、pandocを再度インストールしてみた。 pando…

Mac/Homebrewで、AWS CLIをインストールする

Amazon Web Services(AWS)とは、 Amazon.comにより提供されているクラウドコンピューティングサービスである。 今回、AWSサービスを管理するための統合ツールである、 AWS CLIのインストールとかセットアップについてまとめてみた。 まずは、ターミナルを…

Mac OSX / Finder上で隠しファイルを表示されるショートカット

Macのショートカットで、隠しファイル( . から始まるファイルやフォルダ)の表示・非表示を切り替えることができる。 Finderで表示したいフォルダを選択して、 ⌘(コマンド) + Shift + . (ドット) を同時に押すと、隠しファイルが表示される。 また、隠しフ…

R/rvestを使って、Google画像検索で画像サムネイルを取得して、機械学習・ディープラーニング用の4次元アレイデータに変換するTips

手作業をできるだけ抑えて、 機械学習・ディープラーニング(DL)用の画像データを手っ取り早く取得したい!! ふと思いたち、、今回、Google画像検索の結果をスクレイピングして、 画像データ(サムネイル)を取得して、それらをR/Keras用の4次元アレイデータに…

R/Keras/TensorFlowでやる『ディープラーニング(Deep Learning)』のすゝめ【その3】敵対的生成ネットワーク (GAN)による教師なし画像生成(image generation)をやってみた件

「敵対的生成ネットワーク(GAN: Generative Adversarial Networks)」は、 ディープラーニングの生成モデルの一種であり、 与えたデータから本物と偽物を見分けるように複数の学習器を用いて学習することで、 新たな画像の生成や画風の変更などができる。 …

Google検索で、rpubs.com サイト内を検索するTips

rpubs.comは、 RのMarkdownドキュメントなどをWeb共有するサイトである。 rpubs.com自体には、検索機能が実装されていないので、 サードパーティアプリから検索する必要がある。。。 Google検索で、rpubs.com サイト内を検索する場合には、 例えば、「site:r…

Bioconductor/BioImageDbsパッケージの使い方〜深層学習用の画像アレイデータを取得する〜

BioImageDbsパッケージは、Rで可読なフォーマット(.Rds)で、 深層学習(DL)用の画像アレイデータ(4次元あるいは5次元)を 提供するexperimentHubパッケージである。 BioImageDbsパッケージ BioImageDbs概要(英語) 今回、BioImageDbsパッケージの使用方法を解説…

【Rでの文字列処理シリーズ(その4)】文字列の近似的文字列マッティング

Rでの文字列処理について、いろいろと試してまとめてみた。 このシリーズでは、主に、baseやstringr、stringdistとかのパッケージを扱う。 今回は、文字列距離を使って、近似的文字列をマッティングする方法を紹介する。 下準備について ###################…

【Rのジミ〜な小技シリーズ】Rコンソールにカラーテキストを表示するTips

R言語で、message()関数を使うと、赤い文字列がコンソールに表示されるけど、 もっとほかの色で、コンソール表示ができれば良いのにとか思ったりしないでしょうか?? 今回、こういう細かい悩みを解決する記事を書いてみました。 base::message()関数 messag…

【R言語で作成するアニメーション】楕円・斜め楕円のアニメーションを作図してみた件

ふと、夏季休暇中に、 楕円の公式のパラメータを変えたときに、 どんな図形になるんだったっけと思い立ち、 Rで、アニメーションのプログラムを作ってみた。 楕円の公式を解析的に解いてみて作図したところ、 楕円の形って結構発散するんだなとはじめて知っ…

Macでのbz2形式への圧縮とbz2形式の解凍

.bz2について bzip2では、 圧縮効率を良くするために、ブロックソート法などを用いている。 gzipやzipといったデータ圧縮に比べて、より高い圧縮率を示す。 また、bz2単独では、アーカイブ機能はない。 Macでは、bzip2コマンドでbzip2圧縮、 bunzip2コマンド…

【R言語での画像処理シリーズ(その2)】主成分分析(PCA)を用いて、画像特徴の次元圧縮をやってみた件

今回は、Karhunen-Loève変換(KL変換)という手法を使って、 ヒマワリ画像の圧縮を行ってみた*1。 この手法のデフォルトでは、 主成分分析(PCA; Principal Component Analysis)をクロップ画像に適用することで、一度、画像を主成分ベクトルに変換する。 その後…

Mac版wgetコマンドのプログレス・ログ詳細を表示させないTips

wgetのデフォルトログが冗長な問題があって、その対策を検討してみた。 wgetの使い方の基本は、過去の記事を参考のこと。 skume.net skume.net Googleドライブからのファイルダウンロード Googleドライブに置いてあるZipファイル(10MBくらい)のwgetダウンロ…

【LINUX/Macの基本コマンド⑤】ファイル同期コマンド rsync

rsyncは、ディレクトリ・ファイルをローカルあるいはリモートマシンと同期させるコマンドである rsyncコマンドは、タイムスタンプやファイルサイズを見て、 更新ファイルを検出して差分のみを同期することで、 通信コストを抑えてバックアップあるいは同期が…

【LINUX/Macの基本コマンド④】cd, cat, head/tailなどのコマンドの使い方メモ

ターミナル上で、よく使うであろう基本コマンドを紹介する。 cd、cat、head/tail、chmod、shutdownなどを解説する。 cd : ディレクトリ移動 cd [ディレクトリ] #このとき、「tab」を押すと、ファイルを表示・補完 #コマンド実行時に、[ ]は不要 #(1) Homeデ…

細胞形態デジタルATLASのWebページをまとめてた件〜生体組織や細胞の光顕画像・電顕画像を中心に〜

細胞形態の画像集をATLAS(アトラス / マップ集)としてまとめた教育サイトは、 海外を含めていくつかあるが、 Google検索してもそれらWebサイトに辿り着くのは至難である。 今回、生体組織・細胞の形態学や電顕画像を主なトピックとして、 無料で公開されてい…

【R言語での画像処理シリーズ(その1)】R/EBImageとかを使った画像処理(読み込み、表示、リサイズetc)をやってみた件

今回は、EBImageとimagerを使った、 R環境での画像処理をいろいろと紹介する。 具体的に、画像ファイルの読み込み・表示、 ヒストグラム表示、グレー画像変換、リサイズ(縮小)とかのプログラムを作成・実行してみた。 はじめに、EBImageとimagerをセットアッ…

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 / (機械)翻訳された文章 / その他 機械翻訳: Python/Googletrans, DeepL …

R/rtweetとか諸々を使って、つぶやきのテキスト解析 (形態素分析 + 感情分析) をやってみた件

twitterのつぶやきを集めて、形態素分析 + 感情分析をやってみた。 つぶやきの感情分析は、単語感情極性対応表を使って、positiveかnegativeかを評価してみた。やってみると、案外、面白かった。 まずは、Rの関連パッケージをインストールしてみる。 #インス…

【LINUX/Macの基本コマンド③】lsコマンドの使い方メモ

lsコマンド(list segments)は、ディレクトリにあるファイルやフォルダを表示するUNIXコマンドである。 今回は、代表的なオプションの使い方をまとめてみた。 あと、MacOSXでは動作確認をしているが、 LINUXはちょっとオプションが違う場合があるかも。 ls コ…

まさに、Chromeでのタブ管理・収納の女神「OneTab」を使ってみた件

OneTab は、ブラウザで開いている沢山のタブをワンクリックでリスト化、 またはリストを復元・共有できてしまう神的ツールである。 日頃から、沢山のタブを開いたままにして、ブラウザが重くて仕方ないという状況には効果テキメンである。 OneTab自体はGoogl…

こういうキラーアプリを探していた!!重複ファイルを検索・削除するツール dupeguru を使ってみた件

今回は、コンピュータ上の重複ファイルを検索するツール「dupeguru」の紹介記事である。 ファイル名またはコンテンツのいずれかをスキャンして、 重複したファイルを見つけて削除することができる。 コンテンツのスキャンでは、kbオーダーでのサイズ差分を検…

洒落乙 htop でタスクマネージをやってみた件

今回は、ターミナル・タスクマネージャーであるhtopの紹介記事である。 htopのインストール MacOSXとCentOSでのCUIインストール方法は、 ターミナルを起動して、以下のコマンドを打つだけである。 #MacOSXの場合 brew install htop #CentOSの場合 yum instal…

Mac版sshpassを使って、SSH/SCPコマンドのパスワード認証を引数で与えてみた件

R上でshコマンドを実行する際に、しばしば、パスワードの受け渡し・認証の問題でエラーが起こる。 この認証をいい感じに補助してくれるコマンドが、sshpassである。 今回、sshpass/ssh、sshpass/scpコマンドを組み合わせた事例を紹介する。 まずは、sshとscp…

公共(バイオ)画像データのリポジトリをまとめてみた

ライフサイエンス・基礎生物、医療・医用などの画像データを中心に、 機械学習・深層学習に使えそうな、データセット関連のページリンクをまとめてみた。 【24 June 2021, updated】随時更新予定 Dataset Search - Google Dataset Search 「segmentation」で…

R言語で、pdf2textを実行する

科学論文などは、通常、PDF形式のファイルで保管される。 このフォーマットは主に印刷用に設計されているため、検索や索引付けにはあまり適さない。 rOpenSci/pdftoolsパッケージを使えば、 PDFファイルから、テキストやメタデータを抽出できる。 今回、RでP…

R言語で、現在最強の機械翻訳ツール「DeepL API」を使ってみた件

今回、画期的な機械翻訳ツールを紹介する。その名も、DeepL である。 DeepLのWebインターフェイスも中々使い勝手は良い #RからWebページを開く browseURL("https://www.deepl.com/translator") DeepLの良さは、何と言っても、その翻訳精度である。 Google翻…