京橋のバイオインフォマティシャンの日常

まずは、データ分析、コマンドラインのメモとして

【CentOSの基本コマンド①】 システム情報、CPU情報、メモリ情報を表示してみる

このコーナーでは、CentOSで使う、基本的なコマンドラインをまとめてみることにする。 第1回目として、ターミナルコマンドで、 システム情報、CPU情報、メモリ情報を表示するやり方について、 以下に示す。 システム情報 # システム情報の表示 # -a: コンピ…

最近、CentOS7で、R言語のインストールでややハマった件

CentOS7でのR言語のインストールにハマったので、メモを残しておく。 結局、デフォルトのままだと、EPELリポジトリが無効になっているっぽい。 まずは、パッケージのバージョンを最新版にあげておく、 #リポジトリのアップデートなど $ sudo yum update #OR…

Macターミナル・コマンドのショートカットメモ

(削除) ショートカットキー 1文字の削除 DeleteCtrl (Control) + h 1単語の削除 Ctrl + w カーソル位置から行頭まで削除 Ctrl + u カーソル位置から行末まで削除 Ctrl + k カーソル上の1文字削除 Ctrl + d (履歴) ショートカットキー 一つ前のコマンド…

Mac brew で、pythonの古いバージョンを管理するときのTips 〜「python3」から「python」にコマンド名を書き換える〜

pythonの古いバージョン(例えば、3.8とか)をインストールしたいとき、 パッケージのlinkをしないと、それが使えなくなっている。 今回、python3.8をbrewでインストールして、パッケージのlinkをやり直して、 コマンド名を「python」に書き換えるまでをやっ…

Dockerインストール後に、docker-compose のバージョンを「1.27.4」から「1.28.4」にアップグレードさせるTips

Dockerインストール後に、docker-compose のバージョンが合わないということがある。 今回、「1.27.4」から「1.28.4」にアップグレードさせる実行例を取り上げる。 #Docker のインストール $ brew install --cask docker #Docker.appの起動 $ open /Applicat…

【R・ビッグデータ解析の処方箋①】readLines、connection オブジェクトを使って、テキストファイルの1行ずつ読み込みを実行してみた件〜

現状、数十GB・数百GBといった、大きなファイルを扱う際には、R/メモリ上で全データを読み込むことはややリスキーである。 ファイル全体を読み込まず、ファイル内の1行ずつで処理を実施する工夫が必要となる。*1 Rで、1行ずつの処理を実行するには、readLi…

Mac版 JAVAバージョン切り替えメモ : Java 14 から 12 への切り替え

Mac PC内に、Java 14 と 12 が混在している状況で、Java 14 からJava 12にパスを切り替えるメモ書き。 #現在のJava パス $ which java /usr/bin/java # Javaのバージョン確認 => java 14 が使用されている $ java -version java version "14" 2020-03-17 Jav…

R言語/Webスクレイピングで、Wikipediaページからテーブル情報を取得する 〜日経225、米国ダウ平均株価、S&P500、NASDAQ-100とかの銘柄リストを取得して、株価も見てみた件〜

ずっと纏めたかったけど、後々になっていた件。 R言語を用いた、Webからの銘柄コード取得と株価情報の取得について解説する。 主な内容としては、「Webスクレイピング」によるWikipediaページからの銘柄コード情報の取得、 それとRで株情報を扱う「quantmod …

Curl コマンドで、MacターミナルからSPARQLクエリを実行してみる 〜Wikidata、大阪市オープンデータを扱ってみた件〜

SPARQL(スパークル)は、RDF(Resource Description Framework)問合せ言語の1つである。SPARQL言語、SPARQLクエリとも呼ばれる。 主に、RDF形式のLinked Data / ナレッジグラフ、またはオープンなライセンスで公開されているOpen Linked Data (LOD)、*1の検…

【Rのジミ〜な小技シリーズ】フォルダ・ディレクトリの作成・削除・コピー・名前変更 〜フォルダが存在しない時にだけ作成を実行する〜

R言語でのフォルダ操作(作成・削除・コピー・名前変更・移動)に関する関数について、色々とまとめてみた*1。 フォルダの作成・削除について #フォルダの存在確認 dir.exists("01_test") #[1] FALSE => 「01_test」というフォルダが存在していない #フォル…

これから「Mac版ImageJ/Fiji」はHomeBrewでインストールしよう!!

最近ではMacOS Xのフォルダ/ファイルのアクセス制限から、Fijiのインストールすら、不便になってきた。 Fiji(Fiji - ImageJ)のHPから、アプリをダウンロードしてきたのだが、「read-only」のエラーが出て、Fijiのアップデートができない。意味不明である…

Macのスティッキーズ.appが飛んだ時の対処について

.DS_Store を消していたら、Macの設定がいろいろと消えてしまった*1。。。なんてこった!! 現在、MacOS X 10.15.7を使っているが、スティッキーズのデータ復旧が以前のバージョンとやや変わっているようた。 実際、~/Libraryに、StickiesDatabase というの…

画像解析関連のRパッケージについて調査してみた件 〜ANTsRNetを用いた、RにおけるU-NETの実装事例〜

今回、画像処理・画像解析に関するRパッケージを調査したので、見つかったパッケージを(広く浅く)紹介する。 調査対象は、CRAN、Bioconductor、Neuroconductor (= GitHub/CRAN) とかで、検索キーワードは、imag(e), microscop(y) あたりで調べた。 あと、…

Paperswithcode.com(主にDLモデル・コード、論文、コンペのスコアとかのまとめサイト)にあるComputer-Visionセクションのまとめをしてみた件

Papers with Codeというサイトがある。そのサイトのAboutを見てみると、 Our mission Papers with Codeのミッションは、機械学習の論文、コード、評価表を含む無料でオープンなリソースを作成することです。 これは、NLPとMLに支えられたコミュニティと一緒…

R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件

Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。 本記事では、RからWebスクレイピングで、 キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を紹介しま…

【Macの定期メンテナンス】Finderのクイックルック機能、GUIでのファイル・フォルダ移動が遅くなり始めたら、結局これをやること。。

Mac歴が12年以上となるが、Mac PC内の定期メンテナンスは、過去のOSバージョンからも悩ましい問題である。 過去には、ディスクユーティリティをいじってみたり、 ファイルのセグメント化を直してみたりと、 いろいろと試したが、結局あまり効果がない。 Ma…

Mac版wgetでGoogle DriveからファイルをダウンロードするTips〜フォルダの共通設定からwgetコマンド実行まで〜

最近、データを置いておくのに良さそうな公共リポジトリが見つからず、 やっぱ、Google Driveを使うのが無難かなと思いだしたので、その関連記事を書いてみた。 今回、Google Driveをデータリポジトリとして、データを公開して、 コマンドラインでそのデータ…

【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う

またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。 こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。 今回の内容 空リストlist()からリストを作成する 空ベクトルc()からベクトルを作成…

【Rのジミ〜な小技シリーズ】データ解析の前処理で悩まされるデータ重複の問題を扱ってみた件

本記事は、 skume.hatenablog.com の続編である。 さて、これからデータ解析を始めようかという時に、まずやることは該当データのクオリティチェック(品質評価)だろう。 クオリティチェックと言っても、いろいろな方法・考え方があって、データによって様…

バーチャルスライドスキャナー画像(.ndpi)からオリジナルTIFFイメージを取り出す際のTips〜ギガバイトイメージの画像解析入門〜

今回、バーチャルスライドスキャナー画像(.ndpi)の取り扱い方を取り上げる。 .ndpiという画像フォーマットは、浜松ホトニクス社が提供するHamamatsu formatの1つである。 NDPIファイルは「独自メタデータを持つシングルファイルTIFF-likeな形式」であり、…

R言語で実行するSudachiPyによる日本語形態素解析

SudachiPyは、日本語形態素解析器SudachiのPython版である。 今回、R/RStudio上でのSudachiPyの実行例を概説する。 個人的には、RユーザーにとってPythonパッケージがR環境上で実行できると、いろいろと良いのでは考えている*1。 例の如く、HomeBrewでPython…

Mac版Dockerで、rocker/rstudio (= RStudio Server Docker Image)をトラブルフリーでセットアップしてみた件

過去の記事で、「【macOS X編】 Homebrewで、RStudio Serverをインストールしてみた件 + nginx設定」を紹介した。 現状、MacローカルでのRstudio Server動作について、 バージョン・アップ等の問題で*1、少々動作が不安定な場合がある。 そのため、ローカル…

【Rのジミ〜な小技シリーズ】ベクトルに「含まれる」「含まれない」要素の取り出し、論理値について

ある数値・文字列が、こっちのベクトルにも含まれるのか、何番目に出現するのか等を考えると、しばしば悩ましい状況がある。 このような、ベクトル間の関係性を調べる方法を紹介する。 (1)あるベクトルから他ベクトルに「含まれる要素」あるいは「含まれ…

Macで、mds_storesのプロセスを消し出したら、Spotlightとの決別のサインかも!?

mds_store というMacのプロセスは、Spotlight のインデクスを作成するプロセスである。これに加えて、mdworkerというプロセスもあり、これらのプロセスが頑張って、Macのファイル検索システムであるSpotlight関連の機能を実現している。 知らず知らずのうち…

【Rのジミ〜な小技シリーズ】Rのどぎついレインボー・カラーを和らげて、使える色へと変換するTipsについて

楽なので、Rのplot()時に、レインボー色(grDevices::rainbow)を使うんだけど、 お世辞にも良い色とは言えず、ドギツイ色を使うねと周囲から言われる。 今回、それを挽回するために、そのレインボー色を和らげる方法を紹介する。 rainbow関数では、16進数で…

【Rのジミ〜な小技シリーズ】時々にしたくなる、Rの古いバージョンのパッケージ(The previous version packages)をインストールする件

Rを使っていると、稀に、パッケージのバージョン違いで問題が起こる。 そのとき、以前のバージョンのパッケージをインストールする必要がでてくる。 以前のバージョンをインストールする場合には、まず、CRANのパッケージのページにいく。 例えば、psychパッ…

grepコマンドで文字列処理をやってみた件【その2】検索語のヒット数カウントとか検索語の前後文字の抽出とか色々

「grepコマンドによる文字列処理をやってみた」の続編である。 以前扱えていなかった内容をやっていきたい。 grepコマンドの基本については過去の記事を参照のこと。 skume.hatenablog.com skume.hatenablog.com まずは、サンプルデータをダウンロードする $…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…

R/Keras/TensorFlowでやる『ディープラーニング(Deep Learning)』のすゝめ【その2】教師なしニューラルネットワーク Autoencoder with 2D CNNの実装、そして色ムラ・ノイズ除去(Denoising)をやってみた件

「R/Keras/TensorFlowでやるディープラーニングのすゝめ」の連載2回目です。 【1】では、ベクトルデータに対する Autoencoderを取り上げたが、 今回は、 2D Convolutional Neural Network (CNN: 畳み込みニューラルネットワーク) を使ったAutoencoderの実…

Rの「reticulate」を使えば、Pythonライブラリがインポート・実行できる。そして、R上で「googletrans」を用いた日英翻訳をやってみた件

Rの reticulateパッケージは、Python と R の連携性を高めるツール群である*1。 つまりは、Rセッション内でPythonのスクリプトやライブラリをインポートして、シームレスにPythonコードを実行できるなど、RからPythonを呼び出すことができる。 また、RとPyth…