京橋のバイオインフォマティシャンの日常

まずは、データ分析、コマンドラインのメモとして

R - magrittr

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 / (機械)翻訳された文章 / その他 機械翻訳: Python/Googletrans, DeepL …

R/rtweetとか諸々を使って、つぶやきのテキスト解析 (形態素分析 + 感情分析) をやってみた件

twitterのつぶやきを集めて、形態素分析 + 感情分析をやってみた。 つぶやきの感情分析は、単語感情極性対応表を使って、positiveかnegativeかを評価してみた。やってみると、案外、面白かった。 まずは、Rの関連パッケージをインストールしてみる。 #インス…

Rにおけるテーブル表示(1)knitr & mmtable2

Rでの気の利いたテーブル表示について、knitr & mmtable2の実行例をまとめてみた。 パッケージのインストール #パッケージのインストール install.packages("devtools") devtools::install_github("ianmoran11/mmtable2") install.packages("knitr") install…

R言語/Webスクレイピングで、Wikipediaページからテーブル情報を取得する 〜日経225、米国ダウ平均株価、S&P500、NASDAQ-100とかの銘柄リストを取得して、株価も見てみた件〜

ずっと纏めたかったけど、後々になっていた件。 R言語を用いた、Webからの銘柄コード取得と株価情報の取得について解説する。 主な内容としては、「Webスクレイピング」によるWikipediaページからの銘柄コード情報の取得、 それとRで株情報を扱う「quantmod …

R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件

Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。 本記事では、RからWebスクレイピングで、 キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を紹介しま…

【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う

またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。 こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。 今回の内容 空リストlist()からリストを作成する 空ベクトルc()からベクトルを作成…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…