京橋のバイオインフォマティシャンの日常

南国のビーチパラソルの下で、Rプログラムを打ってる日常を求めて、、

R - magrittr

R言語/Webスクレイピングで、Wikipediaページのテーブル情報からNASDAQ-100の銘柄リストを取得して、2021年中の株価推移を見てみた件

はじめに R言語を利用して、 Wikipediaページから銘柄コード情報を「Webスクレイピング」で取得して、 さらに各銘柄の株価情報を「quantmod パッケージ」を使って収集する。 今回の記事では、2021年年初から12月末までのNASDAQ-100銘柄(2022年1月3日現在)…

R/rvestを使って、Google画像検索で画像サムネイルを取得して、機械学習・ディープラーニング用の4次元アレイデータに変換するTips

手作業をできるだけ抑えて、 機械学習・ディープラーニング(DL)用の画像データを手っ取り早く取得したい!! ふと思いたち、、今回、Google画像検索の結果をスクレイピングして、 画像データ(サムネイル)を取得して、それらをR/Keras用の4次元アレイデータに…

テキスト解析ワークフローをまとめてみた件

テキスト解析で考慮すべき13のポイント【随時更新予定】 No 大項目 小項目 DB / Tools 備考 1 タスク選定 テキストマイニング / 固有表現認識 (NER) / その他 2 言語 英語 / 日本語 / (機械)翻訳された文章 / その他 機械翻訳: Python/Googletrans, DeepL …

R/rtweetとか諸々を使って、つぶやきのテキスト解析 (形態素分析 + 感情分析) をやってみた件

はじめに twitterのつぶやきを集めて、形態素分析 + 感情分析をやってみた。 つぶやきの感情分析は、単語感情極性対応表を使って、positiveかnegativeかを評価してみた。やってみると、案外、面白かった。 まずは、Rの関連パッケージをインストールしてみる…

Rにおけるテーブル表示(1)knitr & mmtable2

はじめに knitrパッケージは、R言語による動的レポート生成のための汎用パッケージであって、Literate Programmingの手法を用いたRでの動的なレポート生成のための汎用ツールを提供しています。 また、mmtable2パッケージでは、ggplot2/patchwork 構文でテー…

R言語/Webスクレイピングで、Wikipediaページからテーブル情報を取得する 〜日経225、米国ダウ平均株価、S&P500、NASDAQ-100とかの銘柄リストを取得して、株価も見てみた件〜

ずっと纏めたかったけど、後々になっていた件。 R言語を用いた、Webからの銘柄コード取得と株価情報の取得について解説する。 主な内容としては、「Webスクレイピング」によるWikipediaページからの銘柄コード情報の取得、 それとRで株情報を扱う「quantmod …

R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件

はじめに Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。 本記事では、RからWebスクレイピングで、 キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を…

【Rのジミ〜な小技シリーズ】空リストの作成とリスト操作、それと空ベクトルを使ったベクトル結合とデータフレーム結合のトピックスを扱う

またもや、ジミーなトピックであるが、空リストlist()と空ベクトルc()について取り上げてみる。 こういうジミーな技術の積み重ねがスキル向上に繋がるんだと思うんけどね。 今回の内容 空リストlist()からリストを作成する 空ベクトルc()からベクトルを作成…

PubMed API と googletrans を使って、PubMed掲載論文のAbstract和訳をRでやってみた件

論文のトレンド解析であったり、個別の論文情報、主に要旨(Abstract)を取得してみた。 もう少し発展させて、Abstractの英文テキストの和訳をして、Rmarkdownのレポート作成するまでをやってみた。 今回扱う、RISmed パッケージは、PubMedを含むNational Ce…