京橋のバイオインフォマティシャンの日常

データ分析、コマンドライン、プログラミングについての技術資料・自己アップデート・悩み事などをまとめています。現在、DL勉強中。

R - Webスクレイピング

R/rvestを使って、Google画像検索で画像サムネイルを取得して、機械学習・ディープラーニング用の4次元アレイデータに変換するTips

手作業をできるだけ抑えて、 機械学習・ディープラーニング(DL)用の画像データを手っ取り早く取得したい!! ふと思いたち、、今回、Google画像検索の結果をスクレイピングして、 画像データ(サムネイル)を取得して、それらをR/Keras用の4次元アレイデータに…

R言語のRSeleniumを使って、ブラウザ(自動)操作とWebスクレイピングをやってみた件 〜Google検索でのトップヒットページ・ヒット件数・スクショの取得〜

RでのWebスクレイピングのやり方の1つとして、rvestパッケージを使う方法がある。 詳細は、過去の記事を参照 skume.net skume.net ただ、このパッケージだと、Webスクレイピングがやや難解なケースがある。 実際、Google検索のヒット件数項目を取得するのを…

R言語/Webスクレイピングで、Wikipediaページからテーブル情報を取得する 〜日経225、米国ダウ平均株価、S&P500、NASDAQ-100とかの銘柄リストを取得して、株価も見てみた件〜

ずっと纏めたかったけど、後々になっていた件。 R言語を用いた、Webからの銘柄コード取得と株価情報の取得について解説する。 主な内容としては、「Webスクレイピング」によるWikipediaページからの銘柄コード情報の取得、 それとRで株情報を扱う「quantmod …

R言語/Webスクレイピングで、Google サーチ / Google scholar経由で見つかったPDFファイルを自動ダウンロードしてみた件

Webスクレイピングとは、Webサイトから情報を抽出して、その情報を格納・分析可能な構造化データへと変換する技術を意味するようだ*1。 本記事では、RからWebスクレイピングで、 キーワード検索してヒットしたURLやPDFファイルを自動取得する方法を紹介しま…