株式会社ホクソエムのブログ

https://blog.hoxo-m.com/

R, Python, データ分析, 機械学習

フィード

記事のアイキャッチ画像
書籍「評価指標入門」の出版に寄せて 〜監修の想い(O・MO・I)
株式会社ホクソエムのブログ
監修させていただいている評価指標入門なんですが、株式会社ホクソエムの代表取締役CEOである私、牧山幸史(以下、コージー牧山)、はじめてこの企画を聞いた時は「その特徴は単に評価指標をまとめた辞書やないかい!そういう”売れそうだから書く”みたいな商業的なマインドが学術界の価値を貶め云々」と思ったのですが、上梓された高柳さん(タカヤナギ=サン)の壮大なるお話を聞いているうちに「これはひょっとして数理モデリングとしても奥深い世界が広がっているの?面白いかも!」と思い監修社として名乗りを上げた次第です。 一方、本書の内容と皆様の期待値がややズレているのではないか?と不安には思っておりまして、これは監修社…
1年前
記事のアイキャッチ画像
RでCQT(Constant-Q変換)をやってみる
株式会社ホクソエムのブログ
ホクソエムサポーターの松本です。音楽を作ったり聴いたりするのが趣味なので、音楽分析に興味があります。音データの分析にはPythonだとlibrosaというとても便利なパッケージがあるのですが、Rにはそういった汎用的なパッケージがなくてちょっと不便です。 最近ふとRでCQT(Constant-Q変換)をしてみたいと思い、既存のパッケージを使ってできないか探してみたところ特に見つからなかったので、どのように実装すればいいのか調べてみました。 スペクトログラムについて 音声や音楽データの分析を行う際には生の波形をそのまま扱うのではなく、スペクトログラム(時間周波数表現)に変換したものを特徴量として利…
2年前
記事のアイキャッチ画像
機械学習とビジネスを橋渡しするものこそ評価指標であり, ”全てのビジネスは条件付期待値の最大化問題として書ける”仮説についての一考察
株式会社ホクソエムのブログ
はじめに 株式会社ホクソエム常務取締役のタカヤナギ=サンです、データサイエンスや意思決定のプロ・経営をしています。 掲題の件、現在、某社さんと”機械学習における評価指標とビジネスの関係、および宇宙の全て”というタイトルの書籍を書いているのですが、 本記事のタイトルにあるような考え方については、論文・書籍などを数多く調査しても未だお目にかかることができず、これをいきなり書籍にしてAmazonレビューなどでフルボッコに叩かれて炎上して枕を涙で濡らすよりも、ある程度小出しにして様々な人々の意見を聞いた方が良いのではないかと思い独断で筆を取った次第です。 筋が良さそうなら論文にするのも良いと思っている…
3年前
記事のアイキャッチ画像
pytest fixtureの地味だけど重要な部分について
株式会社ホクソエムのブログ
こんにちは。ホクソエム支援部サポーターのPython担当、藤岡です。 最近はデータエンジニア見習いとしてBI周りを触っています。 今回はpytestのfixtureについての記事です。 pytest自体が有名で記事もたくさんあるので、今回は地味だけど重要だと個人的に思っている usefixturesとスコープについて取り上げます。 地味とはいえ、pytestの初心者がfixtureを使いこなすためのステップアップに必要な内容だと思います。 ぜひマスターしていただければ幸いです。 1. 前書き 基礎的なことに関してはこの記事にとても簡潔にまとまっているので、こちらをまず読むのがオススメです。とて…
3年前
記事のアイキャッチ画像
「技術に正しく課金したいがためにアラフォーでも髪を染め続けているよ」というお話。
株式会社ホクソエムのブログ
株式会社ホクソエム常務取締役のタカヤナギ=サンです、主に経営を担当しています。 株式会社ホクソエムの顧客、あるいは同僚から「何で君はアラフォーになっても変な髪色になっとるんじゃい?」という質問を結構いただくんで、 いい加減そのことについての私の考えをポエムにしたいなと思ってこのブログを書いています。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、don't you? タイトルにある"技術"(テクノロジー)はより正確には”技”(テクネ、スキル)のほうが正しい気もするが、まあここでは問題としないで同義として扱って…
3年前
記事のアイキャッチ画像
ホクソエムのおじさんたちを勝手に踊らせた話
株式会社ホクソエムのブログ
毎週の歯科治療が一段落し, とうとう外に出る理由が一切なくなりました。 ホクソエムサポーターのKAZYです。 6畳の部屋に籠もり続けて健康を維持できるのか不安なこの頃。 運動不足も気になります。 ホクソエムのおじさんたちもきっと同じ悩みを抱えてることでしょう。 ところで最近は静止画を簡単に踊らせてやることができるらしいです。 referenceの動画の動きに合わせて、sourceの静止画をぐりぐり動かせるAI。Attention機構などを使い、referenceから抽出した動きの情報をsource画像に当てはめ、Discriminatorに真偽判定させるGANを主な機構として用いているとのこと…
3年前
記事のアイキャッチ画像
darts-cloneを使って最長一致法で分かち書きしてみる
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。 呪術廻戦をみて喜久福が食べたくなりました *1。 今回は形態素解析について深堀りしてみます。 日本語の自然言語処理において、形態素解析は必ずといっていいほど通る道です。 形態素解析を必要としないSentencePieceのような深層学習向けのtokenizerも出現していますが、品詞単位で分割する形態素解析が重要であることは変わりありません。 そんなこんなで、『実践・自然言語処理シリーズ2 形態素解析の理論と実装』 (以降「形態素解析本」と表記)を読んでいます。 リンク先の目次を見て分かるとおり、基礎の部分から実装まで説明されている本です。 今回は4章で紹介さ…
4年前
記事のアイキャッチ画像
EDINET APIって知ってる? ~有価証券報告書をもっと楽にダウンロードする話~
株式会社ホクソエムのブログ
はじめに こんにちは, ホクソエムサポーターのKAZYです。 最近はペンギンに興味があります🐧。 世界最大のペンギンであるコウテイペンギンを日本で見るならば名古屋港水族館 (愛知) かアドベンチャーワールド (和歌山) らしいです。 ところで, 平成31年3月17日からEDINETに提出された書類をAPIで取得できるようになったことをご存知でしょうか? だからなんなの?っていう方聞いてください。 もうブラウザポチポチやらなくても有価証券報告書ダウンロードできるんですよっ!!!! 「退屈なことはPythonにやらせよう」マンになる時が来たのです。 今回はEDINET APIで有価証券報告書を保存…
4年前
記事のアイキャッチ画像
有価証券報告テキストマイニング入門
株式会社ホクソエムのブログ
はじめに こんにちは, ホクソエムサポーターのKAZYです。 先日猫カフェデビューをして, 猫アレルギーであることがわかりました🐈。 次はフクロウカフェに挑戦してみようかなと思っています🦉。 ところで皆様, 有価証券報告書は読んでますか? 私は読んでいません。 読めません。 眺めていると眠くなります💤。 私は眠くなるんですが, 有価証券報告書ってテキストマイニングするのに向いているんです。企業の事業や財務情報が詳細に書かれています。 XBRL形式で構造化されています。 数千社分のテキストが手に入ります。 おまけに無料です。 どうです?興味湧いてきませんか? 本記事ではPythonを使って有価証…
4年前
記事のアイキャッチ画像
MLflowのXGBoost拡張を読んでみる
株式会社ホクソエムのブログ
はじめに ホクソエムサポーターの藤岡です。会社を移りましたが、相変わらずPythonを書く仕事をしています。 前回の記事に引き続き、今回もMLflowについての記事です。 前回はトラッキング寄りでしたが、今回はモデルのデプロイにも関わってくる内容です。 MLflowはXGBoost, PySpark, scikit-learnといった多様なライブラリに対応していて、様々な機械学習タスクに活用することができるのが売りの一つです。 その実現のため、設計や実装に様々な工夫がされているのですが、 この部分について詳しくなることで、オリジナルの機械学習モデルをMLflowとうまく繋ぐことができるようにな…
4年前
記事のアイキャッチ画像
私の人生のロックマン(あるいは星のカービィ)戦略について
株式会社ホクソエムのブログ
株式会社ホクソエム常務取締役のタカヤナギ=サンです。 会社では主にα崩壊を起こしそうなシャチョーを制御するための制御棒を担当しています。 これは何の話なの? 私のやり方というか能力の上げ方はタイトルにあるように基本的に「ロックマン(あるいは星のカービィ)戦略」なんですが、それについて明示的に書いたポエムです。 勘の鋭い方はこのタイトルだけでどういう戦略なのかお分かりになられると思うので、ここでこの記事を読むのをストップすれば作業時間を確保できて良いかもしれない。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、…
4年前
記事のアイキャッチ画像
TRI-AD(TOYOTAの自動運転のとこ)の服部圭悟さんにカジュアル面談してもらった
株式会社ホクソエムのブログ
頭出し 前職の同僚(一時期私の真後ろの席に座っていた)で、今は「誰もが、安全に移動できる世界へ」を掲げるTRI-ADに勤めている服部圭悟さんとカジュアル面談したら面白かったのでまとめておきたい、そして彼のチームの採用へとつなげていきたい。 カジュアル面談中にメモった箇条書きを体裁整えただけなので、やや文が壊れているがご容赦&そこも含めて愛して欲しい。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、don't you? このカジュアル面談では、会社の全容とかまるで聞かないで私の聞きたいことだけ聞いてきたんで、そ…
4年前
記事のアイキャッチ画像
書評:実用的でないPythonプログラミング
株式会社ホクソエムのブログ
共立出版さまから献本いただいた 実用的でないPythonプログラミング: 楽しくコードを書いて賢くなろう! の書評です! 入門書を読み終えた2冊めの書籍として心豊かになるトピック満載です! www.youtube.com
4年前
記事のアイキャッチ画像
書評:AWS認定アソシエイト3資格対策
株式会社ホクソエムのブログ
AWS認定アソシエイト3資格対策~ソリューションアーキテクト、デベロッパー、SysOpsアドミニストレーター~ の書評です。 AWSへこれから入門される方やある程度まとまったAWSの体系的な知識が欲しい方、また弊社のお若い人におすすめです! www.youtube.com
4年前
記事のアイキャッチ画像
法人としての価格設定問題からの、おじさんエンジニアの辛さと賃金の関係性
株式会社ホクソエムのブログ
株式会社ホクソエム常務取締役のタカヤナギ=サンです、主にバックオフィス業務を担当しています。 自分メモに書き溜めていたポエムネタが溜まってきたので少しずつ放出していこうと思い筆をとりました。 「いや、そんなもん会社のBLOGに書くんじゃねーよ💢」という話があるかもしれないですが、ここは私の保有する会社なので何の問題もない、don't you? これは何の話なの? 以前、社のお若い方が技術的に楽しそうな案件を持ってこられて、その価格設定をどうするかについて悩まれておられた時がありました。 その際に社内のSlackにいわゆる”おじさんの小言”のようなものをちらほら書いていたので、それを改めて文章に…
4年前
記事のアイキャッチ画像
【翻訳】機械学習の技術的負債の重箱の隅をつつく (後編)
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。 今回は前回 【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編) の続きを紹介します。 blog.hoxo-m.com ※この記事は、Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳です。原著者の許可取得済みです。 後編では、コードのアンチパターンなど、エンジニアには身近な話題で、前編と比較して実践しやすいコンテンツも多いと思います。 Nitpicking Machine Learning Technical Debt (機械学習の技術的負債の重箱の隅をつつく) Pa…
4年前
記事のアイキャッチ画像
【翻訳】機械学習の技術的負債の重箱の隅をつつく (前編)
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。 今回は Matthew McAteer氏によるブログ記事Nitpicking Machine Learning Technical Debtの和訳を紹介します。 原著者の許可取得済みです。 Thank you! アメリカの国内ネタも含んでいて、日本語だと理解しにくい箇所もありますが、機械学習の技術的負債をどう対処していくかについて、とても役に立つ記事だと思います。 Nitpicking Machine Learning Technical Debt (機械学習の技術的負債の重箱の隅をつつく) イントロダクション Part1 技術的負債はあなたの予想以上に悪い …
4年前
記事のアイキャッチ画像
MLflowのデータストアを覗いてみる
株式会社ホクソエムのブログ
(2020/08/14 flavorについての記載を一部修正) はじめに こんにちは、ホクソエムサポーターの藤岡です。 最近、MLflowを分析業務で使用しているのですが、お手軽に機械学習のモデルや結果が管理できて重宝しています。 また、特定のライブラリに依存しないなど、使い方の自由度も非常に高いところが魅力的です。 ただ、ザ・分析用のPythonライブラリという感じでとにかく色々なものが隠蔽されており、 サーバにつなぐクライアントさえもプログラマあまりは意識する必要がないという徹底っぷりです。 もちろんマニュアル通りに使う分には問題ないですが、 ちゃんと中身を知っておくと自由度の高さも相まっ…
4年前
記事のアイキャッチ画像
深層学習系のトップ会議ICLR2020のNLP系論文についてざっくり紹介
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。今回はICLR2020 の論文を紹介します。 The International Conference on Learning Representations (ICLR) は機械学習の中でも特に深層学習 を専門とした国際会議です。 OpenReview.net によるopen peer reviewを採用しているので、submitされた論文はだれでも閲覧可能です。(ICLR2020 open review) 2020年はエチオピアで開催予定でしたが、COVID-19の影響でvirtual conferenceとなりました。 今回はNLP系の論文について5本紹介…
4年前
記事のアイキャッチ画像
簡単な"さんすう"で見積もる施策効果の要因分解
株式会社ホクソエムのブログ
日々、最先端で高度なテクノロジーに基づくビジネス改善”施策”を実施されている読者諸氏の皆さんこんばんわ、株式会社ホクソエム・常務取締役(博士(統計科学))の高柳です。 "XXXというKPI(売上とか)を向上させるために、XXXを構成するYYYという要因(PVとか広告単価とか1人あたりの売上とか)を向上させれそうな施策を試してみたんだけど、ZZZというまた別の売上を構成する要因(Impressionとか来店客数)も増えてたおかげで、結局、施策が売上全体にどのくらいのインパクトがあったのかよくわからないんだ〜助けて〜” ・・・という状況、あると思います。 この記事ではこういった複数の要因が混み入っ…
4年前
記事のアイキャッチ画像
sqlparse 入門 - 応用編 -
株式会社ホクソエムのブログ
1. はじめに こんにちは、ホクソエムサポーターの藤岡です。 初稿では一回で終わらせる予定だったはずの本記事もついに第三回。 ついに最後です。 ここまででsqlparseと構文解析の基本的な部分を解説したので、 いよいよ本格的に構文解析の結果をしっかりと使うプログラムを作っていきます。 今回はsqlparseの紹介というよりは、構文規則をどうやってPythonプログラムに落とし込むか、 という問題に対する自分なりの一解答例です。 もっと賢いやり方はあると思いますし、もしご存知の方がいたら、ぜひコメントでご教示いただければ幸いです。 2. 注意 本記事に書かれた内容は自分の理解に基づいたものであ…
4年前
記事のアイキャッチ画像
sqlparse 入門 - 狭義の構文解析編 -
株式会社ホクソエムのブログ
1. はじめに こんにちは。ホクソエムサポーター(名称審議中)の藤岡です。 字句解析を紹介した前回の記事に続き、今回もsqlparseを中心に据えつつ狭義の構文解析について紹介・解説していきたいと思います。 また、狭義の構文解析で得られる構文木を解析するためのいくつかのメソッドについても解説します。 2. 注意 本記事に書かれた内容は自分の理解に基づいたものであり、誤りが含まれている可能性がありますが、ご了承ください。 もしそういった不備にお気付きの際には、コメントでご指摘いただければ幸いです。 また、以下の解説ではSQLが何度か登場しますが、すべてHiveQLです。 今回のサンプルプログラム…
4年前
記事のアイキャッチ画像
学習済み日本語word2vecとその評価について
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。 今回は日本語の word2vec に着目し、日本語の学習済み word2vec の評価方法について紹介します。 自然言語は非構造化データであるため、単語や文章を計算機で扱いやすい表現に変換する必要があります。 そのための方法の1つに word2vec があり、Bag of Words (BoW) や tf-idf とならんでよく用いられます。 一般に、word2vec は Mikolovが提案した手法 (CBOW, Skip-gram) をはじめ、 GloVe や fastText など、単語をベクトルで表現する単語分散表現のことを指します。 word2vec…
4年前
記事のアイキャッチ画像
GitHub Actions実行時に依存するRパッケージのインストールをキャッシュ化する
株式会社ホクソエムのブログ
ホクソエムの u_ribo です。漫画「ブリーチ」の石田雨竜に親近感を感じます。仕事はシュッと終わらせて趣味の時間を増やしたいですよね。 要約 GitHub Actionsに対してrenvを使ったキャッシュ機能を活用。依存するRパッケージのインストール時間を短縮する パッケージのインストールに要する時間を1/25に短縮 renvのキャッシュはOSによりパスが異なるため、GitHub Actionsを実行するOSに応じて変更が必要になる キャッシュ機能はpipでも使えるため、Pythonによる処理を適用するときも便利 GitHub Actionsでrenvのキャッシュを利用するサンプル pkgd…
4年前
記事のアイキャッチ画像
Rと3Dプリンターで八ヶ岳のミニチュアを作る。
株式会社ホクソエムのブログ
この記事について この記事はR Advent Calendar 2019の19日目の記事です。 はじめに ホクソエムサポーターの輿石です。最近3Dプリンターを買いました。遠い世界のガジェットのように思っていましたが、家庭用であれば3万円前後で買えてしまうんですね。 3Dプリンターの使い方としてCADで自分の作りたいものを設計していくのが一般的かと思いますが、Rで3Dのプロットを作成することで、データから立体物を作ることが可能です。 この記事では、3Dのプロットを作成できるrayshaderパッケージと、基盤地図情報の地形図データをRに読み込むことができるfgdrパッケージを使って、故郷八ヶ岳周…
4年前
記事のアイキャッチ画像
GitHub Actions でRのパッケージの継続的インテグレーション(CI)を行う
株式会社ホクソエムのブログ
本記事について R Advent Calendar 2019 1103日目の記事です。 空きがなかったので適当に書きます。 1103->11月03日は”いいおっさん”の日です、各位、よろしくお願いいたします。 はじめに 株式会社ホクソエムの高柳です。 この記事ではGitHub ActionsとR、特にRのパッケージ開発と組み合わせて使う方法を書きたいと思います。 GitHub Actionsとは”コードをビルド、テスト、パッケージング、リリース、デプロイするためのプロセスの集合”であるワークフローを、GitHub リポジトリに直接作成することができる仕組みです。 詳しくは この辺なんかを読むと…
4年前
記事のアイキャッチ画像
sqlparse 入門 - 字句解析編 -
株式会社ホクソエムのブログ
本記事はPythonその2 Advent Calendar 2019に参加しています。 1. はじめに こんにちは。ホクソエムサポーターの藤岡です。 データアナリストらしいですが、分析そっちのけでPySparkと戯れてます。 メソッドチェインを積み上げていくスタイルで最初はちょっと使いづらいなと思ったのですが、 DataFrameが思いのほか使いやすくて、 気がつくとPySpark無しでは生きられない身体になってしまいました......。 さて、今回紹介するライブラリはsqlparseです。 sqlparseは、SQLエンジンを一切使わずにSQLを解析し、そこから種々の情報を得ることができる非…
4年前
記事のアイキャッチ画像
gganimateでバーチャートレースを作って競争心を煽る
株式会社ホクソエムのブログ
ホクソエムサポーターの輿石です。普段はデータ分析会社で分析業務や社内Rパッケージ開発をはじめ分析環境を整備する仕事をしています。 最近WEB系のメディアで「バーチャートレース(bar chart race )」と呼ばれるぬるぬる動く棒グラフを見ることが増えてきました。興味を惹くという点で優れた面白い可視化だと思います。Rではgganimateパッケージを使うことで簡単にggplot2のグラフをアニメーションにできたので、作成方法を細かい部分含めて紹介します。 なお、本記事ではggplot2の詳細には触れていませんが、詳細は「Rグラフィックスクックブック」がオススメです。なんと本記事が投稿された…
4年前
記事のアイキャッチ画像
EMNLP2019の気になった論文を紹介
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。 EMNLP-IJCNLP 2019 (以降 EMNLP) が先日、香港で開催されました。 EMNLPは Empirical Methods in Natural Language Processing の略称で、ACLやNAACLと並ぶ、計算機科学のTop conferenceと言われてます*1。 今年採択されたEMNLPの論文は682本 (+システム/デモ論文45本) です。 (年々増えています。) 今回は、EMNLP2019の論文から、いくつか気になったものを紹介します。 前回に引き続き、検証系の論文とデータ構築についての論文をメインに扱います。 以降、記…
4年前
記事のアイキャッチ画像
今年読んだNLP系論文で面白かった5つ
株式会社ホクソエムのブログ
ホクソエムサポーターの白井です。学生時代は自然言語処理の研究をしていました。 「今年読んだ論文、面白かった5つ」というテーマで、自然言語処理(NLP)の論文を紹介します。 主にACL anthologyに公開されている論文から選んでいます。 はじめに 今年のNLP界隈の概観 1. Text Processing Like Humans Do: Visually Attacking and Shielding NLP Systems 面白いと思った点 2. Errudite: Scalable, Reproducible, and Testable Error Analysis 面白いと思った点…
5年前