髙橋 正憲

AQI.INDIA / Data Scientist

広島県 尾道市

髙橋 正憲

AQI.INDIA / Data Scientist

広島県 尾道市

NewProfile beta

髙橋 正憲

AQI.INDIA / Data Scientist

一期一会

岡山大学大学院2年で医学統計・空間統計の研究室に所属しています。ゼミでは様々な統計手法を掛け合わせたデータ分析を行っています。 研究の傍らアイルランドへの短期留学やインドへの半年間のインターンシップ、部員100人の陸上競技部の主将など様々なことを経験してきました。また、ファッションが好きなのでセレクトショップでアパレル販売員としてアルバイトをしていたこともあります。 来年からは上京しデータサイエンティストとして就業予定です。 Twitter:@Masanori_724 ブログ:https://masanori.hateblo.jp/

未来

この先やってみたいこと

未来

インドで過ごした半年間は自分にとってかなり刺激的でした。国として急成長しているインドで、ITで人生を変えてやるんだと必死に学んでいるインド人エンジニアとの出会いは僕にとってモチベーションとなっています。また、半年間の生活で経験した貧困や差別の現状も自分自身の価値観を大きく変えるきっかけとなりました。人生のなかでもう1度インドへ行き、キャリアとしても人としても成長させたいと思っています。 データサイエンティストとしてやりたいことは、会社や部署の課題をヒアリングしてデータサイエンスの課題として落とし込む過程です。またAI・機械学習から得られた結果から新しい問いを立てたりする思考性に長けたデータサイエンティストを目指したいです。そのため短期的には課題を解くためのデータサイエンススキルを極めていきます。

2019年9月
-
現在

AQI.INDIA

1年間

Data Scientist(インターン)
現在

2019年9月 -

現在

内容 ・PM2.5の値の時系列予測 ・クリギングを用いた空間補間 ・PM2.5の可視化mapの作成 技術 ・統計モデル(ARIMA) ・機械学習モデル ・DeepLearnig(LSTM) ・クリギング ・folium インターンの進捗 以下で随時更新しています。 https://github.com/nori0724/forecast_PM2.5/blob/master/README.md

2019年4月
-
2021年3月

岡山大学大学院環境生命科学研究科

2年間

生命環境学専攻人間生態学講座

2019年4月 - 2021年3月

生存時間解析を軸としてクラスタリングや因子分析など様々な統計手法を掛け合わせてCOVID-19に関する分析をしています。注目している事象はCOVID-19の中国で初感染が見られて以降の世界への広がり方のメカニズムと各国の特徴です。 ベースの論文:https://www.medrxiv.org/content/10.1101/2020.05.01.20087569v2

岡大陸上部LINEbot

岡大陸上部LINEbot

2019年8月
-
2019年9月

Data Engineer Intern

2019年8月 - 2019年9月

内容 ・HiveQLの修正 ・データパイプラインの構築 技術 ・Python ・Hive ・GCP(Bigtable) 感想 僕は1ヶ月のサマーインターンをデータサイエンティストではなく「データエンジニア」のインターンに費やしました。このインターンの目的は分析するまでのデータの流れを知ることでした。どんなデータを・どのように処理して・どうやって溜め込んでいくか・そのデータの流れを知ることはデータサイエンティストとして生きてくるのではないかと思い、あえてデータエンジニアの就業型インターンに参加しました。配属は楽天の広告のデータプラットフォームを構築しているチームでした。 最初の業務内容はHiveクエリの修正でした。新規顧客とヘビーユーザーなどを識別し正しくターゲッティングができるようクエリの修正を行いました。 メインの業務は新規のデータパイプラインの構築でした。新規事業の立ち上げに参加することができ、そのデータパイプラインの一部である期限切れのセグメントを更新しその情報を保存するようなバッチをGCPのCloud SQLやBigtableを用いて構築しました。新規のデータパイプラインのため、どこからデータを取ってきてどんな形で溜め込んでいくか実際に社員の方々と議論しながら進めてきました。 上記のようにデータの流れを十分に学ぶことができ、データサイエンティストとしての今後のキャリアに活かすことのできる経験を積むことができました。

2019年7月
-
2019年7月

データサイエンティスト インターン

2019年7月 - 2019年7月

・BG/NBDモデルを用いたユーザーの購買行動のモデル化 ・定着ユーザーの特性の可視化 ・新規ユーザーが定着する確率の算出 ・定着ユーザーの利用金額の期待値の算出 ・マーケティング予算の推定 スキル: Python, SQL, GCP, BigQuery 感想 このインターンの目的は研究していることが実際のビジネス現場でどのように活かすことができるのかを経験することでした。僕は顧客のLTVに関する研究をしていて、研究している統計モデルを用いると未来の顧客のサービスの利用回数を推定することができます。そこでインターンではオークションサイトにおける実データを用いて定着ユーザー(将来2回以上利用するユーザー)の予測や特徴量の可視化に取り組みました。 結果としては、研究の手法にはまだまだ改善が必要だと感じました。研究している統計モデルは顧客の購買間隔が指数分布に従うと仮定していますが、実際のオークションデータでは購買するためには落札する必要があり、購買意欲があっても落札できなければ購買できないという問題がありました。この経験からオークションデータの場合は、顧客が落札する確率にも何かしらの確率分布を当てはめて再度モデリングをする必要があるとわかりました。 このインターンでは実データへのアウトプットが目的であったため、実データにおけるデータ解析の難しさを知れたことは収穫となりました。また、ユーザーの定着確率と利用金額を予測することで期待値が求められそれを最適化することでマーケティング予算の推定ができるというフレームワークを学べたことも収穫でした。最終日にはCEO・事業部長・人事の方々の前でプレゼンを行う機会をいただけました。1時間に及ぶ発表と質疑応答が終わるとすぐ分析結果を根拠としたマーケティング施策が打たれていて、会社の意思決定に携わることのできるデータサイエンティストという仕事の魅力も実感することができました。

2018年8月
-
2019年7月

MLエンジニア インターン

2018年8月 - 2019年7月

内容 ・転倒検知 ・行動推定 技術 ・機械学習 ・LSTM ・AWS 感想 このインターンは私にとって初めての就業型インターンでした。インターンでは、高齢者の衣類に付けたウェアラブル機器から得られる加速度・心拍・呼吸データを機械学習を用いて解析し高齢者の行動を推定に取り組みました。そして、高齢者が転倒や深夜徘徊をした時に介護者にアラートを出す高齢者見守りシステムを開発しました。このインターンは社員1人学生5人のチームを組み、私はデータ解析の部分を担当しました。初めてのインターンかつ社員の方もデータ解析は専門ではなかったため「自ら仮説を立て実際に解析、その結果を社員の方に提案しフィードバックをもらって改善する」というサイクルを何度も繰り返しました。オフィスの立ち上げから始まったインターンですが、最終的には機械学習モデルをAWS上にデプロイし、高齢者の転倒検知を行う実証実験まで進むことができました。実証実験では、高齢者が急に座ったりコタツなどに服が引っかかりデバイスがめくれたりすると転倒と検知してしまう誤作動がありました。この問題に対しては、転倒と検知した場合に転倒後の行動推定を行い、高齢者に動きがあるかどうかを判定することで転倒かどうかを決定するという対策をとりました。検証実験中には高齢者の転倒が起こらなかったため、モデルが正常に機能をしているかを調べることには課題が残りました。インドでのインターンから帰国した際にはこのプロジェクトに再度参画する予定です。

- 2019年3月

岡山大学

環境理工学部環境数理学科

- 2019年3月

・陸上競技部所属 大学3年次には部員100人のチームの主将を経験。 ・栗原研究室 テーマ:生存時間解析を用いた新商品の生存期間のモデル化 研究詳細 学部時代は生存時間解析を用いた新商品の生存期間のモデル化について研究を行いました。生存時間解析とは医学分野でよく用いられる手法で「人が病気になってから死ぬまで」の時間とイベント(死亡)の関係に焦点を当てる学問です。生存時間解析の目的は以下の2つです。 ①個体群の (生存時間) 分布を決定すること。特に,2群以上においては、生存時間分布を比較すること。 ②生存時間に関係すると考えられる説明変数が利用可能な時に、生存時間へのその影響を要約・評価すること。 卒業論文では生存時間解析の考え方を「新商品が市場に出てから退出するまで」と置き換えて、マーケティング分野における新商品の分析に応用しました。具体的には、新商品にはライン拡張・カテゴリ拡張・マルチブランド・新ブランドの4 種類があり、それらに対してログランク検定を行い新商品のタイプの違いによる生存時間の比較を行いました。また、新商品が市場に出て以降値引きや広告への記載、山積み陳列といった様々な施策が打たれていたのでそれらがどのくらい新商品の生存時間に影響を与えたのかをCox比例ハザードモデルを適用させました。 結果としてはカテゴリ拡張>ライン拡張>マルチブランド>新ブランドの順に生存時間が長くなることがわかりました。「カテゴリー拡張」とは、すでに確立したブランド資産を使って「これまでとは別のカテゴリー」へ事業領域を広げることですが、ブランドの知名度が故に生存期間が長くなることが示唆されました。また、ライン拡張はフレーバーやサイズの異なる新商品を出すことですが、期間限定(季節限定)の商品が多いため生存時間は意図的に短くなっているのではないかと考えました。

ツイートの画像の有無によるエンゲージメントの有意差検定

ツイートの画像の有無によるエンゲージメントの有意差検定

2018年12月
-
2018年12月

データサイエンティスト インターン

2018年12月 - 2018年12月

・YouTubeCMとテレビCMの出稿割合の最適化 スキル:R, Python, ロズスティック回帰

- 2015年3月

広島県立神辺旭高等学校

普通科

- 2015年3月


スキルと特徴

R

龍也 奥永が +1
1
1

機械学習

龍也 奥永が +1
1
1

Python

龍也 奥永が +1
1
1

統計モデリング

龍也 奥永が +1
1
1

分析

龍也 奥永が +1
1
1

多動力がある、アパレル販売員歴あり、リーダーシップ

実績

岡大陸上部LINEbot

ツイートの画像の有無によるエンゲージメントの有意差検定

受賞と資格

TOEIC公開テスト スコア710点取得

2019年5月

高等学校教諭一種免許状(情報)取得

2019年3月

高等学校教諭一種免許状(数学)取得

2019年3月

中学校教諭一種免許状(数学)取得

2019年3月


言語

日本語 - ネイティブ, 英語 - 日常会話