ABEJA Tech Blog

https://tech-blog.abeja.asia/

中の人の興味のある情報を発信していきます

フィード

記事のアイキャッチ画像
Common Crawlから作る大規模日本語コーパスとその前処理(Mixtral 8x7Bを語彙拡張継続事前学習 Part2)
はてなブックマークアイコン 6
ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」に採択されたことを受け、LLMの事前学習を実施しました。 その中でモデルの学習だけでなく、学習に欠かせない大規模日本語言語コーパスを作りました。データセットのサイズとしては、語彙拡張前のMixtral Tokenizerで約400Bほどのものです。 特にその中で大部分を占めるCommon Cr…
2日前
記事のアイキャッチ画像
【ABEJAアジャイル活動記録】ユーザーストーリーマッピングでチーム開発の理解共通化を爆上げする!
はてなブックマークアイコン 1
ABEJA Tech Blog
こんにちは!ABEJA でスクラムマスターをしている小川です。 私たちの開発チームでは、新機能開発に先立ってマイルストーンを明確にするために、みんなでユーザーストーリーマッピングを作ってます。 今回は、ユーザーストーリーマッピングで得られる様々な恩恵についてお伝えしたいと思います! ざっくりとユーザーストーリーマッピングについて説明しますと、横方向でペルソナの業務(ユーザーアクティビティ)の流れを表現して、各アクティビティの下に提供したい価値(ユーザーストーリー)を並べることができます。 ユーザーストーリーを縦方向に並べることで、機能の進化や優先度(マイルストーン)も同時に表現ができるようにな…
9日前
記事のアイキャッチ画像
Megatron-LMとGKEで作るMixtral 8x7Bを語彙拡張継続事前学習 Part1 ~学習コードとモデルの先行公開~
ABEJA Tech Blog
こんにちは!ABEJAでデータサイエンティストをしている大谷です。 ABEJAは国立研究開発法人新エネルギー・産業技術総合開発機構(以下「NEDO」)が公募した「ポスト5G情報通信システム基盤強化研究開発事業/ポスト5G情報通信システムの開発」に当社提案の「LLMの社会実装に向けた特化型モデルの元となる汎化的LLM」が採択されたことを受け、LLMの事前学習を実施しました。 以降、本LLMプロジェクトをGENIAC(Generative AI Accelerator Challenge)と表記します。 開発内容は表題の通り、Mistral社のMIxtral 8x7Bをベースにした日本語の語彙拡張…
19日前
記事のアイキャッチ画像
【ABEJAアジャイル活動記録】忙しいプロダクトオーナーに送る「チームの一員としての振る舞い」
ABEJA Tech Blog
こんにちは!ABEJA でスクラムマスターをしている小川です! 言わずもがなですが、スクラムチームにおけるプロダクトオーナー(以降PO と略します)の役割は重要です。 しかし、「PO 忙しい問題」(ググったらたくさん出てきます💦)が示す通り、世の中のPO はほぼ忙しいです。 そんな忙しいPO に送りたい「チームの一員としてチーム成果を上げるための振る舞い」について焦点を当てた内容をまとめてみました! 実際に弊社PO と振り返りをした内容をまとめたものになります!(手前味噌ではございますが経験主義に基づいた内容でございます。) プロダクトオーナーの方(目指す方も)や、プロダクトオーナーとの連携の…
2ヶ月前
記事のアイキャッチ画像
社内用語集を気軽に質問できるSlackBotを作ってみた (RAGの応用アプリ)
ABEJA Tech Blog
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。 LangChain を使用すれば、RAG [Retrieval Augment Generation] を使用した LLM アプリケーションを簡単に作成できるので便利ですよね。 今回 LangChain での RAG を使用して、LLM が学習に使用していない特定ドメインでの用語を応答する Slack ボットをさくっと作ってみたので共有します。 本コード一式は、以下の GitHub レポジトリに保管しています。 github.com 使い方 コード解説 アー…
3ヶ月前
記事のアイキャッチ画像
よく使うRDBMSのUDF・ストアドプロシージャのまとめ
ABEJA Tech Blog
はじめに まとめ ちょっと試してみる MySQL PostgreSQL SQLite さいごに はじめに こんにちは。株式会社ABEJAの@Takayoshi_maです。InfoQを見ているとこのようなニュースが掲載されていました。 www.infoq.com どうやらMySQLでストアドファンクション・ストアドプロシージャを作成する際に新しくJavaScriptを使うことができるようになるそうです。私は普段BigQueryを触っているのですが、その際UDFにJavaScriptを使うことも多く、そう言った面からもこの機能がMySQLに実装されることは結構便利になるのでは?と思っているところで…
3ヶ月前
記事のアイキャッチ画像
【Python 3.12】型ヒント機能がいつの間にか進化していたので、慌ててキャッチアップする
ABEJA Tech Blog
ABEJA でプロダクト開発を行っている平原です。 先日、バックエンドで使っているGo言語のお勉強しようと「go言語 100Tips ありがちなミスを把握し、実装を最適化する」を読んでいました。その中でinterfaceは(パッケージを公開する側ではなく)受け側で定義するべきという記述を見つけてPythonでも同じことできないかと調べていると(PythonではProtocolを使うとうまくいきそうです。)、どうやら型ヒント機能がかなりアップデートされていることに気づき慌てて再入門しました。(3.7, 3.8あたりで止まってました。。) この記事では、公式ドキュメントを見ながら適当にコードを書き…
3ヶ月前
記事のアイキャッチ画像
LangChain社LLMOpsツール「LangSmith」を触ってみた(詳細解説つき)
ABEJA Tech Blog
こんにちは!株式会社 ABEJA で ABEJA Platform 開発を行っている坂井(GitHub : @Yagami360)です。LangChain 使えば、RAG [Retrieval Augment Generation] などを活用した LLM アプリケーションも簡単に作成できるので大変便利ですよね。そんな LangChain を開発している LangChain 社から LLMOps ツール(*1)である LangSmith が登場しているので調査してみました。昨今 ChatGPT 等の LLM 技術の発展に伴い、LLM を実際のアプリケーション開発や運用に適用する際に MLOps…
3ヶ月前
記事のアイキャッチ画像
機械学習におけるEDAって結局何するの?
ABEJA Tech Blog
ABEJAでデータサイエンティストをしている服部です。 「EDAって結局何したらいいの?」っていう声をよく聞く気がするので、無謀にも今回はEDAについて記事を書いてみました。 本記事はABEJAアドベントカレンダー2023 25日目の記事です。 EDAとは EDAは「Exploratory Data Analysis」の略で「探索的データ分析」と日本語では言います。 データの特性だったりデータから何が言えるかを把握するための分析であり、JohnTukey氏により1960~70年頃に統計学の分野で提唱されたようです。 今では機械学習の分野でも、「まずEDAをしてからモデルを作ろう」と言われる場面…
4ヶ月前
記事のアイキャッチ画像
【ABEJAアジャイル活動記録】チームの振り返り、進め方(初級~中級編)
ABEJA Tech Blog
ABEJA のアジャイル開発チームでスクラムマスターをしている小川です。 今回は、アジャイルやスクラムチームに限らず、チームの雰囲気をもっとよくしたい!とか、継続的なチーム成長の実現方法を探している!などを考えている方にはご参考にしていただける内容かと思います! もちろんチーム立ち上げ初期(タックマンモデルでいう形成期のあたり)の振り返り方法としても効果的だと思います! (タックマンモデルについてはこちらがご参考になるかと思います) asana.com 前置き:振り返りは大切 アジャイルなチームは対話を通してチームの業務のやり方を改善していきます。 特にスクラムのようなフレームワークを活用する…
4ヶ月前
記事のアイキャッチ画像
ドローンにiPhoneを載せて建築物をLiDARスキャンしてみた
ABEJA Tech Blog
はじめに こんにちは、ABEJAでプロジェクトマネジメントをしている服部です。ABEJAアドベントカレンダー2023の24日目の記事です。皆さん日々の思い出はどういった形で残されていますか?写真?動画?それとも3Dスキャン?今回はドローンにiPhoneを載せることで広がる可能性をご紹介しようと思います。 注意点 ドローン運用の際には、機体の登録や飛行区域の確認などが求められます。本記事では、その点の説明を省きますので、詳細は国土交通省のページをご確認ください。 航空安全:無人航空機(ドローン・ラジコン機等)の飛行ルール - 国土交通省 前振り iPhoneで「12以降の"Pro"」に搭載のLi…
5ヶ月前
記事のアイキャッチ画像
議事メモでドライブするプロジェクトの難局 ~議事メモは何のためにある?~
ABEJA Tech Blog
こんにちは!ABEJAでプロジェクトマネージャーをしている中島です。ABEJAアドベントカレンダー2023の23日目の記事です。みなさん、日々いろいろなMTGがあると思いますが、議事メモ(議事録)取ってますか?手元の自分用メモで終わっていませんか?本日は、明確な意思決定やタスク化が難しく、前に進まないプロジェクトをドライブする議事メモの隠れた役割について書きたいと思います。 ※本記事は議事メモ調の箇条書き(bullet point)で記載してお届けしたいと思います!!! プロジェクトの中には、方針や仮説が明確に定まらないまま、なんとなくタスクベースで進んでしまうものがある 本記事では、明確な意…
5ヶ月前
記事のアイキャッチ画像
低レイヤー探訪記 - ソフトウェア エンジニアがFPGAでLチカするまで
ABEJA Tech Blog
ABEJA でプロダクト開発を行っている森永です。ABEJAアドベントカレンダー2023の22日目の記事です。普段の業務ではフロントエンドからバックエンドやインフラまで幅広く扱っています。今回は、一般的な Web 開発のスタックを飛び越えてより低レイヤーの領域に触れてみたくなり、以前から興味があった FPGA デバイスを触ってみましたのでこちらの記事にやったことをまとめてみました。 注: 筆者 FPGA は超初心者なため、あくまでも私のような初心者の方の参考となる記事に仕立ております。 1. FPGA とは? 1.1 概要 1.2 FPGA が身近に使われているところ 2. FPGA を使うと…
5ヶ月前
記事のアイキャッチ画像
色々な生成AIモデルをColabで動かして今年を振り返る
ABEJA Tech Blog
こんにちは、ラボで研究開発をしたりプロトタイプを作っている藤本(X(Twitter))です。ABEJAアドベントカレンダー2023の21日目の記事です。ここ近年、生成AIの勢いが凄いです。最近は一夜明けたら世界が変わっているみたいなことがしょっちゅう起きています。そんな状況なので、なかなか世の中についていくのが難しいのではないかと思います。そこで今回は、これまでに色々と出てきた生成モデルを振り返りつつ、ひたすら思いつく限りColabで動かしまくってみる企画をやってみようかと思います。流石に全部Colabで動かすのは大変でした・・・。 まずは言語を対象として日本語モデルを含む様々なモデルを対象に…
5ヶ月前
記事のアイキャッチ画像
AWS Config が高いと感じたら。AWS Config のコストを15分の1に下げた話
ABEJA Tech Blog
切っ掛けと問題の認識 AWS Config のカウント数の監視 対象外にしたいリソースが見つかったら AWS Config 側で除外する 実際のコスト削減効果 なぜもともとコストが高かったのか まとめ こんにちは、ABEJAの村主です。ABEJAアドベントカレンダー2023の18日目の記事です。今回は、意外にも高額になりがちなAWS Configのコスト削減について、どのように対応したかをご紹介します。特に、AWS Configのコストを大幅に減らすためのアプローチについてお話しします。また、CloudWatch で AWS Config のカウント量を可視化する方法はあまり見かけなかったので…
5ヶ月前
記事のアイキャッチ画像
Function callingはどれくらい正しくレストラン予約できるのか?
ABEJA Tech Blog
はじめに こんにちは、ABEJAでデータサイエンスグループに所属している今井です。ABEJAアドベントカレンダー2023の20日目の記事です。 OpenAIのAPIには、チャットアプリケーションを作る際に役立つfunction callingという機能がありますが、かねてから「どれくらいfunction callingは精度良く呼び出されるのだろうか?」と思っていました。 今回の記事では、上記の疑問に答えるべくfunction callingの呼び出し精度をレストラン予約のシナリオを題材に定量的に評価してみたので、その内容についてご紹介したいと思います。 以下の順序で内容を説明していきます。 …
5ヶ月前
記事のアイキャッチ画像
【AI×競馬】馬の記事を書いたら講演依頼がきた話
ABEJA Tech Blog
本記事はABEJAアドベントカレンダー2023 19日目の記事です。 こんにちは!データサイエンティストの安倍(あんばい)です。 最近の趣味は競馬布教です。 社内のNotionページに毎週予想を記載し、それを信じて馬券を購入する同僚が徐々に増えてきています。残念ながら、全体収支はマイナスのようです。 さて、今回のテーマですが、昨年投稿した「競走馬骨格推定」の続き話となります。嬉しいことに、読者の方から講演依頼を頂き、実際に発表、議論をしてきましたので、その内容についてご紹介したいと思います。 tech-blog.abeja.asia 目次 目次 競走馬骨格推定について 講演依頼 発表してきた …
5ヶ月前
記事のアイキャッチ画像
GitHub Copilot はどのようにして空気を読むか?
ABEJA Tech Blog
"Everything is true," he said. "Everything anybody has ever thought." —Philip K. Dick, Do Androids Dream of Electric Sheep? この記事は ABEJAアドベントカレンダー2023 の 17 日目の記事です。 こんにちは。システム開発部の石川 (@ishikawa) です。昨年のいまごろは Objective-C ばかり書いていましたが、今年は念願の Swift で QR コードリーダーを書き直したり、React Native の C++ コードをデバッガで追いかけて不思議なバ…
5ヶ月前
記事のアイキャッチ画像
ChatGPTを使って音声指示でロボットを動かしてみた(GPTsのActions、MQTT、ATOM Matrix、toio、UIFlow)
ABEJA Tech Blog
TL; DR GPTsに音声入力で指示すると、それに従ってATOM Matrix経由でtoioが動いてくれるようなものを作ってみました。 GPTsのActionsから何秒動きたいかを判断して、BeebotteというMQTTブローカーを使ってATOM Matrix経由でtoioにその秒数を指示します。 ChatGPTなので、「ちょっと進んで」というような曖昧な指示でも1秒を設定して指示してくれます。 (スタックチャンは賑やかしのために参加してもらっただけで今回の内容とは関係ないです。そのうちAIスタックチャンのfunction callingで指示できるように改良予定) 動画↓ www.yout…
5ヶ月前
記事のアイキャッチ画像
機械学習の落とし穴 リーク問題について
ABEJA Tech Blog
はじめに リークって何? リークの例 テーマ概要 使用できるデータ,手法 例 例1.運用時に使えない情報を使ってしまう 例2.更新された情報を使ってしまう その他例 リークを回避するためには? ドメイン知識をもとにした確認 データを正しく理解する 重要特徴量からの判断 特徴量作成後の可視化 自分がやったことを信用しすぎない まとめ We Are Hiring! はじめに こちらは、ABEJAアドベントカレンダー2023の13日目の記事です。 こんにちは!ABEJAでデータサイエンティストをしております松村です。2021年の入社時から地元広島からフルリモートで働いており、早いものでもうすぐ3年が…
5ヶ月前
記事のアイキャッチ画像
GPT-4 で作るスライド風の論文要約チャレンジ📝
ABEJA Tech Blog
はじめに 本記事で目指すこと スライド作成のステップ プロンプト作成 ステップ1~3: スライドコンテンツ作成までの準備 ステップ4: 日本語でスライドコンテンツを作成 ステップ5: Reveal.js のコードを作成 工夫点 明示的に CoT をさせるため、ステップの中で複数回に分けて GPT-4 にリクエストを送る Role-Play Prompting を先頭に仕込む STEP-BACK PROMPTING として途中にメタ質問を加える 作成した結果 パターン1 パターン2 その他のトライ さいごに はじめに ABEJAアドベントカレンダー2023の14日目の記事になります。 こんにちは…
5ヶ月前
記事のアイキャッチ画像
LangChainを使わない
ABEJA Tech Blog
TL; DR LangChainのメリデメを整理する過程で、今となってはopenai-pythonのうちChatGPTのAPIをを簡単に取り回せる程度のシンプルなライブラリがあるだけでも十分便利なんじゃないかと思ったので、ライブラリを個人で作ってみました。(バージョン0.0.1なのでちょっとお粗末な所もありますが) github.com はじめに こんにちは、データサイエンティストの坂元です。ABEJAアドベントカレンダーの13日目の記事です。世は大LLM時代ということで、ありがたいことにABEJAでも複数のLLMプロジェクトを推進させて頂いています。私自身もいくつかのLLMプロジェクトに参画…
5ヶ月前
記事のアイキャッチ画像
アジャイル開発に欠かせない自己管理型チームを実現するTIPS10選!
ABEJA Tech Blog
この記事はABEJA Advent Calendar 2023の12日目の記事です。 ABEJA のアジャイル開発チームでスクラムマスターをしている小川です。 今日はスクラムなどに代表されるアジャイルなチームに欠かせない「自己管理(自己組織化)」についてご紹介をさせていただきます! また、失敗例という形で「自己管理型チームから遠ざかる危険シグナル」についてもご紹介をさせていただき、最後に自己管理型チームを実現するための(私の経験をベースに独断と偏見による)代表的なコツも挙げさせていただきます! アジャイルなチーム作りをされている方の参考になれば幸いです。 (この記事では上下関係に対して否定的な…
5ヶ月前
記事のアイキャッチ画像
AIだってブラフを張れる 不完全情報に対処する強化学習
ABEJA Tech Blog
はじめに ABEJAアドベントカレンダー2023の11日目の記事です。この記事では不完全情報ゲームを解くための手法であるDeepNashについて紹介します。DeepNashはMastering the game of Stratego with model-free multiagent reinforcement learning(arXiv: Mastering the Game of Stratego with Model-Free Multiagent Reinforcement Learning)で提案されたモデルフリー強化学習をベースとした手法です。通常、強化学習を用いる場合エージ…
5ヶ月前
記事のアイキャッチ画像
パワプロでよくあるオートペナントっぽいことをやってみる
ABEJA Tech Blog
はじめに シミュレーションの概要 Games Class Runs Class Simulation 結果 試しに一度だけシミュレーション セントラルリーグ パシフィックリーグ 最後に はじめに ABEJAアドベントカレンダー2023の10日目です。どうも@Takayoshi_maです。2年前にこんな実験をしていました。 speakerdeck.com プロ野球のシーズン日程が偏りすぎてて同じ対戦投手とばかり当たってしまう問題について、機会を均等にしてみると実は違った結果になるのでは??という発想の元やってみたシミュレーションです。今回はこの続きで2023年シーズンのセ・パ両リーグを試してみよ…
5ヶ月前
記事のアイキャッチ画像
ここまで生成AIが発達したならプロ野球の応援歌も生成AIが作ってくれるんじゃないか
ABEJA Tech Blog
目次 目次 はじめに 今回のネタ 実験 まとめ さいごに はじめに こちらは、ABEJAアドベントカレンダー2023の9日目の記事になります。 どうも、限界野球オタクくんです ABEJAでデータサイエンティストをしております真鍋です。今年も野球ネタ全開で行きたいと思います。 去年は2番打者最強理論とか言って2日目にエントリーしましたが、今年はベストナインにちなんで9日目になりました だから何やねんってのは言わないお約束。 今回のネタ "生成AI"が2023年のIT流行語ランキング で1位になるくらいには、生成AIという言葉がビジネス全般で聞かれた1年だったと思いますが、結構ChatGPTを中心…
5ヶ月前
記事のアイキャッチ画像
Amazonに売ってるモノだけで6脚ロボットを完全自作してみた (3Dモデル+ソースコード付き)
ABEJA Tech Blog
はじめに 完成品イメージ (Tagurobot v1) 3Dモデルの全体像 メイン構造体 制御系回路・バッテリー搭載用ボード 関節 アーム End Effector 電源・制御系の全体像 モジュール紹介 (LiPoバッテリー) モジュール紹介 (ヒューズ) モジュール紹介 (DC-DCコンバーター) モジュール紹介 (RaspberryPi) モジュール紹介 (サーボモータードライバー:) モジュール紹介 (サーボモーター) モジュール紹介 (加速度ジャイロセンサー) 制御系ソフトウェアの全体像 Tripod Gait(トライポッド歩容)の紹介 適切な関節角度を算出するための逆問題を解く 制御…
5ヶ月前
記事のアイキャッチ画像
字を綺麗に書きたいPdMがiOSの書道アプリを作った話
ABEJA Tech Blog
概要 ABEJAアドベントカレンダー2023の7日目の記事です。これは普段の仕事でプロダクト開発を行っている私が、自分自身の悩みを解決するためにiPadOS向けの書道アプリを開発し実際に使ってみる話である。 ZenPen Tetsu Kuribayashii グラフィック/デザイン 無料 apps.apple.comiOS向けには配信していません 背景 私は字が上手くない。 社会人になってから約2年。学生の頃より紙とペンを使う機会は減り、もっぱらキーボードを叩く毎日である。それでも時々、書類や封筒に字を書く機会がある。なるべく丁寧に書くことを心がけているものの字の形や全体のバランスが綺麗に決ま…
5ヶ月前
記事のアイキャッチ画像
使い慣れたプログラミング言語でAWSのインフラ管理をする ~AWS CDKのススメ~
ABEJA Tech Blog
1. AWS CDKとは 2. AWS CDKを触ってみる 2.1 環境構築 Volta Node.js CDK 2.2. とりあえずLambdaを作成するところまでやってみる 2.2.1. プロジェクト作成 2.2.2. デプロイ用のLambda関数を書く 2.2.3. CDKのStackにLambda関数を記載する 2.2.4. デプロイしてみる 2.2.5. お片付け 2.3. CRUDっぽいAPIをAPI Gatewayで公開してみる 2.3.1. Lambda関数を用意する 2.3.2. CDKを用意する 2.3.3. デプロイして動かしてみる 2.3.4. お片付け 2.3.5. …
5ヶ月前
記事のアイキャッチ画像
【PMの悩み】「みんな気づいてるけど指摘しない問題」をGPT Builder(GPTs)で見つけ出す
ABEJA Tech Blog
はじめに PiM(プロジェクトインサイトマネージャー)のコンセプト カスタムGPTの機能と要件 カスタムGPTの作成 実際の対話ログ おわりに はじめに この記事はABEJAアドベントカレンダー2023の5日目の記事です。こんにちは。プロジェクトマネージャーのブレイニーです。私はABEJAでPMアシスタントとして業務に取り組みつつ、PM研修を受講したり、プロジェクトマネジメントの手法が解説されている書籍を通じて理解を深めたりなどしています。そんな中、プロジェクトマネジメントのよくある失敗として、以下のようなケースが紹介されていました。 プロジェクトを進めている最中に突然新しいリスクや問題が浮上…
5ヶ月前