Nishika Tech Blogのフィード
https://zenn.dev/p/team_nishika
Nishika公式テックブログです。 「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在とする」を目標に、 音声認識AIプロダクトSecureMemo/SecureMemoCloudを中心とした事業を展開しています。
フィード

【Nishika 論文サク読み 第5回】Voxtral Realtime
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの李です。 論文タイトル: Voxtral Realtime出典: arXiv:2602.11298v2組織: Mistral AI公開日: 2026年2月21日モデル: HuggingFaceライセンス: Apache 2.0 目的リアルタイム音声認識における課題解決を目的とする:オフラインASRモデル(例:Whisperなど)は双方向自己注意機構に依存し、音声全体の入力を前提とするため、リアルタイム用途には不向きである。オフラインモデルをチャンク分割やスライディングウィンドウによってストリーミング化すると、**学...
1日前

【Nishika 論文サク読み 第4回】EmoVoice
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの山口です。voicevox等のパラメータベースのttsを超え、自然言語を使ったttsの研究がないか気になったので調べてみました。 論文EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Promptinggithubhuggingfaceリンクプレイグラウンド 目的「嬉しくて仕方がない様子で」「悲しみに明け暮れた後の月曜日の感じで」といったように、自由な形式の自然言語を用いて、細やかで直感的な感情のコントロールをttsで実現したい。...
9日前

【Nishika 論文サク読み 第3回】Qwen3-ASR
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの渡辺です。 論文Qwen3-ASR Technical Report: Multilingual Speech Recognition and Forced Alignment 目的従来の音声認識モデルが抱える、長時間の音声文字起こし、ノイズ環境や歌声への堅牢性、多言語・方言の広範なカバーなどを解決したい。さらに、実運用で必要とされる字幕生成などのためのタイムスタンプ付与(Forced Alignment)において、言語固有の辞書に依存しない高精度で多言語対応可能な統合的アプローチを提供したい。 手法Qwen3-Omniを基盤...
16日前

【Nishika 論文サク読み 第2回】話者認識における自己教師あり学習
Nishika Tech Blogのフィード
こんにちは。NishikaのAIエンジニアの髙山です。話者認識の精度をどのようにして上げるか。モデルを学習させるにもデータにラベルを振るのが大変ということで、解決策を示唆する話者認識の自己教師あり学習に関する論文をpickしてみました。 論文Self-Supervised Learning for Speaker Recognition: A study and review 目的SSL(自己教師あり学習)をSpeaker Verification(話者認証)に適用した研究は少なく、どのSSLフレームワークが有効か、各コンポーネントがどう機能するかが不明確だった。本論文はS...
25日前

【Nishika 論文サク読み 第1回】Whisper-MLA
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの松田です。Whisperの省メモリ化が業務でも話題になりがちなので、関連する論文をpickしてみました。 論文WHISPER-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion 目的ASRモデルWhisperはTransformerのMulti-Head Attention (MHA)によりDecoderにおいてKVキャッシュが大量に必要。KVキャッシュはシーケンス長とモデルサイズに比例するため、長い音声などでOOMとなりやす...
1ヶ月前

ソフトウェアアーキテクチャの学びと実践: Slack連携Text-to-SQLの開発を通じて
Nishika Tech Blogのフィード
こんにちは。Nishikaデータサイエンティストの山口と申します。本記事では、レイヤードアーキテクチャでのSlack Bot開発を通じて感じたソフトウェアアーキテクチャの重要性について共有します。なお、本記事で紹介するBotは以下の記事に記載の反省を元に実装いたしました。https://zenn.dev/team_nishika/articles/34390ef5ad0004 サマリレイヤードアーキテクチャを採用することで、以前作ったETLバッチ処理のような構成から、以下のようにソフトウェアアーキテクチャを整理することができました。上記のように何か特定のソフトウェアア...
6ヶ月前

地図ヒートマップの表示を爆速にする
Nishika Tech Blogのフィード
こんにちは。Nishikaのデータサイエンティストの髙山です。地図ヒートマップにデータを表示する機能のDB部分の設計・開発を検証した際の知見を紹介します。 tl;drPostgreSQL+PostGIS(拡張機能)が、その他アプリケーション機能の開発においても潰しが一番効きそうです狭い範囲のクエリにはGiST索引、広い範囲のクエリについては集約したマテビューを用意して、緯度経度の範囲に応じてクエリを切り替えるのが吉 はじめに今回開発した機能は以下です。画面ではズームイン・ズームアウトができ、緯度・経度の上限・下限を指定してその矩形の範囲を表示します。ズームインして狭...
7ヶ月前

AWS Batch開発で直面した3つの課題と実践的な解決アプローチ
Nishika Tech Blogのフィード
本記事では、AWS Batchを使った開発プロジェクトで得られた学びと、効率的な開発環境構築の工夫について共有いたします。初めてAWS Batchを扱う中で直面した技術的な課題を、チームで協力しながら解決した経験をまとめました。なお、顧客プロジェクトに関する内容のため、AWS上の設定など、詳細は省略させていただきます。本記事で扱うトピック:Batch処理およびAWS Batchの概要[学び1] AWS Batch処理の起動トラブルシューティング[学び2] 効率的な開発サイクルの構築[学び3] 保守性の高いコード設計への改善 AWS BatchおよびBatch処理の概...
7ヶ月前

Flutter×GCP:化粧品分析AIエージェントの開発
Nishika Tech Blogのフィード
こんにちは☀️ Nishikaデータサイエンティストの山口です🦌「この化粧品、自分の肌に合うかな?」「どの商品を選べばいいんだろう?」—多くの人が感じる化粧品選びの悩み。この記事では、AIを活用してその悩みを解決するアプリ開発の取り組みについてご紹介します。ある調査によると、男性化粧品の市場(2024年時点)は2019年比で2倍近くに伸びており、性別に関わらず化粧品の利用が急速に拡大しています。参考:https://prtimes.jp/main/html/rd/p/000000252.000036691.html化粧品はドラッグストアやネットで気軽に購入できる一方で、(私もです...
1年前

プロンプトのデプロイ後の品質管理:LLM運用を便利にするLangfuseのトレース機能
Nishika Tech Blogのフィード
LLMの出力結果を本番デプロイした後に把握できてますか?LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯誤したプロンプトを勢いでデプロイしてしまうことも少なくないのではないでしょうか。それでも、ユーザーの想定外の入力などにも一定レベルの出力ができているかは確認しておきたいですよね。そんなときにLangfuseがとても便利だったので、今回は運用のイメージと共にコアとなるトレース機能を紹介します。https://...
1年前

Devin 2.0の新機能をどのように実践的に組織的に活用するか
Nishika Tech Blogのフィード
こんにちは。Nishikaのデータサイエンティストの髙山です。この記事をお読みの皆さんは、すでにDevinをお使いでしょうか?弊社ではDevin、Cursor、GitHub Copilotといったコーディングエージェントを積極的に活用しています。特にDevinは2月末から運用を開始し、最初はコード量の少ない検証用リポジトリで試した後、現在ではプロダクト開発で使用しているリポジトリへと運用範囲を広げています。今回は、最近リニューアルされたDevin 2.0の変更点をおさらいしつつ、弊社での具体的な活用事例や使ってみての所感をご紹介したいと思います。 Devin 2.0の変更点最...
1年前

ソフトウェアアーキテクチャをかじって得られたミニマルなメンタルモデル
Nishika Tech Blogのフィード
はじめに最近、改めてソフトウェアアーキテクチャを学び始め、その中でソフトウェアアーキテクチャに関するミニマルなメンタルモデルが自分の中にあることに気づいたので、共有いたします。最初に断っておきます、ミニマルなメンタルモデルは実世界では役に立たないとよく言いますが、私が今回紹介するものもその類ですのでご承知おきください。これから、学びたいという人には簡単な型としてご理解いただくと、今後、ソフトウェアアーキテクチャについて学んだ時に理解が進みやすくなるかと思います。 想定読者ソフトウェアアーキテクチャについてこれから学び始めたいという方クリーンアーキテクチャとかドメイン駆...
1年前

「どんな質問をしたいのか?」別に考える、適切なRAG技法 〜RAG曼荼羅〜
Nishika Tech Blogのフィード
Nishika データサイエンティストの髙山です。弊社では、RAG(Retrieval Augmented Generation:検索拡張生成)をはじめとするLLM関連の相談を多くいただいています。LLMは日々進化し、RAGも様々な手法が発表され続けています。このような多数のナレッジで溢れている状況では、実務でRAGのシステムを構築する際にどのような手法が適切か、分かりにくくなっています。今回は、弊社でこれまで蓄積してきたRAGの知見をもとに、「質問の内容」ごとに適切なRAGの手法、ナレッジ整理の施策を紹介します。 RAGについておさらいRAGとはRetrieval Augm...
1年前

プロンプトの試行錯誤をラクにしたい!プロンプトのマネージメントツールの調査✏️
Nishika Tech Blogのフィード
プロンプトエンジニアリングライフ、楽しんでますか?LLMを使ったアプリケーションを作成するとき、欲しい出力を得るのにプロンプトの試行錯誤ある程度すると思いますが、「変える前の方がいいな」とか「AとBのプロンプトはどっちがいいんだろ」とか色々やってると、プロジェクトのコードが散乱してきて、整理に苦労する場面がしばしばあると思います。今回はこういったプロンプトのトライアンドエラーを少しでも便利にしたり、試行錯誤の管理を重点に使えそうなアプリケーションを調査してみました。 調査したアプリケーションまずは気軽に試してみたい。ということで課金オンリーのサービスではなく、セルフホスティング...
2年前

「実務で後一歩使えない」を解決するLLM・RAG ~画像・図形付きのスライドを理解する~
Nishika Tech Blogのフィード
Nishika DSの髙山です。今回も「実務で後一歩使えない」シリーズで、「実務で後一歩使えない」を解決するLLM・RAG ~PDFの表を崩さず理解する~の連載になります。実際にLLM・RAGを使ったシステムを構築した際に、何も工夫をしないと「画像を含むスライドを理解できない」「図形・テキストボックスを含むスライドを理解できない」という課題によく遭遇します。画像や図形・テキストボックスがある場合にどのような課題があるのか、その解決策を紹介します。 【実務での悩み】画像の内容やテキストボックスの位置関係を踏まえたドキュメントの解釈ができない!以下の画像は弊社議事録アプリのSec...
2年前

「実務で後一歩使えない」を解決するLLM・RAG ~文脈を付加して検索精度を上げる~
Nishika Tech Blogのフィード
Nishika DSの髙山です。今回も「実務で後一歩使えない」シリーズで、「実務で後一歩使えない」を解決するLLM・RAG ~PDFの表を崩さず理解する~の連載になります。実際にLLM・RAGを使ったシステムを構築した際に「なかなか適切なドキュメントをひっかけてくれない」という悩みはつきものです。どのような場合にドキュメントの検索が難しいのか、課題とその解決策を紹介します。 【実務での悩み】個別のページ・シート・スライドに関する質問に関するドキュメントが検索できない生成AI周りのアプリケーション開発のよく使用されるライブラリLangchainで用意されているものを使用すると、P...
2年前

「実務で後一歩使えない」を解決するLLM・RAG ~質問回答に必要なドキュメントを適切に検索する~
Nishika Tech Blogのフィード
Nishika DSの髙山です。今回は前回の記事「実務で後一歩使えない」を解決するLLM・RAG ~PDFの表を崩さず理解する~の続編です。実際にLLM・RAGを使ったシステムを構築した際に「なかなか適切なドキュメントをひっかけてくれない」という悩みはつきものです。どのような場合にドキュメントの検索が難しいのか、課題とその解決策を紹介します。 【実務での悩み】固有名詞(商品コード、製品名など)に関する質問に関するドキュメントが検索できない例えば商品固有の名前やコードについて質問をして社内のナレッジに基づいて回答をさせたいというケースは実務でニーズがあると思います。日本の官公庁...
2年前

「実務で後一歩使えない」を解決するLLM・RAG ~PowerPoint/PDFの表を崩さず理解する~
Nishika Tech Blogのフィード
はじめにNishika代表の松田です。Nishikaでは、生成AIを扱った事業を2つ行っています。生成AIによる会議録特化要約機能を搭載したAI議事録ツールSecureMemoCloudの提供生成AIを活用した企業向けコンサルティング・開発生成AIを活用するユースケースとして、生成AIに社内ドキュメントを検索し回答させる、LLM・RAGを活用したエンタープライズサーチシステムの引き合いが非常に多くあります。これは弊社に限らない傾向と思われ、生成AIを実業務のユースケースとして使うときの最たる例だと思います。念の為おさらいしておくと、RAGはRetrieval Aug...
2年前

「具体情報を落とさない」SecureMemoCloudのAI要約紹介
Nishika Tech Blogのフィード
はじめにNishika DSの並内です。Nishikaは「テクノロジーですべての人が誇りを持てる社会の実現」をビジョンに掲げ、「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在としていき、皆の仕事の付加価値・業務効率を向上させることに貢献したい」と考えています。その一環として、AI音声認識サービス「SecureMemo」「SecureMemoCloud」を開発しています。SecureMemoCloudは、他のAI音声認識サービスと一線を画した、高い精度の音声認識AI・要約AIが特徴です。本記事では、SecureMemoCloudのAI要約機能について紹介し...
2年前

API Gatewayを利用したSageMaker runtime(Multipart/Form-data)の外部公開のための構築
Nishika Tech Blogのフィード
はじめにNishikaでは、AI文字起こしサービスとして、SecureMemoおよびSecureMemoCloudを提供しています。これに加え、APIを通じたサービスの提供も積極的に行っています。その一環として、リアルタイム推論APIの性能検証のためにSageMaker runtimeのエンドポイントをAPI Gateway経由で接続できるようにしたところ、設定に結構ハマったのでメモがてら共有いたします。API Gatewayでは、SageMaker runtimeと直接接続することができるのですが、何か込み入ったことをやろうとすると途端に間にLambdaを挟もうと誘惑されます...
2年前