Nishika Tech Blogのフィード

https://zenn.dev/p/team_nishika

Nishika公式テックブログです。 「テクノロジーを、普段テクノロジーからは縁の遠い人にとっても当たり前の存在とする」を目標に、 音声認識AIプロダクトSecureMemo/SecureMemoCloudを中心とした事業を展開しています。

フィード

記事のアイキャッチ画像
【Nishika 論文サク読み 第11回】Text-Embedding-to-Speech-Latent
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの渡辺です。 論文Refining Pseudo-Audio Prompts with Speech-Text Alignment for Text-Only Domain Adaptation in LLM-Based ASR 目的音声認識(ASR)モデルは、学習時と異なるドメインでは性能が大きく落ちる。理想的にはターゲットドメインの音声データで微調整したいが、音声データの収集・アノテーションはコストが高く、テキストだけで適応させたいというニーズがある。近年主流のLLMベースASRは「音声エンコーダ+プロジェクタ+LLM」という構...
4日前
記事のアイキャッチ画像
【Nishika 論文サク読み 第10回】Nemotron 3 Nano Omni
Nishika Tech Blogのフィード
こんにちは。NishikaのAIエンジニアの髙山です。テキスト、画像、動画・音声を入力としてネイティブサポートしつつ、高速な推論を実現しているということで興味を持ちましたので、紹介します。 論文タイトル:「Nemotron 3 Nano Omni: Efficient and OpenMultimodal Intelligence」公開日:2026年4月27日著者・組織: NVIDIA TL;DRNVIDIAがテキスト・画像・動画・音声をネイティブに扱えるオムニモーダルモデル Nemotron 3 Nano Omniを発表MoEバックボーン(30B-A3B)に...
11日前
記事のアイキャッチ画像
Qwen3-ASRを日本語音声で微調整して日本語音声認識能力を向上する
Nishika Tech Blogのフィード
日本語の音声認識の課題Whisperの日本語音声認識は素晴らしいのですが、音としては合っているのに、漢字が違う、文脈的にありえない単語が紛れ込む、固有名詞が崩れるといった問題にしばしば遭遇します。これは、知識量がLLMと比べて圧倒的に足りていないのが一因かなと思います。例えば、Whisperの学習データは68万時間の音声をすべて英語の単語と考えて、テキスト換算するとおよそ80億トークン程度[1]。一方、Qwen3のような最新LLMは兆以上のトークンで学習されています。日本語に限ればこれより圧倒的にすくないので、日本語に関する知識はかなり乏しいと言えます。最近ではQwen3-AS...
12日前
記事のアイキャッチ画像
【Nishika 論文サク読み 第9回】WhisperDiari
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの松田です。Whisperで文字起こしするだけでなく「誰が話したか」まで扱いたいケースが業務でも増えているので、関連する論文をpickしてみました。 論文WhisperDiari: A Whisper-Based Speaker Diarization Framework in Token Space Leveraging Semantic and Speaker Information for Better Text Adaptability 目的複数話者の音声から「誰が・いつ・何を話したか」を推定するSpeaker Diariz...
19日前
記事のアイキャッチ画像
【FastAPI検証】ファイルのアップロードはUploadFileよりStarletteのRequest.stream()のほうが速い
Nishika Tech Blogのフィード
こんにちは。NishikaのAIエンジニアの髙山です。FastAPIで大容量のファイルのアップロード機能を開発に着手しており、どの方式が速いのかを検証しましたので、その内容に共有します。 概要FastAPIの大容量ファイルアップロードAPIにおける、UploadFile(multipart/form-data)方式 vs Startletteの標準機能を使ったRequest.stream()(生ボディ)方式の読み込み速度比較。約3GBのファイルをローカルから読み込み、API受信〜一時ファイル化までの処理時間を計測しました。 やる前の仮説先行のベンチマーク(fastapi-...
21日前
記事のアイキャッチ画像
【Nishika 論文サク読み 第8回】PHOTON: 階層構造で長文脈LLM推論を高速化
Nishika Tech Blogのフィード
こんにちは。NishikaでAIエンジニアとしてインターンをしている渡邊です。今回は、普段業務でも検証で様々なLLMを使っているなかでメモリバウンドの問題にはよく直面していたので、その構造的なボトルネックに切り込んだ論文をpickしてみました。簡単に紹介できればと思います。 論文タイトル: PHOTON: Hierarchical Autoregressive Modeling for Lightspeed and Memory-Efficient Language Generation出典: arXiv:2512.20687組織: 富士通株式会社 / 理研AIPセ...
24日前
記事のアイキャッチ画像
フィラーを消さないASRを探して
Nishika Tech Blogのフィード
こんにちは。NishikaでAIエンジニアとしてインターンをしている渡邊です。Nishika主催のコンペで入賞したのをきっかけにインターン生として参画しました。初めてのインターンなのですが、裁量権がかなりあるように思えます。成果さえあればどこまでもタスクを任せていただけるという点がすごく合っていると感じています。今回は業務の一環として、フィラーを消さないASRを調べるという検証タスクを実行したので簡単に共有できればと思います。 はじめに音声認識で「精度が高い」というのは、一般的には文字起こしの正確さを意味します。しかしある業務文脈では、それだけでは不十分です。コールセンター...
25日前
記事のアイキャッチ画像
【Nishika 論文サク読み 第7回】音声認識と大規模言語モデルの融合
Nishika Tech Blogのフィード
こんにちは。NishikaでAIエンジニアとしてインターンをしている笠原です。Nishika主催のコンペに参加したのをきっかけにインターンに参加しました。R&D関連の業務に従事しており、普通の会社のインターンではあまりできない体験をさせていただいています。その一環として、最近のASR論文を読んだので簡単に共有できればと思います。 論文Speech Recognition Meets Large Language Model: Benchmarking, Models, and Exploration (AAAI 2025)和題:音声認識と大規模言語モデルの融合:ベンチマーク...
1ヶ月前
記事のアイキャッチ画像
【FastAPI新機能】SSEネイティブサポートでAIチャットの処理が楽に書ける
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの髙山です。弊社のAI議事録サービスのSecureMemoCloudでもAIチャット機能が搭載され、タイムリーにFastAPIの新機能でネイティブでSSE(Server Sent Event)をサポートしていたので紹介します。 概要FastAPI 0.135.0 / 2026-03-01SSE(Server-Sent Events)のネイティブサポートが追加された件のまとめ 新機能の内容EventSourceResponse と ServerSentEvent が fastapi.sse として公式に組み込まれ、SSEのネイティブ...
1ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第6回】生成AIによるレコメンドタスクのバイアス補正
Nishika Tech Blogのフィード
こんにちは。Nishika DSの並内です。Nishikaでは企業内へのLLM導入事業を行っています。その中で、汎用的に活用余地があるレコメンドタスクについて理解を深め、実務に活かすため関連論文を調査しました。 論文Large Language Models are Not Stable Recommender Systems (AAAI 2024) 目的LLMを推薦器として使うときには、候補アイテムの提示順で結果が大きく揺らぐ位置バイアスが存在する。これを補正し、レコメンドの安定性と精度を同時に向上させる。 手法論文ではSTELLA (Stable LLM for ...
1ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第5回】Voxtral Realtime
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの李です。 論文タイトル: Voxtral Realtime出典: arXiv:2602.11298v2組織: Mistral AI公開日: 2026年2月21日モデル: HuggingFaceライセンス: Apache 2.0 目的リアルタイム音声認識における課題解決を目的とする:オフラインASRモデル(例:Whisperなど)は双方向自己注意機構に依存し、音声全体の入力を前提とするため、リアルタイム用途には不向きである。オフラインモデルをチャンク分割やスライディングウィンドウによってストリーミング化すると、学習時...
2ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第4回】EmoVoice
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの山口です。voicevox等のパラメータベースのttsを超え、自然言語を使ったttsの研究がないか気になったので調べてみました。 論文EmoVoice: LLM-based Emotional Text-To-Speech Model with Freestyle Text Promptinggithubhuggingfaceリンクプレイグラウンド 目的「嬉しくて仕方がない様子で」「悲しみに明け暮れた後の月曜日の感じで」といったように、自由な形式の自然言語を用いて、細やかで直感的な感情のコントロールをttsで実現したい。...
2ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第3回】Qwen3-ASR
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの渡辺です。 論文Qwen3-ASR Technical Report: Multilingual Speech Recognition and Forced Alignment 目的従来の音声認識モデルが抱える、長時間の音声文字起こし、ノイズ環境や歌声への堅牢性、多言語・方言の広範なカバーなどを解決したい。さらに、実運用で必要とされる字幕生成などのためのタイムスタンプ付与(Forced Alignment)において、言語固有の辞書に依存しない高精度で多言語対応可能な統合的アプローチを提供したい。 手法Qwen3-Omniを基盤...
2ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第2回】話者認識における自己教師あり学習
Nishika Tech Blogのフィード
こんにちは。NishikaのAIエンジニアの髙山です。話者認識の精度をどのようにして上げるか。モデルを学習させるにもデータにラベルを振るのが大変ということで、解決策を示唆する話者認識の自己教師あり学習に関する論文をpickしてみました。 論文Self-Supervised Learning for Speaker Recognition: A study and review 目的SSL(自己教師あり学習)をSpeaker Verification(話者認証)に適用した研究は少なく、どのSSLフレームワークが有効か、各コンポーネントがどう機能するかが不明確だった。本論文はS...
2ヶ月前
記事のアイキャッチ画像
【Nishika 論文サク読み 第1回】Whisper-MLA
Nishika Tech Blogのフィード
こんにちは。Nishika AIエンジニアの松田です。Whisperの省メモリ化が業務でも話題になりがちなので、関連する論文をpickしてみました。 論文WHISPER-MLA: Reducing GPU Memory Consumption of ASR Models Based on MHA2MLA Conversion 目的ASRモデルWhisperはTransformerのMulti-Head Attention (MHA)によりDecoderにおいてKVキャッシュが大量に必要。KVキャッシュはシーケンス長とモデルサイズに比例するため、長い音声などでOOMとなりやす...
2ヶ月前
記事のアイキャッチ画像
ソフトウェアアーキテクチャの学びと実践: Slack連携Text-to-SQLの開発を通じて
Nishika Tech Blogのフィード
こんにちは。Nishikaデータサイエンティストの山口と申します。本記事では、レイヤードアーキテクチャでのSlack Bot開発を通じて感じたソフトウェアアーキテクチャの重要性について共有します。なお、本記事で紹介するBotは以下の記事に記載の反省を元に実装いたしました。https://zenn.dev/team_nishika/articles/34390ef5ad0004 サマリレイヤードアーキテクチャを採用することで、以前作ったETLバッチ処理のような構成から、以下のようにソフトウェアアーキテクチャを整理することができました。上記のように何か特定のソフトウェアア...
7ヶ月前
記事のアイキャッチ画像
地図ヒートマップの表示を爆速にする
Nishika Tech Blogのフィード
こんにちは。Nishikaのデータサイエンティストの髙山です。地図ヒートマップにデータを表示する機能のDB部分の設計・開発を検証した際の知見を紹介します。 tl;drPostgreSQL+PostGIS(拡張機能)が、その他アプリケーション機能の開発においても潰しが一番効きそうです狭い範囲のクエリにはGiST索引、広い範囲のクエリについては集約したマテビューを用意して、緯度経度の範囲に応じてクエリを切り替えるのが吉 はじめに今回開発した機能は以下です。画面ではズームイン・ズームアウトができ、緯度・経度の上限・下限を指定してその矩形の範囲を表示します。ズームインして狭...
8ヶ月前
記事のアイキャッチ画像
AWS Batch開発で直面した3つの課題と実践的な解決アプローチ
Nishika Tech Blogのフィード
本記事では、AWS Batchを使った開発プロジェクトで得られた学びと、効率的な開発環境構築の工夫について共有いたします。初めてAWS Batchを扱う中で直面した技術的な課題を、チームで協力しながら解決した経験をまとめました。なお、顧客プロジェクトに関する内容のため、AWS上の設定など、詳細は省略させていただきます。本記事で扱うトピック:Batch処理およびAWS Batchの概要[学び1] AWS Batch処理の起動トラブルシューティング[学び2] 効率的な開発サイクルの構築[学び3] 保守性の高いコード設計への改善 AWS BatchおよびBatch処理の概...
8ヶ月前
記事のアイキャッチ画像
Flutter×GCP:化粧品分析AIエージェントの開発
Nishika Tech Blogのフィード
こんにちは☀️ Nishikaデータサイエンティストの山口です🦌「この化粧品、自分の肌に合うかな?」「どの商品を選べばいいんだろう?」—多くの人が感じる化粧品選びの悩み。この記事では、AIを活用してその悩みを解決するアプリ開発の取り組みについてご紹介します。ある調査によると、男性化粧品の市場(2024年時点)は2019年比で2倍近くに伸びており、性別に関わらず化粧品の利用が急速に拡大しています。参考:https://prtimes.jp/main/html/rd/p/000000252.000036691.html化粧品はドラッグストアやネットで気軽に購入できる一方で、(私もです...
1年前
記事のアイキャッチ画像
プロンプトのデプロイ後の品質管理:LLM運用を便利にするLangfuseのトレース機能
Nishika Tech Blogのフィード
LLMの出力結果を本番デプロイした後に把握できてますか?LLMを使うと、さまざまなタスクで60点から70点程度の出力をシュッと出力してくれます。しかし、アプリケーションで実施するタスクのテストデータを十分に用意できず、あまり良くないと分かっていながらも、やむを得ず手元で試行錯誤したプロンプトを勢いでデプロイしてしまうことも少なくないのではないでしょうか。それでも、ユーザーの想定外の入力などにも一定レベルの出力ができているかは確認しておきたいですよね。そんなときにLangfuseがとても便利だったので、今回は運用のイメージと共にコアとなるトレース機能を紹介します。https://...
1年前