朝日新聞社 メディア研究開発センター

https://note.com/asahi_ictrad

朝日新聞社の研究開発チーム(通称「M研」)です。このブログでは、社内の技術者たちが、日々のお仕事や研究開発しているテーマ、実験的な「やってみた」記録などを、時に真面目に、時にゆるっと発信していきます。

フィード

記事のアイキャッチ画像
LLMは本当になんでも得意なの?TSUNAの文字数コントロールを検証
朝日新聞社 メディア研究開発センター
朝日新聞社メディア研究開発センター 田森です。ゴールデンウィークがいよいよ始まりますね。メディア研究開発センターも4月には新年度を迎えワチャワチャしていましたが、月末になりようやく落ち着きを見せてきました。ようやく、ようやく、要約。ということで、今回のテックブログは自然言語処理における要約タスクとLLMの最近について書いてみたいと思います。このブログは、NLP2024のワークショップ「生成AI時代の自然言語処理における産学官の役割と課題」で発表するにあたり、調査した内容について書いています。このワークショップでは、LLMの特定のタスクに対する影響について「産」の立場から報告する場をいただきまして、今回は「要約タスク」における影響について報告しました。なお、実験にあたっては以前、弊社・田口が発表した「ChatGPTを活用した見出し作成支援の検証」にならい、利用するモデルを変えて再実験をしたものです。自動要約生成API「TSUNA」続きをみる
3日前
記事のアイキャッチ画像
SAR衛星画像で能登半島地震の被災状況を把握する初めてのトライ
朝日新聞社 メディア研究開発センター
はじめに地震や、台風などの自然災害が発生した時に、一番重要なのは被害状況を迅速に把握することです。それによって、迅速かつ適切な救援や、復旧、生活再建活動を行うことができます。災害地の状況を迅速に把握するために、衛星画像を解析した結果を利用することができます。続きをみる
6日前
記事のアイキャッチ画像
焼酎を飲むのは九州の人ばかり?オープンデータでお酒の消費の地域差を分析!🍶
朝日新聞社 メディア研究開発センター
こんにちは。福岡生まれの石井です。4月で入社3年目になります。最近、焼酎が飲めるようになりました。焼酎はお酒の中でも大人なイメージで、クセも強いかなあと思っていたのですが、友人の勧めで試しにソーダ割で飲んでみたところ、すっかりハマってしまいました。幼少期に、ふざけて祖父の飲む焼酎の匂いを嗅がせてもらっていたから独特な香りへの抵抗がなかったのでしょうか(もちろん当時は飲んでいません)。続きをみる
1ヶ月前
記事のアイキャッチ画像
桜だより〜関西地方の開花推移〜
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センターの河﨑です。春ですね。大都会東京の花粉の多さに慄きながら、日々過ごしています。(私の大好きな故郷大阪よりも花粉が多いそうで、、やってられないです)続きをみる
2ヶ月前
記事のアイキャッチ画像
AWS Inf2によるモデル推論―コンパイルから速度比較まで
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センター(通称M研)の田口です。今回はAWSのInf2インスタンスを使ったモデル推論の方法を紹介します。続きをみる
3ヶ月前
記事のアイキャッチ画像
朝日新聞社技術職(特にM研)への就職をご検討の皆様向けまとめページ(2023-24)
朝日新聞社 メディア研究開発センター
朝日新聞社メディア事業本部メディア研究開発センター(M研)の田森です。このnoteは、少しでも弊社、特にM研への就職にご興味がある方に向けて、最近の活動をまとめたものです。ご参考になれば幸いです。続きをみる
3ヶ月前
記事のアイキャッチ画像
はじめての特許出願【デジタルアーカイブの取り組み】
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センター(M研)の嘉田です。いきなりですが…続きをみる
3ヶ月前
記事のアイキャッチ画像
音声認識のアノテーションを効率的に行うための取り組み
朝日新聞社 メディア研究開発センター
あけましておめでとうございます。メディア研究開発センターの山野です。そういえばイブラヒモビッチに憧れてジャンピングボレーシュートを真似した結果、着地に失敗し靭帯を損傷したこともありました。続きをみる
3ヶ月前
記事のアイキャッチ画像
今日からはじめるAI文芸実践入門:クリスマスとお正月の間の空白をテーマにした音楽をつくる
朝日新聞社 メディア研究開発センター
はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。続きをみる
4ヶ月前
記事のアイキャッチ画像
漢数字を洋数字に変換したいだけなのに
朝日新聞社 メディア研究開発センター
はじめに続きをみる
4ヶ月前
記事のアイキャッチ画像
EMNLP 2023に参加した話
朝日新聞社 メディア研究開発センター
はじめにこんにちは。メディア研究開発センターの川畑です。普段は自然言語処理に関する研究開発業務を行っています。先日シンガポールにて開催された EMNLP 2023 (自然言語処理分野の主要国際会議の一つです) に論文が採択されたので現地参加してきました。今回の記事では現地の様子や面白そうな論文、採択論文の紹介をしていきます。続きをみる
4ヶ月前
記事のアイキャッチ画像
今日からはじめるAI文芸実践入門:AIが「学校の怪談」で繋ぐ平成と令和
朝日新聞社 メディア研究開発センター
はじめにみなさん、こんにちは。メディア研究開発センターの浦川です。私は普段、自然言語処理(書き言葉から話し言葉まで、日常生活で普通にヒトが使う言葉をコンピュータで扱うこと)に関する研究開発に従事しています。これまでに、自動で記事の見出しを生成する「TSUNA」や、短歌を生成する「短歌AI」などに携わってきました。続きをみる
4ヶ月前
記事のアイキャッチ画像
音声合成を使った音声認識のためのデータ作成とその結果
朝日新聞社 メディア研究開発センター
こんにちは、メディア研究開発センターの山野です。最近よく聞くポッドキャストはダブルヒガシさんの「はちくちダブルヒガシ」です。続きをみる
4ヶ月前
記事のアイキャッチ画像
【AI校正】 Typolessを紹介させてください by 開発者
朝日新聞社 メディア研究開発センター
Noteに記事を投稿するのは久方ぶりになりました、M研の倉井です。 なぜ久しぶりになってしまったのか、それは今回お話しする「Typoless」の開発にいそしんでいたからです! … 言い訳ですね笑というわけで今回はM研が開発・公開した 「朝日新聞社の文章校正AI Typoless」 について、どんなことができるのか、また将来的にどんなことができるようになるのか、お伝えできればと思います。 Typoless(タイポレス) 朝日新聞社の文章校正AIAIが文章の修正候補を提示。校正DXにより、業務効率改善、リスクマネジメントに貢献します。typoless.asahi.com 続きをみる
5ヶ月前
記事のアイキャッチ画像
【バズる記事を推論!】非公開データを用いた自然言語処理コンペティション2023
朝日新聞社 メディア研究開発センター
今回の記事では、11/18〜19にかけて開催されたメディア研究開発センター主催「バズる記事を推論」コンペの様子をお届けします。2021年から始めて3回目の今回ですが、自然言語処理コンペでの腕試しや朝日新聞社の技術職に興味のある総勢16名の学部生、大学院生の方達にご参加いただきました。続きをみる
5ヶ月前
記事のアイキャッチ画像
大容量ファイルのアップロードってどうやるの?【署名付きURL×マルチパートアップロード】
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センター(M研)の新美です。最近イベント用のグッズでTシャツを購入しましたが、肝心のイベントのチケットが外れて日の目を浴びられないことが確定したため少しやさぐれております。さて、そんなやさぐれ女が今回ご紹介するのは署名付きURLを用いた大容量ファイルのアップロード方法についてです。私が開発に携わっている社内向け文字起こしサービス「YOLO」では、長時間の録音ファイルや動画ファイルなど大容量のファイルのアップロードが求められるようになってきました。そこで従来採用していたアップロード方法を見直し、より大容量のファイルを高速にアップロードできる手法を検討しました。詳細な実装方法や速度比較の結果について、以下で詳しく解説していきます。YOLOについての詳細は下記の記事をご覧ください。続きをみる
5ヶ月前
記事のアイキャッチ画像
アンケートクイズ作成ツール「QuzillA」
朝日新聞社 メディア研究開発センター
こんにちは、メディア研究開発センターの村瀬です。今回は、私が開発に携わっているアンケートクイズ作成ツール「QuzillA」の紹介をいたします。QuzillA続きをみる
6ヶ月前
記事のアイキャッチ画像
巷にあふれる情報を一括管理したい!
朝日新聞社 メディア研究開発センター
いつもM研テックブログをご覧いただきまして、ありがとうございます。朝日新聞社メディア研究開発センター(M研)の田森です。このテックブログも全体で100号目、私も勤続20年目となりました。弊社でR&D活動を初めてちょうど10年、私にとっては切りのいい数字が並びます。いまではこのテックブログも、弊社のR&Dもいろいろと成果も出てきています。振り返ると、まさに「connecting the dots」の世界だと思っています。続きをみる
7ヶ月前
記事のアイキャッチ画像
【エンジニアは読書すべきか?】新卒エンジニアが1年半で本を37冊読んで学んだこと
朝日新聞社 メディア研究開発センター
はじめにこの記事は、1年半で本を37冊読んだエンジニアが、身をもって知った読書の効果を伝える記事である。後半は私が読んだ本の全リストと学びを掲載した。誰かが本を好きになってくれることを祈って。続きをみる
7ヶ月前
記事のアイキャッチ画像
野球選手写真の自動選別プロセス
朝日新聞社 メディア研究開発センター
はじめに続きをみる
8ヶ月前
記事のアイキャッチ画像
街にもクマは現れる!宮城県「アーバン・ベア」の出没地点を可視化しました
朝日新聞社 メディア研究開発センター
はじめに続きをみる
9ヶ月前
記事のアイキャッチ画像
最近公開された日本語LLMを要約生成タスクで検証してみる
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センター(M研)の田口です。最近、大規模言語モデル(以下、LLM)に関するニュースが毎日のように出ています。直近約1ヶ月の間にもOpenAIのAPIのアップデートが発表されたり、日本語のLLMが公開されたりしました。少し前(といっても4月末)に「ChatGPT/OpenAI API/LLM活用事例~NewsPicksと朝日新聞の合同勉強会を公開」でLTをしました。このときはChatGPTの見出し生成の簡単な性能検証をしただけなので、この記事では最近公開されたLLMモデルの検証をしてみました。※この記事では社内データでなく公開データされているデータセットで実験していますLTの資料はこちらになります。続きをみる
10ヶ月前
記事のアイキャッチ画像
ジオコーディングツールは難しい住所をどこまで解析できるのか
朝日新聞社 メディア研究開発センター
おはようございます。メディア研究開発センターの新妻です。つい先日、日本の住所を扱うことの難しさがインターネットで話題になってましたね。日本の住所は、県、市区町村、町名、字、番地…と書き方のルールが一見存在しているように見えて、ルールをはみ出るような例外が非常に多く、ルールで処理するのが比較的難しいという問題があります。(※日本の住所以外はルールに基づいているからこう言っているのではなく、筆者は日本の住所しか知らないだけです。)続きをみる
10ヶ月前
記事のアイキャッチ画像
【AWS】Lambda Powertoolsを布教したい!
朝日新聞社 メディア研究開発センター
こんにちは。メディア研究開発センター(M研)の嘉田です。最近は専らAWS(とダイエット)のことばかり考えています。早速ですが、みなさんはAWS Lambdaを使っていますか?私が開発に携わっている社内向け文字起こしサービス「YOLO」では、EC2中心のレガシーなアーキテクチャーから、LambdaやFargateを活用したサーバレスアーキテクチャへと徐々に移行しています。YOLOについては下記の記事をご覧いただければと思います。続きをみる
1年前
記事のアイキャッチ画像
記者に特化した音声認識モデル(Whisper)を作った話
朝日新聞社 メディア研究開発センター
こんにちは、メディア研究開発センターの山野陽祐です。先日、朝日新聞の記者に特化したWhisper (音声認識モデル)を構築し、3月末から社内向けツール「YOLO」にて運用を開始しました。それに至るまでの道のりをこちらの記事でご紹介します。なお、学習データとして活用するファイルは、社内会議や公の記者会見とし、個人情報やセンシティブな情報が含まれるファイルは使用しておりません。データ続きをみる
1年前