目次
- 1. エグゼクティブサマリー
- 2. 設立の背景とOurResearch
- 3. データの全体像
- 4. API設計と2026年の大幅刷新 🔒
- 5. 日本の研究情報におけるOpenAlexの課題 🔒
- 6. 企業と研究者の接点を構築するAPIとしての可能性 🔒
- 7. 技術アーキテクチャ概要 🔒
- 8. まとめと展望 🔒
- 参考リンク
1. エグゼクティブサマリー
OpenAlex は、米国の非営利団体 OurResearch が開発・運営する、世界最大級のオープンな学術情報データベースです。2021年末に更新停止された Microsoft Academic Graph(MAG)の後継として2022年1月に運用開始され、現在 4億8,000万件以上 の学術成果を収録しています。
2026年2月には、セマンティック検索、全文PDFダウンロード、使用量ベースの新料金体系など 大幅なAPI刷新 が発表されました。データ自体はCC0ライセンスで完全無料のまま維持されつつ、APIサービスに対して従量課金が導入されたことで、持続可能な運営モデルへの移行が明確になっています。
本レポートでは、技術者・研究マネジメント層に向けて、以下を整理します。
- OpenAlexの全体像と設立背景
- API設計と2026年の料金体系
- 日本の研究情報における課題
- 企業と研究者の接点を構築するインフラとしての活用可能性
2. 設立の背景とOurResearch
2.1 OurResearchの沿革
OurResearch(旧 Impactstory)は、2012年に Heather Piwowar 氏と Jason Priem 氏によって設立された非営利法人です。オルトメトリクスなど多様な研究インパクト指標に関する先駆的研究を社会実装する形で活動が開始されました。
主な転機:
| 年 | 出来事 |
|---|---|
| 2012 | Impactstory 設立。研究インパクト可視化プラットフォーム提供開始 |
| 2017 | Unpaywall リリース。OA版を自動検出するブラウザ拡張機能として大きな反響 |
| 2019 | 法人名を OurResearch に改称。研究ライフサイクル全体の支援へ方向転換 |
| 2022 | OpenAlex 運用開始 |
| 2024 | Arcadia から $7.5M、Navigation Fund から $688K の助成を獲得 |
| 2025 | Advisory Board 設置。Wellcome から $3.5M の助成金(ファンディングメタデータ統合) |
| 2026 | API刷新・使用量ベース料金導入。ARR $800K 目標を3ヶ月前倒しで達成 |
2.2 OpenAlex誕生の経緯
2021年5月、Microsoft が MAG の年末での更新停止を発表。OurResearch は翌月に後継構想を公開し、Arcadia Fund の助成を受けて開発を推進しました。
「OpenAlex」の名称は 「Open」+「アレクサンドリア図書館」 に由来します。古代の図書館が最初の目録「ピナケス」により普遍的コレクション構築を目指したのと同様に、OpenAlexはオープンな形式で全世界の学術情報の包括的インデックスを構築することを目指しています。
2.3 資金とガバナンス
OpenAlexは商業的利益を目的としない非営利プロジェクトです。Arcadia、Wellcome、Navigation Fundなどの助成金に加え、有料サブスクリプション(Member / Member+ / Partner)による年間経常収益(ARR)で持続可能な運営を目指しています。2025年に設置されたAdvisory Boardにより、利用者の意見反映と運営の透明性が強化されています。
3. データの全体像
3.1 エンティティ構造
OpenAlexは以下のエンティティを中核とする ヘテロジニアス有向グラフ(knowledge graph) として設計されています。
| エンティティ | 規模(概算) | 説明 |
|---|---|---|
| Works | 4.8億件以上 | 論文・書籍・データセット・プレプリント等の学術成果 |
| Authors | 約1,300万件 | 著者エンティティ(機械学習による名寄せ済み) |
| Sources | 約124,000件 | ジャーナル・リポジトリ等の出版媒体 |
| Institutions | 約109,000件 | 大学・研究機関(ROR IDと紐付け) |
| Topics | 約65,000件 | 研究トピック(深層学習モデルで自動分類) |
| Funders | — | 研究助成機関 |
| Publishers | — | 出版者 |
3.2 主要データソースとキュレーション
データソース: 主要ソースは Crossref であり、2024年以降の出版物では 約96% が Crossref 由来です。PubMed や DataCite も信頼できるソースとして扱われ、Crossref DOI が付与されていない成果についても新規レコードが作成されます。
機械学習キュレーション:
- 分野・トピック分類: タイトル・抄録・雑誌名・引用を入力とした深層学習モデル
- 機関名寄せ: 所属テキストと ROR(Research Organization Registry)の紐付け
- 著者名寄せ: 機関情報も活用した著者ディスアンビギュエーション
これらの手法はすべてオープンソースで公開されています。
オープンアクセス判定: DOAJ や機関リポジトリ等のデータに基づき、各成果のOA種別(ダイヤモンド、ゴールド、ハイブリッド、ブロンズ、グリーン、クローズド)を判定・提供しています。