全站搜尋

contextual mark

文本標記

paragraph compare

相近段落比對

authority static

權威詞統計

Data Visualization

資訊視覺化

關於數位人文研究平台

中央研究院數位文化中心根據人文研究的需求,發展協助學者提升研究質量的數位化工具與平台。期望結合研究者、研究資料與研究工具之綜效,擴大研究的規模及縮短研究的時間,以提升人文研究的質量。 數位人文研究平台提供一個完整的研究環境,讓研究者可以透過雲端服務取得研究中所需的資料與工具。研究者可上傳文本與權威詞,也可使用平台中其他開放的文本與權威詞來進行研究。權威詞具有手動與自動標記文本的功能,並可以使用階層方式分類權威詞。標記文本完成後,可進行權威詞與N字詞詞頻統計、共現詞關聯分析,再以統計圖表、文字雲、社會網絡分析圖、地圖等資料視覺化方式呈現。此外,平台提供相似內容比對、正規表示式查詢、多詞間距查詢與統計篩選功能,讓研究者可以容易地進行考據。

  • 資料彙整:彙整與介接中研院史語所漢籍的文本(約2.6億字)、日本京都大學的漢籍文本Kanripo (約13億字)、美國哈佛大學的中國哲學書電子化計劃Ctext (約51億字)與地名、朝代名、人名等開放權威檔,提供研究者基礎的研究素材。
  • 共同編輯:提供多人可共同編輯文本、權威檔、標記內容及群組管理功能,讓研究者可依不同的研究主題,形成不同的研究社群。
  • 內容搜尋:提供文本結構與內容瀏覽、布林邏輯查詢、多詞間距查詢與查詢結果統計篩選、相似文本比對功能,讓研究者可以快速找出關鍵詞的分布及過濾查詢結果。
  • 資料分析:提供跨文本的權威詞、N字詞詞頻、詞頻變化量統計及共現詞關聯分析,讓研究者可以從大量資料中快速找資料中的脈絡關係。
  • 視覺化:提供圓餅圖、折線圖、文字雲、社會網絡分析圖、地理資訊系統等工具,以圖形方式呈現文本分析之結果,讓研究者可以更直覺地俯視資料中隱含的現象。
  • 數位人文研究平台主要功能:

    1. 上傳個人的文本與權威檔,亦可匯入其他系統的資料 (漢籍電子文獻資料庫)
    2. 加入平台中其他人開放的資料,或將自己的資料開放分享
    3. 統計與分析結果下載
    4. 彈性與複雜的查詢 (正規表示式查詢、多詞間距查詢等)
    5. 比對相似文本
    6. 詞頻統計 (權威詞、N Gram)
    7. 關聯詞共現統計
    8. 資料視覺化 (直方圖、網絡圖等)
    9. 時空整合呈現 (GIS)


    此外,我們也持續發展數位人文研究的相關工具與技術,包含鏈結開放資料(Linked Open Data, LOD)、國際圖像互操作架構 (International Image Interoperability Framework, IIIF)、中文古籍圖像文字辨識技術 (Optical Character Recognition, OCR)、命名實體識別技術(Named Entity Recognition),待技術與工具發展成熟後,我們將開放工具與服務供研究者使用。

    最新消息

    2018.10.27 上線公告 數位人文研究平台正式上線! 2018.10.05 講座公告 醫學史研究的新工具:中研院「數位人文研究平台」簡介 2018.09.26 上線公告 中央研究院「數位典藏與數位人文學研究計畫」107年度成果專刊 2018.06.21 活動新聞 哈佛大學首辦中國歷史研究網絡基礎設施國際研討會「數位人文研究平台」首度公開亮相 2018.06.01 講座公告 如何在詞語的密林中分類萬物?——文本標註與關鍵字庫之管理與應用的數位人文學工作坊