一種基于語義向量的文檔標(biāo)記方法、裝置及介質(zhì)
2021-11-02
本申請?zhí)峁┝艘环N基于語義向量的文檔標(biāo)記方法、裝置及介質(zhì),該方法包括以下步驟:獲取第一文檔、多個(gè)第二文檔以及多個(gè)第二文檔向量;將第一文檔的內(nèi)容向量化,得到第一文檔向量;根據(jù)第一文檔向量和多個(gè)第二文檔向量,計(jì)算第一文檔和每個(gè)第二文檔的內(nèi)容相似度,第一次篩選出預(yù)設(shè)數(shù)量個(gè)內(nèi)容相似度最高的第二文檔;根據(jù)第一文檔和第一次篩選出的每個(gè)第二文檔的標(biāo)題相似度,第二次篩選出標(biāo)題相似度大于或等于第一預(yù)設(shè)值的第二文檔;根據(jù)第二次篩選出的第二文檔的類別標(biāo)簽,為所述的第一文檔標(biāo)記類別標(biāo)簽,通過內(nèi)容和標(biāo)題的雙重篩選,提高了找出的第二文檔的準(zhǔn)確度。
一種基于語義向量的文檔標(biāo)記方法,其特征在于,包括以下步驟:獲取第一文檔、多個(gè)第二文檔以及多個(gè)第二文檔向量;所述的第一文檔為企業(yè)新產(chǎn)生的文檔,所述的第二文檔為預(yù)先保存的用于記錄企業(yè)信息的文檔,所述的第二文檔向量為預(yù)先保存的由第二文檔的內(nèi)容向量化得到的文檔向量;將第一文檔的內(nèi)容向量化,得到第一文檔向量;根據(jù)第一文檔向量和多個(gè)第二文檔向量,計(jì)算第一文檔和每個(gè)第二文檔的內(nèi)容相似度;進(jìn)行第一次篩選,以選出預(yù)設(shè)數(shù)量個(gè)內(nèi)容相似度最高的第二文檔;根據(jù)第一文檔的標(biāo)題和所述第一次篩選出的第二文檔的標(biāo)題,計(jì)算第一文檔和第一次篩選出的每個(gè)第二文檔的標(biāo)題相似度;從第一次篩選出的第二文檔中,進(jìn)行第二次篩選,以選出標(biāo)題相似度大于或等于第一預(yù)設(shè)值的第二文檔;根據(jù)第二次篩選出的第二文檔的類別標(biāo)簽,為所述的第一文檔標(biāo)記類別標(biāo)簽。
申請?zhí)枺篊N202110588633.9
申請(專利權(quán))人:北京明略軟件系統(tǒng)有限公司
公開日期(公開):2021.08.13
公開日期(授權(quán)):2021.11.02
信息填寫