可持续性
医疗保健可持续性中的知识管理:中医文化中的智能健康饮食助手
1. 引言
联合国的第三项可持续发展目标是:“确保健康的生活方式,促进各年龄段人群的福祉” [1]。
健康饮食可以帮助人们降低死亡率和患病风险 [2]。例如,新鲜水果和蔬菜有助于预防慢性疾病,包括心血管疾病 [3]、肥胖和2型糖尿病等代谢性疾病 [4],以及某些类型的癌症 [5,6]。高盐高脂的国民饮食习惯不仅会导致癌症和心血管疾病等个体慢性疾病,还会增加直接医疗成本以及整个社会的间接成本 [7],这对医疗保健和国家可持续性构成了挑战。同时,过量的肉类产品消费也对环境可持续性造成压力。素食与肉食饮食之间的比较已显示出巨大差异。
以肉类为主的饮食所消耗的水资源几乎是无肉饮食的三倍,化肥使用量是十三倍,农药使用量是1.4倍[8]。动物性食物产生的温室气体排放也高于植物性食物[8]。
在中国,随着收入的增加(1978年至 2012[9]年间人均国内生产总值(GDP)年均增长8.5%),中国饮食的结构发生了巨大变化:中国人均蛋白质摄入量从1980年的54克增至2009年的94克,几乎翻倍;脂肪摄入量从1980年的34克增至 2009[10]年的96克,几乎增加了两倍。这些增长中的大部分来源于动物产品消费的上升[10]。此外,中国总体的人均热量消耗水平已远高于全球平均水平[10]。
由于饮食和生活方式的变化,中国的疾病类型已从传染病和营养不良转变为与高血压、冠心病、中风及某些癌症相关[11]的疾病。
一个国家的可持续发展与国民健康密切相关[12]。研究表明,通过降低发病率和死亡率,可增加劳动力,从而实现国民经济的增长[13]。然而,一项研究预测,在中国,到2025年,体力活动、肥胖和与饮食相关的非传染性疾病的经济成本将占据主导地位,而饮食是导致这些成本的主要因素[11]。
经济分析显示,超重和肥胖导致成本大幅上升,包括住院、门诊就诊、药品等直接医疗成本,以及间接社会成本,其中病假是重要因素[7]。在中国,由超重和肥胖引起的成本将从2000年的约490亿美元上升至2025[7]。此外,在发展中国家,医疗保健消费者对医疗成本的敏感度也需要关注。武等人[14]评估了越南医疗保健消费者对支付定期常规健康检查费用的敏感度。结果显示,当控制人口统计学和社会经济认知变量后,大多数受访者对于支付等于或高于90美元的健康服务费用表现出极大的不情愿。
这篇论文在第3.1节中对1059人进行的调查发现,大多数中国人希望从专家那里获得健康饮食建议,但其中72.14%的人由于经济制约而无法实现,这阻碍了他们获取健康饮食知识和相关医疗服务。
此外,国家饮食结构变化引发的经济和社会问题,环境可持续性也已成为中国关注的问题。中国由于收入增长而从植物性食物向动物性食物转变的饮食转变,可能会对环境和农业资源施加相当大的压力[10]。中国政策制定者对中国粮食自给自足表示担忧,特别是因为中国的人均农业用地和水资源相对匮乏[10]。
在医疗保健领域,对于正处于国家饮食结构变化的发展中国家,尤其是中国,需要寻找鼓励民众保持传统健康饮食模式的方法,这将对医疗保健、环境和经济的可持续性带来协同效益[2]。教育水平的提高与均衡饮食之间存在正相关关系[2]。两项研究表明,社区健康生活方式和健康饮食教育在国家健康促进中对预防中风具有积极作用[15,16]。同时,信息共享也是医生与患者之间有效互动和共同创造的关键[17]。幸运的是,在现代,互联网的快速发展创建了一个全球知识搜索、学习和分享平台。
因此,如何通过互联网实现健康饮食教育和知识普及,是医疗保健领域一个值得探讨的问题。然而,互联网上的健康饮食信息正迅速增长,并分布在多个来源,给信息使用者带来了搜索压力。用户通过互联网数据了解健康饮食既耗时又繁琐:他们需要在多个平台搜索数据,选择并整合信息,然后理解所学内容。这篇论文的目的是通过中国饮食文化、中医(TCM)、西医和营养等多个来源,为人们提供健康饮食知识。
关于促进2030年可持续发展议程中健康的上海宣言提出,应通过在所有可持续发展目标(SDGs)方面的行动来促进健康[18]。该宣言优先强调良好治理、通过城市和社区开展地方行动,以及通过提升健康素养实现人民赋权。同时高度重视创新与发展,以支持人们享有健康生活,并优先关注最脆弱人群的健康。为实现这些目标,提出了一些促进健康的政策选择,包括“通过挖掘数字技术的潜力,增强公民对其自身健康及其决定因素的控制能力”以及“重视传统医学日益增长的重要性和价值,传统医学有助于改善健康成果,包括实现可持续发展目标(SDGs)中的成果”。在《上海宣言》的指导下,本研究将中医药文化纳入知识图谱,以提升人们的饮食知识。中国的传统饮食文化主要源于中医的养生概念,历史悠久,可追溯至公元前3500年的商朝[19]。食疗是通过食用有效食物来治疗和预防疾病的方法,是中医养生的重要组成部分。在现代,中医与现代医学治疗相结合,为疾病治疗新方法的发展提供了广阔前景[20,21]。
中医的阴阳理论应当被介绍。从中医的角度来看,阴阳是对立的,分别代表寒与热。所有个人体质、疾病、食物和药物都可以分为两类:寒和热[22]。虽然个人体质不会直接导致疾病,但它可能使人们更容易患上某些疾病。因此,中医食疗主张利用食物的属性来对抗疾病[22]。近年来,有两项研究推测中医的寒热与现代西医中的氧化与抗氧化概念相关[23,24]。因此,从这一角度来看,中医的作用可以被视为维持和重建人体内寒(阴)与热(阳)之间的平衡。通常情况下,医生通过望、闻、问、切来判断一个人的身体是寒还是热。观察舌象是诊断的另一种重要方式[22,25,26]。养生食谱也包含在中医之中。例如,姜茶有助于缓解感冒症状,这源于中医,并记载于《圣济总录(宋代)》[19]。
这篇论文建立了一个知识管理模型,能够从网络中的多个来源半自动地提取数据,并将其整合到知识图谱中,从而基于知识提供统一管理和查询。本文中的知识图谱包含五个主要概念:食材、菜肴、营养元素、症状和人群,这些概念通过关系相互连接。此外,该知识图谱中还包含一些中医知识,包括养生食谱和食物的寒热属性。最后,基于该知识图谱实现了一个语义检索应用,旨在帮助没有相关领域背景的用户高效且全面地检索和分析健康饮食知识。同时,该系统可以根据用户的舌象分类[12]自动分类其体质类型,并提供个性化食物推荐。在评价中,90名实验者使用了该原型系统30天,并对其在问卷中的反馈进行了分析。初步结果表明,他们能够更快、更全面地检索和学习健康饮食知识,并减少垃圾食品的摄入,证明这项工作对用户的搜索和学习具有积极影响。
这篇论文的贡献如下:首先,本工作设计的知识管理模型能够整合分散的数据,并基于知识图谱中的结构化数据提供统一的存储、管理和查询服务,从而减少用户在检索和学习全面知识时的时间成本。其次,这项工作探索了多个概念之间的关系。关系网络能够从更多维度为用户提供健康知识。最后,将中国饮食文化和中医知识添加到知识图谱中,以基于中医理论提供饮食指导。通过利用新技术为人们提供集成化和结构化的健康饮食知识,本研究有助于国家健康饮食知识教育与推广。在国家饮食结构发生巨大变化的背景下,此项工作的重要意义在于提醒人们关注传统饮食,减少高盐高脂饮食,实现从被动治疗向主动疾病预防的转变。它有助于减轻不健康饮食对医疗保健、经济和环境带来的负面影响,促进医疗保健发展和国家可持续发展。
2. 研究现状
近年来,许多研究聚焦于通过互联网和新兴技术进行健康知识普及和行为促进。一项工作开发了一款名为DietApp的移动应用程序,可根据年龄、临床病史和身体状况提供建议,帮助用户实现健康饮食[27]。该应用已为iOS和安卓系统开发,通过包含七个简单问题的调查,从用户层面对其有用性和易用性等方面进行了评估。另一项工作提出了SousChef,这是一种移动膳食推荐系统,旨在为老年人提供营养助手,帮助他们在食物管理和健康饮食习惯方面做出明智决策[28]。该系统根据用户提供的信息(即个人偏好、活动水平和人体测量数据)生成个性化营养计划。另一个称为DIETOS的系统旨在为用户提供健康档案和个体化营养建议[29]。健康档案的建立基于用户对动态实时医疗问卷的回答。此外,DIETOS包含了来自意大利南部地区卡拉布里亚的典型食物目录。
健康的饮食系统在设计中还可纳入游戏化、社交网络以及专家或教师干预机制,以帮助用户坚持健康饮食。有一项工作是名为HAPPY ME的移动平台系统,该系统让家长和教师参与进来,为参与的儿童提供监测和鼓励性环境[30]。该平台作为教师的数据仓库,使其能够跟踪学生的饮食行为、屏幕使用时间和人体测量参数。另一项工作提供了由专家设计的特定定制化活动,以满足用户的能力需求[31]。该计划可被修改并重新分配。系统会发送及时通知以提醒用户。用户可以自行决定遵循活动的量,或跳过该计划。该应用程序提供社交功能,用户可在活动中添加朋友并与其互动。
这些研究侧重于健康饮食推荐功能和健康行为促进的干预设计,而非数据模式设计或健康知识管理与表示。人们仍然缺乏关于健康饮食的全面知识,特别是食物与其他概念之间的关系。例如,当身体出现某些不适时,用户不知道应选择或避免哪些食物。他们也不清楚哪些食物适合自己体质、职业和生活条件。同时,需要整合来自多个来源的信息和知识来回答用户的问题,例如:芹菜对高血压患者有益吗?哪些水果适合孕妇?哪种食物适合夏季并能缓解暑热?这类知识涉及营养、医疗保健、中医(TCM)等多个领域,以及食物类型、用户群体、季节、地域等多个方面,而这些信息通常分布在多个数据源上。在大数据时代,为了找到一个问题的全部答案,用户往往需要更换搜索关键词并在不同平台进行搜索,耗费大量精力和时间。
在医学和食物领域存在一些知识库和本体,可为用户提供复杂知识,例如统一医学语言系统(UMLS)[32]、临床本体系统如医学系统化命名法–临床术语(SNOMED‐CT)[33]以及药物诸如DrugBank之类的数据库[34]。然而,这些知识库是专业的医学术语数据库,其主要目标是为医务人员提供知识,并促进生物医学信息系统和服务的标准化与互操作性[35]。因此,非专业人员很难利用它们进行学习。此外,还存在面向用户的知识图谱,用于向用户推荐和检索食谱。一项工作提出了一种基于语义技术的架构,以支持对人们行为的监测,并劝导他们遵循健康的生活方式[36]。该工作通过结合用户生成的数据和基于本体的领域知识,对所有相关信息进行建模并实现推理活动。
另一项工作整合了食物、健康、文化、宗教、营养等多个领域的本体,构建了一个数据库,实现了个性化食物检索[37]。最后,参考文献[38]设计了一个基于本体的移动安全食品消费系统(FoodWiki)。该系统旨在根据食物消费者的健康状况或不耐受情况,判断所选食物是否合适。其知识库包含4个主要类、58个子类、15个对象类型属性、17个子对象类型属性、12个数据类型属性、1530个带有注释类型属性的个体以及210条语义规则。其根类“Thing”包含四个主要类:“疾病”、“人”、“成分”和“产品”。
本文与之前的研究之间的差异和优势如下。首先,这项工作不基于本体融合或数据库集成,而是强调从各种互联网数据源中提取和整合知识,这些数据源包括结构化数据、半结构化数据和非结构化数据。在这项工作中,知识图谱中一半的实体和关系是从自然语言句子中提取的。此外,大多数知识库基于英语或其他非中文语言及饮食文化。这项工作将中国饮食文化和中医理论添加到知识图谱中,旨在提醒和教育中国人这些传统的平衡膳食习惯,并可作为控制人群中高脂饮食消费急剧上升的辅助工具。
3. 材料与方法
3.1. 中国人健康饮食意识、知识与行为背景
在研究初期,本工作通过互联网开展了一项问卷调查,以获取中国人群的饮食健康状况,该调查为知识图谱构建提供了依据。共设计了20个问题,涵盖中国人的饮食健康意识、知识和行为,以及他们对中医的认知和治疗史及中医的影响。总共收集到1059份回复,受访者覆盖中国31个省级行政区,年龄范围为15至65岁。
根据对结果的分析得出了若干结论:
1. 中国人对饮食健康有较好的意识。问卷结果显示,47.4%的受访者每次进食时几乎都会考虑健康问题,50.14%的受访者有时会考虑健康问题;92.45%的受访者主动学习饮食健康知识;79.41%的受访者希望获得专家提供的健康饮食建议;但72.14%的受访者由于经济制约而无法实现这一需求。
2. 中医对中国人有深远影响:81.02%的受访者信任中医理论;76.2%接受过中医治疗;73.28%表示中医治疗改善了他们的健康状况。特别是,72.8%的人表示中医和中国文化影响了他们的饮食。
3. 尽管中国人对饮食健康有较好的认知,但大多数人对饮食健康知识仍存在片面理解:79.13%的受访者仅了解饮食健康的简单常识;仅有39.06%的人能够保证营养平衡;仅有34.33%的人知道如何根据天气、环境和不适症状的变化进行饮食调整。
本研究还关注了人们在获取健康饮食所需知识过程中遇到的障碍,以及无法坚持健康饮食的原因。如图1所示,人们在获取相关知识过程中遇到的三大障碍是:工作繁忙、不愿花费时间和精力学习(59.11%);不知道如何以及从哪里获取知识(51.56%);以及无法坚持健康饮食,因此不想学习相关知识(42.87%)。人们无法坚持健康饮食的主要原因有三点:垃圾食品的吸引力(60.62%)、现代社会工作压力(59.77%)以及缺乏选择食物的知识(47.21%)。
问卷调查的结果为知识图谱设计提供了指导。首先,人们缺乏饮食与健康方面的知识(例如,他们不知道如何平衡营养元素,或在身体不适时如何调整饮食)。因此,应设计一个包含食物、症状、人群群体和营养元素等多个概念的食物‐症状知识图谱模型,以向用户提供多概念语义查询。由于中医对中国健康饮食具有独特影响,该知识图谱应包含中医和中国文化的相关知识。此外,在现代,许多人没有时间关注健康饮食;与此同时,从互联网上的海量信息中进行检索和选择浪费了他们宝贵的时间。这篇论文设计的知识图谱整合了不同数据源的数据,为用户提供统一管理与检索,从而最大化知识搜索效率。
3.2. 数据模式设计
知识图谱是由“实体–关系–实体”三元组构成的结构化知识库,能够描述现实世界中的实体和关系[39]。每个实体都是某一概念的实例(例如,“头痛”可以被视为“症状”这一概念的一个实体)。
在本研究中,定义了一些重要的概念和关系。本工作包含五个与食物和健康密切相关的重要概念:食材、菜肴、营养元素、症状和人群。“食材”可视为制作菜肴的原材料,如鸡肉、胡萝卜和黄瓜;而“菜肴”则指由多种食材组合而成的食物,如宫保鸡丁、牛肉汤和番茄炒蛋。“营养元素”包括碳水化合物、钙等。“症状”指常见的身体不适,如头晕、胃痛等。这篇论文中的症状还包括一些常见疾病,如高血压。“人群”表示易患相同疾病和症状的一类人,可根据状态、年龄和中医体质进行分类,如孕妇、老年人、阳虚等。除了这些概念外,还定义了多种关系以连接它们。知识图谱的数据模式如图2所示。
图2显示,该概念被设计为一种层次结构,且在两个层级之间通过一种继承关系“是_一种”进行连接。这种设计的优势在于子代概念可以继承父代概念的所有关系和属性,便于数据维护和推理。为了向用户提供更具体和丰富的知识,“食材”和“菜肴”这两个概念进一步分类为子概念。对于食材分类,这篇论文采用了《中国食物成分表》[40]中的食物分类系统,这是中国最权威的食物成分统计书籍之一。菜肴分类则根据中国饮食习惯,包括主食、菜肴、饮料和小吃。
在本研究中,每个概念都定义了许多属性,例如,“食材”概念具有食物名称、别名、简介、味道、功效等属性。“菜肴”具有名称、制作方法等。其中一些属性为中医知识。此外,该知识图谱可以扩展,意味着未来可以添加和维护更多的概念、关系和属性。例如,“地理位置”和“天气”的概念也可以与“症状”和“食材”相关联。
这项工作的数据模式结构基于本体模型。本体是对某个领域概念化的明确表示。这篇论文使用网络本体语言 (OWL) 实现本体,OWL 是一种基于描述逻辑的形式化语言,并提供形式化的模型论语义 [41]。在数据模式的设计方面,这篇论文参考了文献 [38],该文献设计了一个基于本体的移动安全食品消费系统,其根类“Thing”包含四个主要类:“Diseases”、“Person”、“Ingredients” 和“Product”。根据中国饮食习惯、中医和中国食物成分表,[40],这篇论文基于OWL的语义设计了适用于自身需求的概念、关系和属性。本工作使用一个名为Protégé的本体开发平台来构建本体[42]。
3.3. 知识图谱构建
上一节介绍了本文定义的数据模式。本节将简要描述根据所定义的数据模式进行知识图谱构建的过程,即如何从网络数据源中提取实体、关系和属性值,并将其映射到数据模式,以及在导入数据库之前如何合并表示相同实体的数据。
图3展示了以持续扩展和更新方式构建知识图谱的过程。首先,在数据采集阶段,从网络数据源获取了文本数据。本工作从四个资源获取数据:《中国食物成分表》[40]和三个中文健康网站,这些资源包含了大量关于中国传统食品及相关症状和疾病的信息。然后,利用中文自然语言处理(NLP)技术和条件随机场(CRF)算法,从获取的文本数据中提取实体字符串。接着使用机器学习文本分类技术,将提取出的实体分类到已定义的数据模式中的相应概念。本工作还使用机器学习算法来提取并分类两个实体之间的关系。为比较分类的精确率和召回率分数,采用了四种算法,包括支持向量机(SVM)、朴素贝叶斯(NB)、长短期记忆(LSTM)和K近邻(KNN)。最后,在将这些新实体和关系添加到知识库之前进行了数据融合。
在数据融合步骤中,由于实体是从四个不同的数据源中提取的,因此相同的实体在映射到概念之前应进行合并。即使它们的字符串相同,它们可能是不同的实体。例如,“apple”可能代表一种需要被食用的食物,也可能指苹果公司。同样,字符串不同的实体也可能是相同的——例如,许多食物有别名。
知识图谱中的所有实体都维护名称、别名以及与其他相似实体的链接,以便用户能够基于它们进行语义检索。这篇论文中,通过机器学习算法自动实现文本相似度计算,以完成相同实体的融合,同时进行了部分人工筛选和校对以确保质量。最终,数据融合后的新实体和关系可以被添加到知识图谱中。
表 1展示了一些概念和关系抽取的示例。第一列表示数据源中食物主题的描述,第二列表示从文本数据中抽取的实体,并将其映射到数据模式中的相应概念。例如,从文本数据“蜂蜜对胃肠功能有调节作用,可使胃酸分泌正常,增强肠蠕动,防止便秘”中抽取出“蜂蜜”和“便秘”两个实体,然后将它们链接到数据模式中的概念:“蜂蜜”链接到“蜂蜜”概念(“食材”的子概念),“便秘”链接到“症状”概念。第三列表示在两个实体之间抽取的关系以及由两个实体及其关系形成的三元组。此实例中的三元组为“蜂蜜–适合–便秘”。一个三元组可以表示一对概念之间的关系,知识图谱可被视为由三元组构成的网络。
| 网络资源 | 概念抽取 | 提取的关系 |
|---|---|---|
| 蜂蜜对⋯⋯具有调节作用 胃肠功能, 这会促进胃酸分泌 正常,增强肠蠕动, 并预防便秘” | (蜂蜜 -> 蜂蜜/糖_保存_和_蜂蜜/ 食物_材料/食物) (便秘 ->症状) | (蜂蜜–对_便秘有好处) |
| 芹菜是辅助治疗的首选 高血压的治疗及其 并发症。它还具有辅助作用 血管疾病患者的治疗 硬化和神经衰弱” | (芹菜 ->茎_叶_和_开花_蔬菜/ 蔬菜_和_蔬菜_产品/ 食物_原料/食物) (高血压 ->症状) (血管_硬化 ->症状) (神经衰弱 ->症状) | (芹菜–对高血压有好处_) (芹菜–对血管硬化有益_for–vascular_sclerosis) (芹菜–对神经衰弱有好处_) |
| 猪肝含有大量的维生素A 和蛋白质,可以滋养 肝脏。对 视力下降和夜盲有良好的疗效。 但是猪肝胆固醇含量较高, 高血压和 肥胖的人应少吃。 | (猪_肝 ->肉_和_肉_制品/ 食物_原料/食物) (维生素_A ->营养_元素) (蛋白质 ->营养_元素) (胆固醇 ->营养_元素) (视力_下降 ->症状) (夜_盲症 ->症状) (高血压 ->症状) (肥胖 ->人群) | (猪_肝脏–含有–维生素_A) (猪_肝脏–含有–蛋白质) (猪_肝脏–含有–胆固醇) (猪肉_肝脏–对_视力_下降有益) (猪肉_肝脏–对_夜盲症有益) (猪肉_肝脏–对_高血压有害) (猪肉_肝脏–对_肥胖有害) |
本文中用于关系分类的双向LSTM(BiLSTM)的详细介绍见图4。循环神经网络(RNNs)和长短期记忆网络(LSTM)广泛应用于自然语言处理(NLP)问题,因为它们适用于时间序列数据,而自然语言中的每个句子都可以看作是由字符组合而成的序列。例如,从“芹菜是高血压及其并发症辅助治疗的首选”中提取出实体“芹菜”和“高血压”。现在,可以基于双向LSTM对它们之间的关系(芹菜对高血压有益还是有害)进行分类。在图4中,C1–Cn(汉字)、h0、S(句子)和R(输出)均为向量。分类器的输入是C1–Cn和h0的随机初始化向量,输出为O(一个二维向量;O0 是“擅长”关系的概率,O1 是“不擅长”关系的概率。神经网络可以通过训练过程找到最佳的参数 (w) 组合,然后进行分类。
在文本分类处理中的结构。)
尽管循环神经网络(RNNs)能够捕捉长距离依赖,但由于梯度消失问题[43],在实际应用中表现不佳。长短期记忆网络 (LSTMs)[44]是循环神经网络的一种变体,旨在应对这些梯度消失问题。基本而言,一个LSTM单元由三个乘法门组成,用于控制遗忘信息的比例以及传递到下一步时间步的信息比例。图5给出了LSTM单元的基本结构。LSTM记忆单元的实现如下所示。在公式中,σ 是逻辑sigmoid函数,而 i、f、o 和 c 分别为输入门、遗忘门、输出门和细胞向量。权重矩阵的下标含义与其名称一致。例如,Wxi是隐藏层‐输入门矩阵,Wxo是输入‐输出门矩阵等:
$$
i_t = \sigma(W_{xi}x_t + W_{hi}h_{t-1} + W_{ci}c_{t-1} + b_i) \quad (1)
$$
$$
f_t = \sigma(W_{xf}x_t + W_{hf}h_{t-1} + W_{cf}c_{t-1} + b_f) \quad (2)
$$
$$
\tilde{c}
t = \tanh(W
{xc}x_t + W_{hc}h_{t-1} + b_c) \quad (3)
$$
$$
c_t = f_t \odot c_{t-1} + i_t \odot \tilde{c}_t \quad (4)
$$
$$
h_t = o_t \tanh(c_t) \quad (5)
$$
3.4. 基于知识图谱的检索
本节将介绍基于知识图谱的应用,该应用旨在促进对食物营养、食物功效以及食物、症状和人群之间关系的信息检索与分析。该系统能够基于知识图谱为用户提供知识检索、分析和食物推荐功能。
该系统最重要的功能是语义检索,旨在从多个维度解决用户的问题。用户可以搜索五种概念的实体:食材、菜肴、营养元素、症状和人群。该系统不仅可以返回相应的实体属性值,还可以返回知识图谱中与这些实体相关的其他实体。通过使用这一多概念语义检索系统,用户无需再花费时间和精力从不同的数据源中分别检索多个概念,并在脑海中整合信息。图6展示了一个检索功能的实例:用户搜索了“高血压”,该系统基于知识图谱返回了与高血压相关的五种概念的所有实体(本实例展示了相关食材的页面)。所有与高血压相关的食物实体均显示在列表中,同时展示了它们与高血压的关系,包括“对⋯⋯有益_”和“对⋯⋯不利_”,以帮助用户筛选信息。
此外,该系统的另一个功能是为用户提供个性化食物推荐。用户首次使用该系统时,需填写一些问卷并上传舌象照片 [12]。系统可根据问卷内容,结合用户的状况进行个性化推荐。问卷的详细内容如下:
1. 基本信息问卷,包括性别、年龄、身高、体重、职业类别与生活方式、慢性病史等。
2. 体质问卷,包含关于用户是否有症状的问题,旨在基于中医阴阳理论分析其身体状况类别。
3. 舌象照片,用于分析用户的身体状况。
4. 近期不适症状,如眼疲劳、感冒等。
5. 饮食偏好:用户喜欢或不喜欢的食物和口味。
6. 日期和地点。
如图7所示,该系统提取有助于生成个性化推荐的信息。具体包括用户偏好的食物(包括食物或菜肴的名称和类别)、用户所在的省份、当前日期、用户的身体状况、生活状态(包括工作、是否怀孕等)、基本信息(包括年龄、性别、体重、身高)、疾病和不适等。随后,这些信息将根据一些匹配规则与知识图谱中的相应实体进行关联。最后,该系统可返回知识图谱中相关的食物。
4. 结果
这篇论文首先基于自动实体与关系抽取的精确率、召回率和F1值对知识图谱的质量进行了评价。然后,通过用户评估问卷,分析了基于知识图谱的系统是否能够为用户提供健康饮食信息检索,并帮助他们更高效、更全面地搜索和了解饮食与健康。
4.1. 知识图谱评估
知识图谱中自动概念抽取和关系识别的精确率和召回率如表2所示。在概念抽取的评价中,从数据源中随机选取了5000个句子,然后由中医专家手动标注这些句子中相关概念的实体。本工作采用了条件随机场(CRF)算法,其中4000个句子用于训练,1000个句子用于测试。随后,将该方法应用于1000个句子的结果与专家手动标注的结果进行比较,最后计算出精确率、召回率和F1值。对于“症状”概念的实体,F1值为88.89%;对于“人群”概念的实体,F1值为88.24%。
对于关系识别的评价,这篇论文主要评价了最重要的几种关系,包括“食材–好_处–人群”、“食材–坏_处–人群”、“食材–好_处–症状”、“食材–坏_处–症状”、“食材–相同–食材”以及“食材–相关–食材”。关系识别可以分为两个任务,其一是对“食材”与“症状”或“人群”之间的“好_处”或“坏_处”关系进行分类。另一个任务是对两个“食材”实体之间的关系进行分类,判断其为“相同”、“相关”或“不同”。前者同样使用了5000个句子,其中实体及实体间的关系已手动标注。四千个句子用于训练机器分类器,1000个句子用于测试。在此任务中,采用了支持向量机 (SVM)、朴素贝叶斯 (NB)、双向长短期记忆网络 (BiLSTM) 和 K近邻 (KNN) 算法作为分类器,并相互比较了它们的精确率和召回率分数。对于后者,本工作从数据集中随机选取了500对食材实体并进行手动标注(相同实体、相关实体或不同实体)。然后,选择了一些食材的特征作为分类器的输入,例如名称、别名、味道、类别和描述。同样比较了三种算法(即SVM、NB、KNN)的结果。该任务未使用BiLSTM,因为其时间复杂度高于其他算法,训练时间较长,更适合大规模数据。
从表2可以看出,尽管知识图谱是通过自动化机器学习算法半自动构建的,但概念抽取和关系识别各项任务中最佳算法结果的精确率和召回率均高于85%。其中,概念抽取的得分为88.89%和88.24%。“好_处”和“坏_处”关系分类的最佳结果(支持向量机和双向LSTM)为99%,而“相关”关系和“相同”关系的最佳结果(支持向量机)为86%。这验证了该知识图谱具有较高质量。支持向量机在文本分类中一直被认为是一种有效的方法,在“好_处”或“坏_处”关系分类以及“相关”或“相同”关系分类中均取得了最高分。因为它能将大规模数据集压缩为支持向量集并学习分类决策函数,解决了需要大量样本的问题,仅需将一定量的文本数据转化为向量化数据即可提高分类准确率。
双向LSTM在处理文本数据方面也表现出色,因其适用于时间序列数据,而自然语言中的每个句子均可视为由字符组成的序列。此外,LSTM模型解决了传统RNN模型中的梯度消失问题,使其成为自然语言处理 (NLP) 中广泛使用的模型。然而,LSTM的时间复杂度高于其他传统机器学习算法,更适合大规模数据。在对比这些算法的结果后,本工作最终选择支持向量机进行关系识别任务。
| 操作 | 概念或属性 | 算法 | 精确率 | 召回率 | F1值 |
|---|---|---|---|---|---|
| 概念抽取 | 症状 | CRF | 92.00% | 85.98% | 88.89% |
| 人群 | CRF | 88.66% | 85.03% | 88.24% | |
| 关系识别 | 适合_/不适合_ | SVM | 99.00% | 99.00% | 99.00% |
| NB | 91.00% | 87.00% | 88.00% | ||
| LSTM | 99.00% | 99.00% | 99.00% | ||
| KNN | 96.00% | 96.00% | 96.00% | ||
| 相关/相同/不同 | NB | 91.00% | 90.00% | 86.00% | |
| KNN | 72.00% | 81.00% | 76.00% | ||
| SVM | 92.00% | 90.00% | 86.00% |
4.2. 系统评估问卷
为了回答该系统是否能够帮助用户更快速、高效且全面地检索和学习健康饮食信息,这篇论文在实验中选取了90名受试者使用该系统30天,并收集了他们的检索与学习体验、对系统的评价以及实验前后的变化情况。实验前,要求参与者填写一份关于其背景、饮食健康意识、饮食知识、饮食行为以及对中医的理解和态度的问卷。在为期30天的实验期间,他们使用该系统进行信息检索和获取食物推荐,以学习饮食知识。实验结束后,对所有参与者进行了问卷调查和进一步的访谈。问题见表3,其中问题1–7旨在评估该系统对用户信息检索和知识学习的影响,这是本工作的最重要部分,包括他们是否获得了新知识、检索和学习知识的效率与质量等。问题8–12旨在评估参与者饮食行为的变化。问题13–16代表他们对该系统的总体评价。其中,问题6、7、12、15和16为主观问题,其余为客观题。对于客观题,答案可在 −1, −0.5, 0, 0.5和1的量表上选择,正值表示积极态度,负值表示消极态度。绝对值越大,态度越强烈。
| 问题类型 | 问题 |
|---|---|
| 知识推广 |
1. 您通过使用此系统是否学到了有关健康饮食的新知识?
2. 与您之前的学习方法相比,该系统为您提供更丰富、更广泛的健康饮食知识? 3. 与您之前的学习方法相比,该系统提高您的检索和学习效率? 4. 与您以往的学习方式相比,您是否有了更多的对获取和学习健康饮食知识感兴趣吗? 5. 该系统的功能和平台显示是否有助于您检索并理解知识? 6. 您认为还可以添加哪些其他信息和知识到知识库? 7. 该系统在搜索方面具有哪些优点和缺点和学习? |
| 行为促进 |
8. 与以前相比,您能否克服某些垃圾食品诱惑?
9. 与以前相比,您是否有能力选择更健康的食物? 10. 您认为您的饮食是否比以前更健康? 11. 与以前相比,您是否更有可能坚持健康饮食习惯? 12. 您的饮食或健康行为有哪些变化? |
| 系统的概述 |
13. 您是否愿意继续使用该系统?
14. 该系统的功能是否先进且合理? 15. 该系统有哪些优点或缺点? 16. 您对该系统有任何意见或建议吗? |
受试者在客观题上的平均得分如图8所示。所有维度中各问题的得分均为正值,表明受试者对该系统整体工作持有积极态度。此外,根据背景调查中参与者的健康饮食意识将其分类:强烈健康意识(几乎每餐都会考虑饮食健康)、一般健康意识(有时会考虑饮食健康)和薄弱健康意识(几乎从不考虑饮食健康)。不同组别之间的得分差异较小。相对而言,具有强烈健康意识的参与者评价得分更高,这可能是因为他们更频繁地使用该系统,学习了更多知识,并且坚持健康饮食的时间更长。因此,培养人们的健康意识非常重要。此外,调查还显示,信任中医的参与者对该系统的评价更好。
关于知识推广(问题1–7),所有问题都得到了受试者更为积极的回答,尤其是问题1。对于问题2,三分之二的参与者给出了非常积极的回答,而其他人则不确定本研究中的饮食知识是否比其他平台更丰富和广泛。问题3和问题5表明,该系统通过整合多数据源的数据和语义检索,提高了受试者的检索和学习效率以及知识范围。此外,使用该系统还提升了受试者的学习兴趣(问题4)。然而,这一点在很大程度上取决于服务时间以及他们能否坚持健康饮食,因为部分兴趣来源于他们对系统的 curiosity 和坚持健康饮食所带来的成就感。
在行为促进方面,积极影响有限(问题8–12)。问题8、问题10和问题11的较低分数表明,如何帮助用户坚持健康饮食习惯仍然是一个问题。然而,许多受试者仍然认为他们的饮食比以前更健康。尽管他们中许多人无法持续保持健康饮食,但他们或多或少会选择一些健康食品,或避免一些对他们有害的食物。许多受试者提到,在使用该系统期间,他们消费的食物种类增加,特别是以前不喜欢的食物。63%的参与者减少了肉类产品和垃圾食品(如烧烤、炸鸡、含糖饮料、不健康零食、腌制食品等)的消费。此外,51%的参与者增加了蔬菜、水果和谷物的摄入。
最后,分析了受试者对整个系统的看法(问题13–16)。大多数受试者表示满意,并愿意继续使用该系统。仅有六名参与者表示不愿意继续使用该系统。此外,参与者在系统层面提出了许多意见和建议。其中一个问题是目前知识不足,导致某些症状无法搜索,且某些实体的描述过于简略。另一个问题是概念可以扩展。在应用层面,许多参与者希望提供更有趣的应用和更好的界面。
5. 讨论
在三个评估方面(即知识、行为和系统评估)中,参与者对该工作均给予了正面评价。受试者通过该系统获得了知识,减少了垃圾食品的摄入,并增加了绿色食品的摄入。在知识推广方面获得了最高评分,尤其是在问题1中。整个系统的概述也得到了非常好的评价,用户提出了一些建议,可作为未来工作的指导。然而,在行为促进方面,正面评价有限。问题8、10和11的较低分数表明,在健康饮食推广中仍需要解决一些问题。
在知识推广方面,通过用户回答分析了一些优势,这也是本工作的创新与贡献。首先,访谈结果显示,所有受试者都通过该系统获得了新的健康知识,因为知识图谱从包含多个概念(如营养、症状和人群)的多数据源中整理了食物知识,并涉及营养、中医、食物类别和烹饪方法等多维知识。因此,即使是健康知识某一方面已有较好理解的人,也能从该系统中学到其他方面的知识。这可以解释为何问题1获得了非常积极的评分。其次,许多参与者认为,本工作中的知识图谱具有更清晰的概念间关系,可直接进行搜索和浏览,而其他平台中的这些关系可能隐藏在描述中。这体现了知识图谱出色的知识整合与管理能力:它能够整合其他数据源,并以图结构对数据进行存储、管理和表示。相比其他模式,它能更全面地展示知识,尤其是知识节点之间的关系。此外,图的存储结构还能支持更快的响应速度。这些也是该系统提升了受试者的检索和学习效率的原因,正如他们在问题3和问题5的回答中所反映的那样。
从问卷中也可以提取出一些问题。其一是,与一些现有的医疗保健知识库 [37,38] 相比,本研究整合的信息并不够完整,导致某些症状无法搜索,且某些实体的描述过于简略。这就是问题2 得分不高的原因——部分用户不确定本研究中的饮食知识比其他平台更丰富和广泛。其中一个原因是,中文的健康饮食结构化数据源远少于英文。因此,这篇论文设计了数据处理方法,用于从自然语言句子中提取知识,从而能够从更多开放互联网数据源构建知识图谱,这是本文的优势所在。同时,在系统当前版本中,一些数据源(例如现有的医学知识库、专业科学论文和在线百科数据)尚未纳入,未来将添加到知识图谱中。另一个问题是问题4 中反映的用户学习兴趣。随着使用系统的时间推移,参与者的学习兴趣在很大程度上有所下降,这意味着系统需要不断推出新功能以维持用户的兴趣。这也是行为促进相关问题获得的积极态度较少的原因之一。
在行为促进方面,该系统可以通过向用户提供饮食知识以改变其饮食决策,从而促进用户的健康行为。“由于我经常眼疲劳,这个系统向我推荐了胡萝卜。起初,我忽略了这一提醒,因为我不喜欢吃蔬菜,但现在我决定尝试吃胡萝卜并改变我的饮食习惯。”另一位受试者说:“每天每顿饭都要考虑吃什么让我非常困扰。因此,我会长时间吃相同的食物。这个系统向我推荐了许多不同的菜肴”。此外,63%的高糖、高盐、高脂饮食习惯的参与者其膳食结构发生了明显变化,51%的参与者增加了蔬菜、水果和谷物的摄入。这表明该系统有助于促进均衡饮食,并减少肉类制品和垃圾食品的摄入。有强烈减肥愿望的人更有可能改变并保持均衡饮食,而没有此目标的人则变化较小。
然而,这种行为能持续多久仍是一个问题,这也是问题8、10和11得分较低的原因。三分之一的参与者对自己能否长期坚持健康饮食几乎没有或完全没有信心。他们无法坚持的原因多种多样,包括饮食偏好、复杂的烹饪方法、工作繁忙、外卖便利、快餐流行等。此外,个性、健康意识、经济状况、家庭影响和身体健康等情况也影响着人们是否能够坚持健康饮食。由于影响因素复杂,仅依靠本系统难以彻底改变不良饮食习惯并促进健康饮食。而且,用户是否能养成健康饮食习惯还需要更长时间的观察。目前,一些其他研究已在健康行为干预方面产生了积极效果[27–31]。这些系统中加入了游戏化、社交网络以及专家或教师参与等元素,以帮助用户持续保持健康饮食。在未来的工作中,一个研究方向是将本文中的知识管理方法与这些干预方法相结合,以实现更好的行为促进。
最后,关于整个系统的概述,只有六名受试者表示不愿意使用该系统。主要原因包括缺乏兴趣、难以坚持以及生活态度问题。一位参与者表示,她不喜欢对自己的日常饮食做过于详细的计划,更愿意按照自己的习惯进行。另一位受试者表示,即使系统推荐的食物对她有益,但她不喜欢吃的食物也很难坚持食用。此外,通过问题15和16,我们提取出了一些可用于指导未来工作的建议。首先,未来的工作将整合更多的数据源,并提取更多的实体和关系以完善知识图谱。其次,我们将细化数据模式的定义,并扩展概念和关系的类型。例如,希望食物推荐功能能够考虑季节、气候、地理位置、身体部位、宗教文化、运动等其他因素。最后,在应用层面,许多参与者希望可以提供更有趣的应用和更好的界面。目前,尽管该系统能够帮助用户快速搜索某些信息,但如何实现用户的可持续学习,并使其坚持健康饮食,仍然是一个重要问题。
应讨论本研究的局限性。在文化层面,本研究的部分知识基于中国饮食文化和中医理论,这对于不在该文化圈内或不信任中医的人们来说,学习和理解起来较为不便。此外,中医理论在医疗保健方面也存在局限性。世界上还存在许多其他不同的饮食文化和医疗保健理论。未来,本研究将对不同的健康饮食文化进行更深入的调查,并设计一个多文化的饮食知识图谱模型。
6. 结论
这篇论文设计了数据模式,整合了多数据源的数据,构建了一个包含食材、菜肴、营养元素、症状、人群和中国的中医文化等概念的健康饮食知识图谱,通过多种关系连接这些概念,展示了一个完整的饮食健康知识系统。然后,作为国民健康饮食教育的一种方法,本工作基于该知识图谱实现了一个语义检索与推荐应用,以向用户提供知识。问卷和初步访谈的结果显示,大多数人对知识推广、行为促进和系统概述这三个维度持积极评价。本研究帮助用户提高了信息获取效率和知识学习范围,在一定程度上促进了健康饮食行为。
这项工作帮助用户基于知识图谱加速健康饮食知识的检索与学习,并更全面地理解知识。首先,来自各个领域的概念为用户提供了一个全面的视角。其次,网络能够清晰地展示知识之间的关系。第三,为业余用户提供了更易获取的中医理论信息。最后,知识图谱的存储和知识表示使用户能够更快、更高效地进行检索和学习。这篇论文通过普及健康饮食知识,为医疗保健和国家可持续发展做出贡献。
这种教育可以帮助人们获取知识,保持均衡饮食以预防疾病,从而在肉类和垃圾食品消费急剧增加导致环境负面影响的情况下奠定应对基础,并有助于减少因不健康的饮食结构引发疾病所带来的医疗保健和社会经济成本。
该工作的局限性如下。首先,在知识图谱层面,数据库中整合的数据有限。应整合更多不同类型和来源的数据,并对概念和关系进行扩展和持续改进。其次,需要提出更多基于新技术以及健康教育和行为促进其他方法的解决方案,以帮助用户保持健康饮食。此外,在文化层面,大部分知识基于中国饮食文化和中医理论,这使得不属于该文化圈或不信任中医的人们难以使用该系统进行学习。
未来的工作包括:首先,改进知识图谱中的模式和数据源,例如添加季节、地点、运动、心理等概念;挖掘食物与这些概念之间的更多关系;整合更多数据源,包括专业书籍和百科全书,为用户提供更丰富的知识。特别是应在知识图谱中增加环境与食物之间的更多关系,例如可加入每种食物产品的温室气体排放数据,以提醒用户其消费行为带来的环境影响。其次,本研究将进一步开发更多基于知识的应用,并深入分析用户难以坚持健康饮食的原因。功能设计将不仅关注知识获取,更注重培养用户的兴趣和目标,以促进健康饮食行为。最后,目前的知识图谱和系统功能主要涵盖中国食物及饮食文化,未来版本将纳入世界各地更多的饮食文化。
3105

被折叠的 条评论
为什么被折叠?



