开题报告
题目:多源Web表格自动填写系统的设计与实现
1 选题目的及研究意义
1.1 研究背景
随着信息技术的快速发展和企业信息化建设的深入推进,各类业务系统在日常运行中产生了海量的表格数据。这些表格广泛存在于政府部门、金融机构、教育机构以及各类企业的管理信息系统(MIS)中,承载着关键的业务信息和决策依据。然而,在实际工作中,经常出现以下场景:用户需要将来自多个不同系统的表格数据进行整合,填写到另一张目标表格中。例如,校园信息化管理中,学生的基本信息分散在教务系统、学工系统、财务系统等多个独立系统中,当需要填写奖学金申请表时,学生或管理人员需要从多个系统分别查询数据,再手工录入到申请表中。这一过程不仅耗费大量时间和人力,还容易因手工操作导致数据录入错误。
当前,主流的表格处理方式仍然以手工操作为主。用户需要打开多个Excel文件、登录不同系统查询数据,然后逐项复制粘贴到目标表格中。这种方式在处理少量表格时尚可应付,但当表格数量增多、数据量增大时,效率低下的问题就凸显出来。尽管市面上存在一些数据集成工具,如ETL工具、数据清洗平台等,但这些工具通常需要专业技术人员操作,配置复杂,难以被普通用户直接使用。
与此同时,随着人工智能技术的发展,特别是大语言模型的突破,为表格数据的智能处理提供了新的可能。大语言模型具备强大的语义理解能力,能够理解不同表格中字段的含义,即使字段名称不完全一致,也能推断出它们之间的对应关系。这一特性恰好可以解决多源表格自动填充中最核心的问题——字段匹配。例如,源表格中的“出生日期”和目标表格中的“生日”,在语义上是相同的,大语言模型能够识别这种等价关系。
因此,本研究尝试将传统数据处理技术与大语言模型相结合,构建一个多源Web表格自动填写系统。该系统能够接入来自不同来源的表格数据,利用大语言模型自动理解表格结构、匹配字段对应关系,并自动将数据填充到目标表格中,从而解决多源表格数据集成与填充的难题。
1.2 研究意义
理论价值:
首先,本研究探索了大语言模型在表格数据处理领域的应用方法。现有的大语言模型应用研究多集中于文本生成、问答系统等领域,在结构化表格数据处理方面的研究相对较少。本研究将大语言模型引入表格字段匹配任务,验证其在语义理解方面的优势,可以为表格数据处理领域提供新的思路和方法。
其次,本研究提出了一种“数据清洗-语义匹配-自动填充”的三阶段处理框架。该框架将传统数据处理工具(pandas)与大语言模型(通过LangChain编排)有机结合,形成了一种适用于多源异构数据集成场景的通用处理模式。这种框架设计对其他类似的数据集成问题具有参考价值。
最后,本研究丰富了人机协同系统的设计理论。针对大语言模型输出不确定性的问题,本研究设计了人工确认与调整机制,使系统能够在保证智能化的同时兼顾准确性和可靠性。这种人机协同的设计思路在智能系统设计中具有普遍意义。
应用价值:
在校园管理场景中,本系统可以应用于各类表格的自动填写。例如,学生奖助学金申请表、毕业资格审查表、学籍变动申请表等,都可以从教务系统、学工系统中自动提取相关信息并填充,大幅减轻学生和辅导员的填表负担。
在企业管理场景中,本系统可以帮助企业整合来自不同业务系统的数据。例如,从ERP系统、CRM系统、财务系统中提取数据,自动生成各类管理报表和统计表格,提高数据集成效率,减少重复劳动。
在政府公共服务场景中,本系统可以应用于“一网通办”等政务服务中。市民办理业务时,系统可以从多个政府部门的数据系统中自动提取相关信息,自动填写申请表格,实现“数据多跑路,群众少跑腿”,提升政务服务效能。
在技术应用层面,本系统可以作为数据集成工具的轻量化替代方案。相比于传统的ETL工具需要专业技术人员配置,本系统提供了直观的用户界面,普通用户即可操作,降低了数据集成工作的技术门槛。
2 国内外研究现状
2.1 国内研究进展
国内在表格自动填充领域的研究主要集中在以下几个方面:
(1)基于规则与模板的表格生成方法
《基于多源类比的MIS表格生成》,提出了基于多源类比的拆分与重组理论。该方法将多个已有的MIS表格进行矩阵化表达,利用三层多叉树进行结构类比,通过拆分现有表格的结构和内容,再按需重组,自动生成新的表格。这一研究是早期表格自动生成领域的经典工作,其核心思想是通过对多源表格的结构特征进行提取和匹配,实现表格结构的自动生成。
(2)基于异构数据源的表单填充方法
《一种基于异构数据源实现OA流程表单自动填充的方法》,提出了从第三方业务系统提取数据自动填充OA工作流表单的方法。该研究聚焦企业办公自动化场景,通过提取第三方业务系统接口数据,实现了“一次录入、多次使用”的数据复用机制。该研究涉及多源数据获取、字段映射和自动填充三个核心环节,对多源表格自动填充系统的数据接入模块设计具有参考价值。
(3)基于本体的深度网表单填充方法
《基于本体的深度网入口表单自动填充方法的研究》中,提出了基于本体的深度网入口表单自动填充框架。该研究构建了领域本体作为知识库,设计了本体管理、模式抽取、本体映射、查询转换四个核心模块。通过本体实现表单字段的语义理解与匹配,最终完成查询条件的自动填充。该研究证明了基于语义的表单字段匹配方法是可行的,为后续研究提供了理论基础。
(4)通用表格系统的设计与实现
《校园通用表格系统的设计与实现》设计了一款校园通用表格系统。该系统通过数据库集中管理表格资源,实现了表格的自动生成与自动填充。系统针对表格需要手工填写信息繁多、资源分散的问题,采用信息化技术整合表格模板,降低了填表出错率。该研究提供了一个完整的表格自动填充系统实现案例,其系统架构和功能设计可供参考。
2.2 国外研究进展
国外在表格数据处理领域的研究起步较早,相关成果较为丰富:
(1)表格可连接关系发现
陈哲于2023年在东南大学硕士学位论文《面向可连接关系的网络表格高效搜索技术研究与实现》中,系统研究了网络表格的可连接关系发现方法。该研究提出基于多维属性的表格可连接关系度量方法,从列名特征、字符特征、字符串值分布特征、语义特征和格式特征五个维度提取表格列属性,通过多维度量因素聚合实现表格间可连接关系的准确识别。该研究还在索引构建方面做了大量工作,设计了列属性维度和单元格维度的两级索引,提高了表格搜索效率。
(2)基于大语言模型的表格处理
Wang等人于2025年在APWeb会议上发表《LLMATCH: A Unified Schema Matching Framework with Large Language Models》,提出了一个统一的模式匹配框架。该框架将模式匹配分解为模式准备、表候选选择、列级对齐三个阶段,专门解决多源数据表的字段对齐问题。论文提出的“Rollup模块”(将语义相关的列合并为高阶概念)和“Drilldown模块”(再展开为细粒度列映射)策略,为基于大语言模型的字段匹配提供了可行方案。
(3)异构表格信息提取
徐宛扬等人于2023年在《计算机应用》发表《面向金融网页数据的异构表格信息提取模型》,提出了面向金融网页数据的异构表格信息提取模型。该模型包含基于规则的无监督表格抽取模块和基于多核卷积神经网络的表格解释模块,能够在没有外部知识库的情况下,有效从网页中识别异构表格并规范化,同时处理表格中的文本型信息和数值型信息。实验表明,该模型在精度、召回率和F1值上均优于现有方法。
2.3 现有研究的局限性
综合国内外研究现状,当前在多源表格自动填充领域仍存在以下不足:
(1)语义理解能力有限
现有研究在字段匹配方面,主要依赖基于规则的字符串匹配或基于统计的相似度计算。这类方法难以处理字段名称不规范、同义词替换等语义层面的问题。例如,当源表格列名为“出生日期”,目标表格列名为“生日”时,传统方法难以建立正确的映射关系。基于本体的方法虽然在一定程度上解决了语义问题,但领域本体的构建和维护成本较高,且难以跨领域通用。
(2)多源数据集成能力不足
现有研究大多针对特定数据源进行设计,如仅处理Excel文件,或仅处理数据库导出文件,缺乏对多种数据源统一接入的能力。在实际应用场景中,表格数据可能来自Excel文件、SQL数据库导出、网页表格等多种来源,需要系统具备多源接入和统一处理的能力。
(3)人机协同机制缺失
现有研究大多追求全自动处理,但完全依赖算法的自动匹配往往存在误差。在字段匹配这一关键环节,如果算法匹配错误,可能导致填充结果完全错误。现有研究缺乏有效的人机协同机制,用户难以对系统处理结果进行干预和修正。
(4)可解释性不足
当前基于深度学习或大语言模型的表格处理方法,往往将匹配过程作为“黑盒”处理,用户难以理解系统为什么做出某个匹配决策。这在需要用户确认和调整的场景下,增加了用户的认知负担。
本研究拟针对上述局限性,提出基于LangChain框架和大语言模型的多源Web表格自动填写系统。通过大语言模型强大的语义理解能力解决字段匹配中的语义问题,通过pandas实现多种数据源的统一接入,通过人机协同设计让用户可以干预和修正匹配结果,从而构建一个实用性强、准确率高的表格自动填充系统。
3 相关技术原理及技术路线
3.1 技术原理
3.1.1 多源表格数据接入与统一表示
多源表格数据接入是本系统的基础功能,需要支持来自不同数据源的表格数据统一读取和表示。
(1)Excel文件读取
Excel是最常见的表格数据格式之一。系统通过pandas库的read_excel()函数读取Excel文件,将数据转换为pandas的DataFrame格式。DataFrame是pandas中的核心数据结构,支持行、列索引,便于后续的数据处理和分析。
(2)SQL文件读取
SQL文件通常包含数据库表的结构定义和数据。系统通过SQLAlchemy建立与数据库的连接,然后使用pd.read_sql()函数执行查询并将结果读取为DataFrame。SQLAlchemy是一个Python SQL工具包和对象关系映射器,支持多种数据库后端,可以统一处理不同数据库的SQL文件。
(3)网页表格爬取
网页中的表格通常以HTML的<table>标签形式呈现。系统使用pandas的read_html()函数,该函数能够自动解析HTML页面中的表格,返回一个包含所有表格DataFrame的列表。对于需要登录或动态加载的网页,可以结合Selenium或Playwright等自动化工具,模拟浏览器操作获取完整的页面内容后再进行解析。
(4)统一数据表示
通过上述方式获取的表格数据,统一存储为DataFrame格式。DataFrame提供了统一的数据结构和操作方法,包括列重命名、数据筛选、缺失值处理、数据类型转换等,为后续的数据清洗和字段匹配提供基础。
3.1.2 基于大语言模型的字段匹配
字段匹配是本系统的核心功能,目标是将源表格的列与目标表格的列建立对应关系。本系统利用大语言模型的语义理解能力,通过LangChain框架进行编排,实现字段匹配的自动化。
(1)LangChain框架
LangChain是一个用于构建大语言模型应用的开发框架。它提供了提示词模板、链式调用、结构化输出等核心功能,能够将大语言模型的能力与外部工具(如pandas)进行组合。在本系统中,LangChain负责构造提示词、调用大语言模型、解析模型输出结果。
(2)列语义理解
系统将源表格和目标表格的列信息组织成结构化的提示词输入给大语言模型。提示词包含以下信息:列名、列中前3-5行的示例数据、列的数据类型(如文本、数字、日期)。大语言模型根据这些信息,推断每一列的语义含义,并输出标准化的语义标签。例如,对于列名为“出生年月”、示例数据为“1990-01-01”的列,模型可能输出语义标签“出生日期”。
(3)字段映射推理
在获取列语义标签的基础上,系统将源表格的各列语义标签与目标表格的各列语义标签进行匹配。大语言模型根据语义标签的相似性,以及示例数据的格式特征,推断字段之间的映射关系。例如,源表格的“出生日期”列应该映射到目标表格的“生日”列。
(4)结构化输出
为确保模型输出的可用性,系统使用LangChain的with_structured_output()功能,要求大语言模型以JSON格式输出映射结果。JSON结构包含以下字段:source_column(源列名)、target_column(目标列名)、confidence(置信度)、transform(转换规则)。这种结构化输出便于后续程序解析和处理。
3.1.3 数据转换与填充执行
在获得字段映射关系后,系统需要按照映射规则执行实际的数据转换和填充。
(1)列映射操作
pandas提供了简单的列重命名和列选择操作。系统根据映射关系,从源DataFrame中选择需要的列,并重命名为目标表格的列名。对于不需要的列,自动忽略。
(2)数据格式转换
不同表格对同一类数据的格式要求可能不同。例如,源表格的日期格式可能是“2024/01/01”,而目标表格要求“2024-01-01”。系统使用pandas的pd.to_datetime()函数进行日期格式标准化。对于更复杂的格式转换,可以使用df.apply()函数配合自定义转换逻辑进行处理。大语言模型在输出映射结果时,可以一并输出转换规则,系统根据这些规则自动生成转换代码。
(3)缺失值处理
当源表格中某些数据缺失时,系统需要决定如何处理。pandas提供了多种缺失值处理函数,如fillna()用于填充缺失值,dropna()用于删除缺失行。系统根据用户配置或默认规则,采用合适的缺失值处理策略。
(4)目标表生成
系统根据目标表格的列顺序,重新排列DataFrame的列顺序。对于目标表格中存在但源表格中没有对应映射的列,系统留空或填充默认值。最后,系统将填充完成的DataFrame输出为指定格式(如Excel文件、CSV文件),或写入数据库。
3.1.4 人机协同机制
由于大语言模型的输出存在不确定性,本系统设计了人机协同机制,让用户对匹配结果进行确认和调整。
(1)匹配结果展示
系统在用户界面上以表格形式展示LLM推荐的字段映射关系。表格包含三列:源表格列名、目标表格列名、置信度。高置信度的映射标记为绿色,低置信度的标记为红色,提醒用户重点关注。
(2)用户干预操作
用户可以对推荐的映射关系进行以下操作:确认(接受推荐)、修改(更改映射的目标列)、删除(取消映射)、添加(手动补充缺失的映射)。用户的操作实时更新映射规则。
(3)规则持久化
系统将用户确认后的映射规则保存到数据库中。当同一对表格需要再次填充时,可以直接复用历史规则,无需重复调用大语言模型。这不仅节省了API调用成本,也提高了处理效率。
3.2 技术路线
第一阶段:数据接入与清洗
本阶段的目标是实现多源表格数据的统一接入和初步清洗。
(1)Excel文件接入:使用pandas的read_excel()函数读取上传的Excel文件,获取文件中的工作表列表,让用户选择需要处理的工作表。读取后的数据存储为DataFrame。
(2)SQL文件接入:使用SQLAlchemy连接数据库,执行用户提供的SQL查询语句或直接读取数据库中的表,将结果存储为DataFrame。
(3)网页表格接入:使用pd.read_html()函数解析网页URL,返回页面中的表格列表,让用户选择需要处理的表格。对于动态网页,使用Selenium模拟浏览器操作,获取完整的页面内容后再解析。
(4)数据清洗:对读取的DataFrame进行基础清洗操作,包括:去除空行空列、统一数据类型、处理编码问题、提取列名和示例数据(用于后续LLM输入)。
第二阶段:字段匹配与映射
本阶段的目标是自动发现源表格与目标表格之间的字段对应关系。
(1)列特征提取:从源表格和目标表格的DataFrame中提取列特征,包括:列名、数据类型、前5行示例值、空值比例、唯一值数量。这些特征将作为LLM的输入。
(2)提示词构造:使用LangChain的PromptTemplate构造提示词,将列特征组织成结构化的文本描述。提示词包含以下内容:任务说明(将源表格列映射到目标表格列)、源表格列信息、目标表格列信息、输出格式要求(JSON格式)。
(3)LLM调用与解析:通过LangChain调用大语言模型API,获取模型返回的JSON格式映射结果。使用JSON解析器提取映射关系、置信度和转换规则。
(4)结果展示与人工干预:在用户界面上展示推荐的映射关系,允许用户确认、修改或删除映射。用户操作完成后,将最终映射规则保存到数据库。
第三阶段:数据转换与填充
本阶段的目标是根据映射规则执行数据转换和填充。
(1)数据映射:根据映射规则,从源DataFrame中选择需要的列,使用rename()函数重命名为目标列名。
(2)格式转换:根据转换规则执行数据格式转换。日期列使用pd.to_datetime()标准化,数值列处理单位换算,文本列处理字符串编码。对于复杂的转换规则,使用apply()函数配合自定义转换逻辑。
(3)填充执行:按照目标表格的列顺序重新排列DataFrame。对于没有对应源的列,留空或填充默认值。
(4)结果输出:将填充完成的DataFrame输出为用户指定格式。支持Excel文件导出、CSV文件导出、直接写入数据库。
第四阶段:系统集成与测试
本阶段的目标是完成系统各模块的集成,并进行功能测试和性能评估。
(1)系统集成:使用FastAPI搭建后端服务,提供RESTful API接口。使用Vue.js搭建前端界面,实现文件上传、结果展示、人工干预等交互功能。
(2)功能测试:针对多种数据源接入、字段匹配、数据填充等核心功能设计测试用例,验证系统功能的完整性。
(3)性能评估:在真实表格数据集上测试系统的匹配准确率和处理效率。与纯人工匹配、基于规则的匹配进行对比,评估大语言模型在字段匹配任务中的优势。
4 研究难点及目前存在的问题
4.1 研究难点
4.1.1 大语言模型输出不确定性控制
大语言模型在生成结构化输出时存在不确定性,主要体现在以下方面:
输出格式不稳定:即使使用LangChain的with_structured_output()功能,大语言模型偶尔仍会输出不符合JSON格式的内容,导致解析失败。
映射结果不准确:对于语义模糊的列,如“备注”“说明”等,大语言模型可能产生错误的映射。例如,源表格的“备注”列包含客户偏好信息,目标表格的“备注”列包含订单异常信息,两者语义并不相同,但模型可能错误地建立映射。
置信度评估不可靠:大语言模型输出的置信度分数与实际的匹配准确性之间并非严格对应。有时模型对错误匹配给出高置信度,对正确匹配给出低置信度。
拟采取的措施:设计输出验证机制,对LLM返回结果进行格式验证和语义验证,不合格的结果重新调用或进入人工确认流程。同时,通过少样本学习优化提示词,在提示词中包含正例和反例,帮助模型更好地理解任务要求。人工确认环节作为最终的兜底机制,确保匹配结果的可靠性。
4.1.2 大规模表格的处理效率问题
在实际应用场景中,表格可能包含数万行甚至数十万行数据,处理大规模表格面临效率挑战:
LLM调用成本:LLM调用按输入输出token数计费。如果直接将整个表格数据传入LLM,token数将远超限制,成本高昂。因此,只能传入列名和少量示例数据,但这可能丢失数据分布特征。
数据处理时间:pandas处理百万行级别的数据性能较好,但在复杂转换操作(如逐行apply)时,处理时间会显著增加。用户等待时间过长会影响体验。
拟采取的措施:采用采样策略,只将列名和每列前5-10行示例数据传入LLM,而非整列数据。对于数据转换操作,优先使用向量化操作替代逐行循环,利用pandas的底层优化提升处理效率。对于超大规模表格,考虑分块处理,避免内存溢出。
4.1.3 表格结构与字段语义的多样性
Web表格的结构和字段语义呈现高度多样性,给自动处理带来挑战:
表头位置不统一:有些表格的表头在第一行,有些在第二行或第三行。有些表格没有明确的表头,需要通过示例数据推断列含义。
合并单元格:许多网页表格和Excel表格使用合并单元格,导致表格结构不规则,简单的DataFrame读取方式无法正确解析。
字段语义模糊:同一字段在不同表格中可能有不同的语义。例如,“ID”可能指学生编号、订单编号、商品编号等,需要结合上下文才能准确理解。
拟采取的措施:设计表格结构预处理模块,针对常见的不规则表格(如合并单元格、多行表头)进行规则化处理。在LLM输入中包含列名和示例数据的同时,加入表格标题或所在网页标题等上下文信息,帮助模型理解字段的准确语义。
4.2 目前存在的问题
4.2.1 现有研究在语义匹配方面的不足
当前的多源表格集成研究,大多采用基于字符串匹配或基于统计特征的方法。这类方法在字段名称规范、数据格式一致的情况下表现良好,但在实际应用中,表格数据来自不同来源,字段命名存在很大差异。
例如,某公司的财务系统导出的表格中,“金额”列名为“Amount”,而另一个系统的表格中“金额”列名为“Money”。传统的字符串匹配方法无法识别这种同义关系。即使采用WordNet等词典进行语义扩展,也受限于词典覆盖范围,难以处理领域特定的专业术语。
本研究拟利用大语言模型的语义理解能力,通过上下文学习和少样本学习,让模型能够理解不同领域、不同上下文中字段的语义含义,从而建立准确的字段映射。
4.2.2 数据异构性的挑战
多源表格数据的异构性体现在多个层面:
格式异构:日期格式、数值格式、文本编码在不同表格中存在差异。例如,日期可能是“2024/01/01”、“2024-01-01”、“2024年1月1日”等多种格式。
粒度异构:不同表格对同一实体的描述粒度不同。例如,源表格按“日”记录销售数据,目标表格按“月”汇总,数据粒度不匹配。
结构异构:表格结构差异明显,有的表格是宽表(列多行少),有的是长表(行多列少),需要识别表格类型并进行相应的处理。
本研究拟通过pandas提供的数据清洗和转换功能,处理常见的格式异构问题。对于粒度和结构异构问题,通过大语言模型识别数据关系,生成合适的聚合或展开规则。
4.2.3 用户干预需求的满足
虽然大语言模型在语义理解方面表现出色,但完全自动化处理仍然难以达到100%的准确率。现有系统往往将匹配过程作为黑盒,用户无法干预,导致错误匹配无法及时纠正。
本研究拟设计人机协同机制,在关键环节(字段匹配)让用户参与决策。系统将LLM推荐的匹配结果展示给用户,用户可以根据自己的知识进行确认、修改或补充。这一机制既发挥了LLM的智能化优势,又保证了结果的准确性。
5 研究预期成果
5.1 多源Web表格自动填写系统原型
完成可运行的Web系统原型,包含以下功能模块:
数据接入模块:支持上传.xlsx文件、.sql文件,支持输入网址爬取网页表格。系统自动识别文件格式,将数据统一转换为DataFrame格式,并在界面上展示表格预览。
字段匹配模块:系统自动提取表格结构信息,调用大语言模型进行列语义理解和字段匹配,生成推荐映射关系。用户在界面上查看推荐映射,可以进行确认、修改、删除、添加等操作。
数据填充模块:根据用户确认的映射规则,执行数据转换和填充。填充完成后,系统展示填充结果,并支持导出为.xlsx或.csv文件。
规则管理模块:系统将用户确认的映射规则保存到数据库,当同一对表格再次处理时,直接复用历史规则,无需重复调用大语言模型。
5.2 高准确率的字段匹配机制
通过大语言模型语义理解能力,结合人机协同机制,实现高准确率的字段匹配:
匹配准确率:在包含100组不同领域表格对的测试集上,LLM推荐的字段匹配准确率达到80%以上。用户确认后,最终匹配准确率达到95%以上。
语义覆盖能力:能够处理字段名称不完全一致的情况,包括同义词替换(“出生日期”与“生日”)、缩写与全称(“ID”与“编号”)、中英文对照(“姓名”与“Name”)。
可解释性:系统在展示匹配结果时,同时展示置信度和匹配依据(如“列名相似”、“示例数据格式匹配”),帮助用户理解匹配逻辑。
5.3 易用的Web交互界面
基于Streamlit或Vue.js构建简洁直观的Web界面:
文件上传:支持拖拽上传和点击上传两种方式,支持批量上传多个源表格文件。
表格预览:以表格形式展示上传的源表格和目标表格内容,支持分页浏览。
匹配结果展示:以卡片或表格形式展示LLM推荐的字段映射,用颜色标识置信度高低,支持用户对映射进行编辑操作。
填充结果导出:支持将填充后的表格导出为.xlsx或.csv格式,支持直接预览填充结果。
5.4 毕业设计论文
完成不少于3万字的毕业设计论文,包含以下内容:
绪论:阐述研究背景、研究意义、研究目标和论文结构。
相关技术与研究现状:介绍pandas、LangChain、大语言模型等关键技术,综述国内外相关研究现状。
系统需求分析:分析系统的功能需求和非功能需求,明确系统边界。
系统设计:设计系统总体架构、功能模块、数据库结构、接口规范。
系统实现:详细介绍各模块的实现细节、关键代码、技术难点解决方案。
实验与评估:设计实验方案,评估系统的匹配准确率、处理效率,与现有方法对比分析。
总结与展望:总结研究工作,分析存在的不足,展望未来研究方向。
6 进度安排
| 时间安排 | 主要任务目标 |
|---|---|
| 第1-2周 | 文献调研:阅读多源表格处理、大语言模型应用相关文献;熟悉pandas、LangChain开发框架;完成开题报告初稿 |
| 第3-4周 | 数据接入模块开发:实现.xlsx、.sql、网址爬取三种数据源的接入功能;完成数据清洗与预处理;撰写系统需求分析文档 |
| 第5-6周 | 字段匹配模块开发:设计LLM提示词模板;实现LangChain调用与结构化输出解析;完成匹配结果展示界面;撰写系统设计文档 |
| 第7-8周 | 数据填充模块开发:实现基于映射规则的数据转换与填充;完成结果导出功能;实现人工干预与规则管理功能 |
| 第9-10周 | 系统集成与测试:完成各模块集成;设计测试用例进行功能测试;在真实表格数据集上进行性能评估;修复发现的缺陷 |
| 第11-12周 | 论文撰写:整理实验数据;撰写论文初稿;完成论文插图、表格制作;进行论文自查和修改 |
| 第13-14周 | 系统完善与答辩准备:优化系统界面和用户体验;制作答辩PPT;进行答辩预演和准备 |