返回
顶部

WordStat 2022—内容分析和文本挖掘软件

软件试用 获取报价

软件简介

WordStat 是一款灵活且易于使用的文本分析软件——无论您是需要文本挖掘工具来快速提取主题和趋势,还是需要使用最先进的定量内容分析工具进行仔细和精确的测量。任何需要从大量文档中快速提取和分析信息的人都可以使用 WordStat。
我们的内容分析和文本挖掘软件可用于许多应用,例如开放式响应分析、商业智能、新闻报道的内容分析、欺诈检测等。WordStat 与SimStat、QDA Miner和Stata的无缝集成 – 来自 StataCorp 的综合统计软件,为您提供前所未有的灵活性来分析文本并将其内容与结构化信息相关联,包括数字和分类数据。

新闻动态

【十大网投平台信誉排行榜首页】WordStat 2022 新功能新特性

【十大网投平台信誉排行榜首页】WORDSTAT新版本9.0全面支持“中文”数据分析



主要作用

从许多来源导入
提取实体,关键字,短语,主题
使用最新主题建模探索内容
自动将内容分类
探索文本和数字之间的关系
使用交互式可视化工具


软件功能概述

使用文本挖掘来浏览文档内容

• 使用WordStat分析大量非结构化信息。该软件每分钟可处理2500万个单词,使用聚类,多维缩放,邻近图等功能快速提取主题并自动识别模式。


使用浏览器模式快速提取含义

• 使用资源管理器模式快速轻松地从大量文本数据中提取含义,特别是针对那些文本挖掘经验很少的人。只需单击一下,就可以提取文档中最常用的单词,短语和最突出的主题。


来自许多来源的进口

• 导入Word,Excel,HTML,XML,SPSS,Stata,NVivo,PDF和图像。连接并直接从社交媒体,电子邮件,网络调查平台和参考管理工具导入。


使用主题建模提取最显着的主题

• 使用基于单词,短语和相关单词(包括拼写错误)的最新自动主题提取功能,快速概览非常大型的文本集中最重要的主题。


探索连接

• 探索单词或概念之间的关系,并检索与特定连接关联的文本段。


与结构化数据相关的文本

• 探索非结构化文本与结构化数据(例如日期,数字或分类数据)之间的关系,以识别子组之间的时间趋势或差异,或使用统计和图形工具(对应分析,热图,气泡图等)。


使用字典分类您的文本数据

• 使用现有词典实现全文分析自动化,或使用单词,短语,邻近规则等创建您自己的分类模型。


为词典建筑获得独特的帮助

• 使用提取常用短语和技术术语并在文本集合中快速识别拼写错误,同义词,反义词和相关单词的工具,更快地构建词典。


使用机器学习分类您的文本数据

• 使用朴素贝叶斯和K最近邻来开发和优化自动文档分类模型。


一次单击即可返回源文件

•通过从几乎所有功能,图表或图形返回到文本来验证或深入分析。您可以使用“关键字检索”或“上下文中的关键字”功能来检索句子,段落或整个文档。这在建立分类法或消除词义歧义时特别有用。您还可以将QDA Miner代码附加到检索到的段。


执行定性编码

• 将 WordStat与最新的定性编码工具(QDA Miner)结合使用,以在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。


将非结构化文本转换为交互式地图(GIS映射)

• 将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。


自动提取命名实体

• 自动提取命名的实体,可以使用简单的拖放操作将其添加到分类字典中。


导出结果

• 轻松将文本分析结果导出为常见的行业文件格式,例如Excel,SPSS,ASCII,HTML,XML,MS Word和图形(例如PNG,BMP和JPEG)。


使用 Python 脚本转换文本

• 使用 Python 脚本及其全部开放源代码库预处理或转换文本文档,以便在 WordStat 中进行分析。


特征

借助WordStat,数据分析师可以从大量文档中快速提取有价值的文本分析结果,这些文档包括客户反馈,电子邮件,开放式回复,采访记录,事件报告,专利,法律文档,博客,网站等。这是WordStat的内容分析和文本挖掘功能的列表:

从许多来源导入

WordStat允许您从许多来源直接导入多语言内容:
• 导入文档: Word,PDF,HTML,PowerPoint,RTF,TXT,XPS,ePUB,ODT,WordPerfect。
• 导入数据文件: Excel,CSV,TSV,Access
• 从统计软件导入: Stata,SPSS
• 从社交媒体导入: Facebook,Twitter,Reddit,YouTube,RSS
• 从电子邮件导入: Outlook,Gmail,MBox
• 从网络调查中导入: Qualtrics,SurveyMonkey,SurveyGizmo,QuestionPro,Voxco,Triple-S
• 从参考管理工具中导入: Endnote,Mendeley,Zotero,RIS
• 导入图形: BMP,WMF,JPG,GIF,PNG。自动提取与这些图像相关的任何信息,例如地理位置,标题,描述,作者,评论等,并将其转换为变量
• 从XML数据库导入
• ODBC数据库连接可用。
• 从定性软件导入项目: NVivo,Atlas.ti,Qdpx文件
• 导入和分析多语言文档,包括从右到左的语言
• 监视特定的文件夹,并自动导入存储在此文件夹中的所有文档和图像,或监视对原始源文件或联机服务的更改。


整理数据

多种功能使您可以通过使分析过程简单明了的方式轻松组织数据:
快速分组,标记,排序,添加,删除文档或查找重复项。
使用“文档转换向导”手动或自动将变量分配给您的文档,即:日期,作者或人口统计数据,例如年龄,性别或位置。
轻松地对变量进行重新排序,添加,删除,编辑和重新编码。
根据变量值过滤大小写。


使用资源管理器模式快速提取含义

使用资源管理器模式可以快速,轻松地从大量文本数据中提取含义,这是专门为那些文本挖掘经验很少的人设计的。
使用主题建模工具,找出最常用的单词,短语并提取文档中最重要的主题。在任何时候,您都可以切换到专家模式,从而可以使用所有WordStat的功能。


使用文本挖掘浏览文档内容

在几秒钟内,探索大量非结构化数据的内容并提取有见地的信息:
提取最常用的单词,短语,表达方式。
在单词或短语上使用聚类或2D和3D多维缩放快速提取主题。
使用邻近图轻松识别与目标关键字同时出现的所有关键字。
使用链接分析功能探索单词或概念之间的关系。
通过应用关键字同时出现条件(在一个案例中,一个句子,一个段落,一个n个单词的窗口,一个用户定义的片段)以及聚类方法(一阶和二阶接近度,选择)来微调分析相似性指标)。 使用分层聚类,多维缩放,链接分析和邻近图来探索概念或文档之间的相似性。


使用主题建模来提取最突出的主题

通过将自然语言处理和统计分析(NNMF或因子分析)结合使用,不仅对单词而且对短语,都可以使用最新的自动主题提取功能,从大型文本集中快速浏览最重要的主题和相关单词(包括拼写错误)。
在层次聚类分析中,一个单词可能仅出现在一个聚类中,主题建模可能导致一个单词与多个主题相关联,这一特征更现实地表示了某些单词的多义性以及该单词的多个上下文单词用法。


探索联系

使用网络图探索单词或概念之间的联系。使用三种布局类型检测共现的基础模式和结构:多维缩放,基于力的图形和圆形布局。
图是交互式的,可用于探索关系并检索与特定连接关联的文本段。


使文本与结构化数据相关

探索非结构化文本与结构化数据之间的关系:
识别时间趋势,子组之间的差异,或使用统计和图形工具(偏差表,对应分析,热图,气泡图等)评估与等级或其他类别或数字数据的关系。
使用不同的关联度量来评估单词出现与名义或有序变量之间的关系:卡方,似然比,Tau-a,Tau-b,Tau-c,对称Somers'D,非对称Somers'Dxy和Dyx,Gamma,Person's R,斯皮尔曼的Rho。


使用字典对文本数据进行分类

使用现有词典实现全文分析自动化,或者创建您自己的单词和短语分类模型。
在字典中,可以实现布尔(AND,OR,NOT)和接近度规则(NEAR,AFTER,BEFORE)并使用正则表达式公式快速从文本数据中提取特定信息。
字典调节的词法修饰和词干支持多种语言,并且自动单词替换选项使您可以用目标关键字替换多个单词。用户定义的停用词列表可用多种语言提供,以避免不必要的常用词(例如他,她,它等)在分析中使用。


获得独特的词典构建帮助

通过提取常用短语和技术术语以及在文本集合中快速识别拼写错误和相关单词(同义词,反义词,全名,同义词,上位词,下位词)的工具,获得真正独特的计算机协助,以建立分类标准。


使用机器学习自动对文本数据进行分类

使用朴素贝叶斯和K-Nearest邻居开发和优化自动文档分类模型。用户可以选择多种验证方法:留一法,n折交叉验证,分割样本。实验模块可用于轻松比较预测模型和精细分类模型。
分类模型可以保存到磁盘中,并稍后在QDA Miner中的独立文档分类实用程序,命令行程序或编程库中应用。


一键返回原始文档

通过使用关键字检索或上下文中的关键字来检索句子,段落或整个文档,从几乎所有功能,图表或图形中返回文本,从而验证或深入分析。这在建立分类法或消除词义歧义时特别有用。
检索到的文本段可以按关键字或任何自变量排序。您可以将QDA Miner代码附加到检索到的段上,或以表格格式(Excel,CSV等)或文本报告(MS Word,RTF等)将其导出到磁盘。


执行定性编码

将WordStat与最新的定性编码工具(QDA Miner)结合使用,以便在需要时更精确地浏览数据或对特定文档或提取的文本段进行更深入的分析。


将非结构化文本转换为交互式地图(GIS映射)

将非结构化文本数据与地理信息相关联,并创建数据点,主题地图和热图的交互式图表,以及用于将位置名称,邮政编码和IP地址转换为纬度和经度的地理编码Web服务。


自动提取名称和拼写错误

自动提取命名实体(名称,技术术语,十大正规网堵平台和公司名称),可以使用简单的拖放操作将其添加到分类字典中。
拼写错误和未知单词会自动提取出来,并与用户词典中的现有条目匹配,并且可以迅速添加到词典中。


汇出结果

将文本分析结果导出为常见的行业文件格式(例如Excel,SPSS,ASCII,HTML,XML,MS Word),流行的统计分析工具(例如SPSS和STATA)以及图形(例如PNG,BMP和JPEG)。


使用Python脚本转换文本

使用Python脚本及其全部开放源代码库来预处理或转换文本文档,以便在WordStat中进行分析。


软件新功能

WordStat 2022 版有哪些新功能?

我们很高兴推出 WordStat 2022。从 WordStat 9 到新版本 WordStat 2022(以及新版本号方案)意味着更快地引入每年发布一次的新功能,而不是每 2 或 3 年发布一次,并且很可能甚至每年不止一次。
新的 WordStat 2022 实现了几个重要的功能,虽然没有以前的主要版本那么多,但我们认为它们具有重要意义,特别是对于开发分类模型、分类法或词典。

1. 高度优化的主题建模与因素分析
在 WordStat 2022 中,我们实施了一个新的多线程因素分析例程,比以前的版本快 65 倍。这意味着现在可以在不到一分钟的时间内解决需要一个小时计算的大型问题。我们还能够将因素分析容量增加到 10,000 个单词(之前版本为 3,000 个)。
我们自己的研究工作表明,与依赖 LDA 和神经网络技术的主题建模技术相比,使用因子分析的主题建模产生的主题解决方案更加连贯和多样化(Peladeau & Davoodi,2018 年;Peladeau,2022 年)。它还具有稳定性的额外好处,每次都会产生相同的结果。然而,它的主要不便一直是它的速度和容量。这使我们在 WordStat 8 中实现了一个使用非负矩阵分解(或 NMF)的特殊主题提取例程。这种技术可以更快地产生结果,这些结果与使用因子分析获得的结果非常相似。然而,它的概率实现会导致每次运行的结果略有不同,这让一些研究人员感到有些不安。重要的是要注意,计算机科学中几乎所有其他流行的主题建模技术产生的主题解决方案甚至比我们自定义的 NMF 实现更不稳定。那些寻求最佳和稳定的主题解决方案的人可能会喜欢新的因素分析主题建模例程的速度和容量大大提高。

2.改进了频率页面上的建议
WordStat 早期版本中的“建议”面板显示同义词库可用的语言的同义词、反义词和相关词。它还提供了以相同首字母开头的单词,使人们能够识别一些拼写错误以及相关的单词。一个新的关联词部分现在从文本语料库中检索与频率表中所选词在语义、句法和统计上相关的其他词。这个新功能应该适用于任何语言。默认情况下,条目将按相关性降序排列。同义词、反义词和相关词也会按照相关性降序排列,便于识别合适的建议。人们仍然能够按字母顺序或频率降序对这些条目进行排序。此外,一个新的频率过滤选项可以让人们过滤掉低频建议,让人们专注于更频繁的建议。
由于这种提取相关词和排序建议的新方法与语言无关,因此对于分析没有词库的语言的人来说尤其有用。然而,我们发现,即使有这样的语言资源,基于单词上下文使用的额外建议,以及根据相关性对现有同义词和相关单词进行排序,也应该极大地促进适当项目的识别。


3. 短语提取例程的新建议选项卡。
重叠面板已替换为建议面板,除了重叠短语外,还显示与短语频率表中所选行在语义、句法或统计上相关的短语。此功能也与语言无关。


4. 命名实体识别的改进。
命名实体识别页面中添加了一个新的相关面板。选择单个命名实体将带来相关的命名实体,以及属于同一类(人、地点、组织等)的命名实体。选择一个特定类别的多个示例(例如,多个城市)也将检索属于该类别的更多项目。上下文菜单还允许将任何项目移动到分类词典或排除列表中。还可以对选定的建议执行上下文中的关键字搜索。


5. 上下文关键词表中上下文词的突出显示。
在评估分类词典中的词或候选词时,通常需要查看在目标词或短语出现的上下文中是否存在其他关键字。一种新的突出显示功能允许人们指定要在单词的周围上下文中查找的单词和短语列表。当从主题建模或树状图中调用 KWIC 列表时,或者在评估包含多个条目的内容类别中的项目时,会自动填充此列表。


6.根据频率或距原点的距离过滤对应图中的项目。
超过几百个项目的对应图可能会在图的中心(原点)创建一大堆重叠的项目。添加了一个新的滑块控件以隐藏不太频繁或接近此原点的项目。除非有人想确定一个自变量的所有类的共同点,否则最有趣的项目是那些远离原点的项目,因为它们是不同类的特征。过滤掉这些项目可以让人们更容易地识别不同的项目。

7.改进关键字检索
关键字搜索的结果现在按相关性降序排列,同时考虑匹配项的频率和种类与检索到的文本段的长度的关系。新的频率列也可用于仅按频率排序。

8. 通过连接计算字符串变量
一种新的数据转换命令允许人们通过连接几个现有变量(数字、字符串、日期等)的值以及键入的文本来计算字符串变量。这样的过程也可用于用常量字符串值初始化字符串变量。

9.持久对比图设置
这些比较图表的图表类型和统计数据以及调色板现在链接到变量名称并存储在项目设置中。这些选项应该跨页面(频率、短语、主题建模、树状图等)和会话之间保持不变,从而减少不断重新调整这些选项的需要。


独立文本挖掘平台

学习新软件可能是一项艰巨的任务,特别是具有WordStat等许多功能的软件。以前,WordStat是QDA Miner的附加模块,这要求用户不仅要学习WordStat,还要学习QDA Miner的元素来设置他们的项目。WordStat是一个独立的十大正规网堵平台。这减少了复杂性和学习曲线,因为洪湖现在可以直接在WordStat中创建他们的项目。但是,它仍可以作为QDA Miner , STATA或SimStat的内容分析附件运行。


您现在可以从不同来源在WordStat中创建项目:

• 文件:MS Word , RTF , PDF , HTML等
• 数据文件:Excel , CSA , Stata等
• 网络调查平台:SurveyMonkey , Qualtrics , SurveyGizmo等
• 参考管理工具:Endnote , Zotero , Mendeley
• 社交媒体服务:Twitter,Facebook,RSS Feeds,Youtube
• 电子邮件平台:Outlook ,Gmail,Hotmail,Mbox和EML格式等其他来源


新的探险者模式

实施了一种新的滋源管理模式,允许具有文本挖掘经验的用户快速轻松地从大量文本数据中崎岖含义。您可以使用WordStat 8的改进主体建模工具识别很长用的单词和短语,并在文档中提取突出的主体。您可以随时切换到专家模式,这样您就可以访问所有WordStat功能,包括分析词典,交叉表和贡献分析功能。


改进的主题建模

现有的主题建模例程授予众多改进,例如用于更快主题提取的附加提取算法(NNMF),以及创新的主题丰富过程。这种技术允许人们通过自动选择相关短语并提供其他表达,潜在异常以及拼写更正的建议,超越产痛主题建模典型的“词袋”解决方案。所有这些创新都应该能够更准确,更全面地衡量文本集中的显著主题。


新的和改进的图形显示

WordStat 8有几个新的图形显示,可帮助您更好地理解数据分析的结果。我们改进了交互式词云、圆环图和雷达图表。


偏差表

与其他变量相比,偏差表允许您查看或多或少使用的单词/短语。首先需要激活交叉表按钮才能看到图表。您可以右键单击以查找KIMC,删除并保存到制度分隔符,HTML或位图。


出口到TABLEAU软件的结果

只需单击一下,您还可以将结果导出到Tableau Software,以使用其高级交互式数据可视化工具。


改进的内容分析词典

已对分类词典部分进行了一些新功能和改进,以帮助您更准确地改进行文本搜做并获得更准确的结果。


改进的界面

改进的界面允许快速访问和比较结果,因此可以在几秒钟内提取有价值的见解
WordStat 7 WordStat 8界面对比图如下:


使用PYTHON脚本转换文本

为NLP数据科学家提供了使用Python脚本及其全系列开源库来预处理或转换文本文档以便在WordStat中进行分析的可能性。这一新功能增加了WordStat的灵活性,并允许用户使用它们的Python编程技能。


数字转换

新的数值转换对话框允许您从其他变量计算数值变量,至多包含50个转换函数,包括三角函数、统计函数、随机数函数。也可以使用IF - THEN - ELSE逻辑结构来执行条件变换。


BINNING

现在可以使用分箱功能将连续值转换为较少数量的不同类别。它可用于减少数值异常值,异常分布的影响,或将连续素质转换为序数变量。当数值变量中的不同数值的数量太多事,它对于创建标胶的图形显示特别有用。


EMNJIS的分析

Emojis已经在社交媒体、短信、电子邮件和其他电子通信普遍存在,并且通常用于表示对象,表达想法或情绪或者为书面消息添加细微差别。他们通常是信息的组成部分,很难被忽视。WordStat 8.0可以将表情符号转换为文本形式表达,允许您自己或作为整个消息的一部分来分析他们。


从WINDOWS EXPLORER中探索您的文档

新的文档资源管理器工具允许用户从Windows资源管理器快速浏览文档内容,而无需导入文档或创建项目。您只需选择要浏览的文档或包含它们的文件夹,右键单击并选择“浏览”以快速识别常用的单词和短语以及他们在的文档中的位置。通过简单的右键单击,您还可以使用有线的分类字典文档执行语义搜索,或使用WordStat中的预测魔心对文档进行分类。


WordStat for Stata

Stata的内容分析和文本挖掘工具

Stata是由StataCorp LLC创建的完整,集成的统计软件包。它提供了广泛的统计分析,数据管理和图形。最新版本的Stata添加了许多新功能,其中包括一个长字符串数据类型,该类型允许将其与数字和分类数据一起存储,最多记录20亿个字符。因此,可以创建一个包含期刊摘要,新闻记录,专利,事件报告,客户反馈,访谈等的统计数据库。
创建WordStat for Stata的目的是允许在Windows下运行的Stata 13和Stata 15用户将文本分析技术应用于存储在Stata数据文件中的任何字符串变量。WordStat结合了自然语言处理,内容分析和统计技术,可快速提取大量文本中的主题,模式和关系。它可以在几秒钟内处理数百万个单词,并将提取的主题与Stata文件中的任何其他数字,分类或日期变量进行比较。

它的作用是什么?

任何需要快速提取和分析Stata文本变量中存储的信息的人都可以使用WordStat。它可以用于:
• 直接从社交媒体,在线调查平台,参考管理工具导入文本和定量数据
• 开放式答复,访谈或焦点小组成绩单的内容分析
• 商业智能和竞争网站分析
• 从事件报告中提取信息和发现知识,客户投诉
• 新闻报道或科学文献(科学计量学或文献计量学研究)的内容分析
• 文档的自动标记和分类
• 欺诈检测,作者归属,专利分析
• 分类学开发和验证
• 等等(对于使用WordStat,请参阅研究页面)。


WordStat for Stata 的主要功能

• 探索性文本挖掘
集成的探索性文本挖掘和可视化工具(例如聚类,多维缩放,邻近图等),可快速提取主题并自动识别模式。

• 主题建模
快速概述大型文本集中最突出的主题。侧面面板允许使用条形图或折线图比较特定主题与其他变量之间的频率。

• 分类字典
使用现有的或创建由单词,单词模式,短语和接近规则组成的自定义词典。获得计算机协助,以通过短语和命名实体提取,拼写错误的替换词,集成词库等构建分类法。

• 对比分析
使用统计和图形工具(对应分析,热图,气泡图等)探索非结构化文本与结构化数据之间的关系。

• 链接分析
使用基于力的图,多维比例或圆图来探索单词或提取的概念之间的关系。检索与特定连接关联的文本段。

• 机器学习
通过使用朴素贝叶斯和K最近邻居来开发自动文档分类模型。然后可以将分类模型保存在磁盘上,然后将其重新应用于新数据。

• 充电中
使用交互式可视化工具(例如条形图,折线图,热图,词云,气泡图,MDS图等)来说明模式并探索复杂现象。将图表复制并粘贴或保存到bmp,jpg或png文件中格式。

• 文件转换向导
文档转换向导使您可以轻松地将其以各种文件格式(.DOC,HTML,PDF,TXT)存储的文档导入到新的Stata .dta文件中,并自动从结构化文档中提取数字和字母数字值。

系统需求

操作系统:Microsoft Windows XP , 2000 , Vista , Windows 8和10
内存:从256MB(XP)到1GB(Vista , Windows 8和10)
磁盘空间:40MB


相关软件

  • Stata—数据统计分析软件包
  • MAXQDA—质性数据和混合方法分析软件
  • NVivo—质性分析软件
  • ATLAS.ti8—专业定性数据分析软件
  • Mplus—结构方程模型
  • smartPLS—偏最小二乘结构方程建模软件
  • LISREL—结构方程软件
  • HLM—分层线性模型分析软件
  • AUXAL—结构方程模型分析软件
  • BoundarySeer—空间分析模型软件
  • Nlogit—罗吉特模式软件包
  • SuperMix—混合效应模型分析软件
  • SigmaPlot—科学绘图软件
  • Scientific Workplace—科学论文排版软件
  • EndNote—参考书目软件
  • Stat/Transfer——统计数据格式转换软件

    十大网投平台信誉排行榜首页,英文全称:Beijing Uone Info&Tech Co.,Ltd ( Uone-Tech )是中国大陆领先的教育和科学软件分销商,已在中国300多所高校建立了可靠的分销渠道。拥有最成功的教学资源和数据管理专家。如需申请软件采购及老版本更新升级请十大正规网堵平台,咨询热线:010-56548231 ,咨询邮箱:info@hangemhighdisplay.com 感谢您的支持与关注。